鱼C论坛

 找回密码
 立即注册
查看: 671|回复: 3

[已解决]robots.txt的规则

[复制链接]
发表于 2023-10-20 17:54:17 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
rt,我不想让baiduspider爬取我的网站,其它搜索引擎不要爬取private.html,该怎么做?
(现在已经对ai回答没有意见)
最佳答案
2023-10-20 17:54:42
robots.txt是一个用于告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不能抓取的文件。你可以通过在你的网站的根目录下创建一个名为\"robots.txt\"的文件来实现这个目的。

如果你不想让baiduspider爬取你的网站,你可以在robots.txt文件中添加以下内容:
User-agent: Baiduspider
Disallow: /

这将阻止Baiduspider爬取你的网站的任何页面。

如果你不希望任何搜索引擎爬取private.html,你可以添加以下内容:
User-agent: *
Disallow: /private.html

这将阻止所有的搜索引擎爬取private.html页面。

所以,你的完整的robots.txt文件可能看起来像这样:
User-agent: Baiduspider
Disallow: /

User-agent: *
Disallow: /private.html

请注意,虽然大多数搜索引擎都会尊重robots.txt文件的规则,但并非所有的搜索引擎都会这样做。此外,robots.txt文件是公开的,任何人都可以看到你不希望被爬取的页面,所以不应该用来隐藏敏感信息。
请注意,本回答来自GPT-4
如果问题已经解决,请设置最佳答案
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-10-20 17:54:42 | 显示全部楼层    本楼为最佳答案   
robots.txt是一个用于告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不能抓取的文件。你可以通过在你的网站的根目录下创建一个名为\"robots.txt\"的文件来实现这个目的。

如果你不想让baiduspider爬取你的网站,你可以在robots.txt文件中添加以下内容:
User-agent: Baiduspider
Disallow: /

这将阻止Baiduspider爬取你的网站的任何页面。

如果你不希望任何搜索引擎爬取private.html,你可以添加以下内容:
User-agent: *
Disallow: /private.html

这将阻止所有的搜索引擎爬取private.html页面。

所以,你的完整的robots.txt文件可能看起来像这样:
User-agent: Baiduspider
Disallow: /

User-agent: *
Disallow: /private.html

请注意,虽然大多数搜索引擎都会尊重robots.txt文件的规则,但并非所有的搜索引擎都会这样做。此外,robots.txt文件是公开的,任何人都可以看到你不希望被爬取的页面,所以不应该用来隐藏敏感信息。
请注意,本回答来自GPT-4
如果问题已经解决,请设置最佳答案
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-20 17:55:02 | 显示全部楼层
你可以通过在网站的根目录下创建一个名为"robots.txt"的文件来控制搜索引擎的爬取行为。对于你的需求,你可以按照以下规则来编写robots.txt文件:
User-agent: Baiduspider
Disallow: /

User-agent: *
Disallow: /private.html

上述规则中,"User-agent"指定了要控制的搜索引擎的名称,"Disallow"指定了不允许被访问的路径。在这个例子中,我们首先针对"Baiduspider"搜索引擎设置了"Disallow: /",意味着不允许该搜索引擎访问整个网站。然后,通过"User-agent: *"和"Disallow: /private.html"的组合,我们指定了其他所有搜索引擎都不允许访问"private.html"页面。

请注意,虽然这些规则可以阻止搜索引擎爬取指定的页面,但并不能保证搜索引擎完全遵守这些规则。一些搜索引擎可能会忽略robots.txt文件中的规则。因此,如果你对页面的访问权限非常重要,你可能需要采取其他措施来确保页面的安全性。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-20 17:55:48 | 显示全部楼层
robots.txt规则限制搜索引擎爬取

要通过robots.txt文件来限制baiduspider爬取网站并禁止其他搜索引擎爬取特定页面(如private.html),你可以按照以下步骤进行设置:

1. 创建一个名为robots.txt的文本文件。

2. 在文件中添加以下内容:

   [/code]
   User-agent: Baiduspider
   Disallow: /

   User-agent: *
   Disallow: /private.html
   [/code]

   上述规则的含义是:
   - User-agent: Baiduspider:针对Baiduspider搜索引擎的规则。
   - Disallow: /:禁止Baiduspider爬取整个网站。
   - User-agent: *:适用于所有其他搜索引擎的规则。
   - Disallow: /private.html:禁止所有其他搜索引擎爬取private.html页面。

   请注意,Disallowed路径是相对于网站根目录的路径,确保路径设置正确。

3. 将robots.txt文件保存在网站的根目录下。

   确保robots.txt文件可以通过以下URL访问:https://www.example.com/robots.txt(将www.example.com替换为你的网站域名)。

4. 验证robots.txt文件的配置是否生效。

   - 打开你的网站的URL(例如https://www.example.com/private.html)。
   - 使用网络浏览器的开发者工具或在线robots.txt验证工具,检查Disallow规则是否阻止了搜索引擎的访问。

请注意,robots.txt文件是一种建议性的标准,而不是强制性的控制机制。大多数搜索引擎都会遵守robots.txt规则,但并不能保证所有搜索引擎都会完全遵循。

希望这对你有所帮助!如果还有其他问题,请随时提问。

球一个最佳答案谢谢啦!这对我非常重要!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-21 21:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表