歌者文明清理员 发表于 2023-10-20 17:54:17

robots.txt的规则

rt,我不想让baiduspider爬取我的网站,其它搜索引擎不要爬取private.html,该怎么做?
(现在已经对ai回答没有意见)

陶远航 发表于 2023-10-20 17:54:42

robots.txt是一个用于告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不能抓取的文件。你可以通过在你的网站的根目录下创建一个名为\"robots.txt\"的文件来实现这个目的。

如果你不想让baiduspider爬取你的网站,你可以在robots.txt文件中添加以下内容:

User-agent: Baiduspider
Disallow: /


这将阻止Baiduspider爬取你的网站的任何页面。

如果你不希望任何搜索引擎爬取private.html,你可以添加以下内容:

User-agent: *
Disallow: /private.html


这将阻止所有的搜索引擎爬取private.html页面。

所以,你的完整的robots.txt文件可能看起来像这样:

User-agent: Baiduspider
Disallow: /

User-agent: *
Disallow: /private.html


请注意,虽然大多数搜索引擎都会尊重robots.txt文件的规则,但并非所有的搜索引擎都会这样做。此外,robots.txt文件是公开的,任何人都可以看到你不希望被爬取的页面,所以不应该用来隐藏敏感信息。
请注意,本回答来自GPT-4
如果问题已经解决,请设置最佳答案

isdkz 发表于 2023-10-20 17:55:02

你可以通过在网站的根目录下创建一个名为"robots.txt"的文件来控制搜索引擎的爬取行为。对于你的需求,你可以按照以下规则来编写robots.txt文件:

User-agent: Baiduspider
Disallow: /

User-agent: *
Disallow: /private.html


上述规则中,"User-agent"指定了要控制的搜索引擎的名称,"Disallow"指定了不允许被访问的路径。在这个例子中,我们首先针对"Baiduspider"搜索引擎设置了"Disallow: /",意味着不允许该搜索引擎访问整个网站。然后,通过"User-agent: *"和"Disallow: /private.html"的组合,我们指定了其他所有搜索引擎都不允许访问"private.html"页面。

请注意,虽然这些规则可以阻止搜索引擎爬取指定的页面,但并不能保证搜索引擎完全遵守这些规则。一些搜索引擎可能会忽略robots.txt文件中的规则。因此,如果你对页面的访问权限非常重要,你可能需要采取其他措施来确保页面的安全性。

Mike_python小 发表于 2023-10-20 17:55:48

robots.txt规则限制搜索引擎爬取

要通过robots.txt文件来限制baiduspider爬取网站并禁止其他搜索引擎爬取特定页面(如private.html),你可以按照以下步骤进行设置:

1. 创建一个名为robots.txt的文本文件。

2. 在文件中添加以下内容:

   
   User-agent: Baiduspider
   Disallow: /

   User-agent: *
   Disallow: /private.html
   

   上述规则的含义是:
   - User-agent: Baiduspider:针对Baiduspider搜索引擎的规则。
   - Disallow: /:禁止Baiduspider爬取整个网站。
   - User-agent: *:适用于所有其他搜索引擎的规则。
   - Disallow: /private.html:禁止所有其他搜索引擎爬取private.html页面。

   请注意,Disallowed路径是相对于网站根目录的路径,确保路径设置正确。

3. 将robots.txt文件保存在网站的根目录下。

   确保robots.txt文件可以通过以下URL访问:https://www.example.com/robots.txt(将www.example.com替换为你的网站域名)。

4. 验证robots.txt文件的配置是否生效。

   - 打开你的网站的URL(例如https://www.example.com/private.html)。
   - 使用网络浏览器的开发者工具或在线robots.txt验证工具,检查Disallow规则是否阻止了搜索引擎的访问。

请注意,robots.txt文件是一种建议性的标准,而不是强制性的控制机制。大多数搜索引擎都会遵守robots.txt规则,但并不能保证所有搜索引擎都会完全遵循。

希望这对你有所帮助!如果还有其他问题,请随时提问。

球一个最佳答案谢谢啦!这对我非常重要!{:10_254:}{:10_254:}{:10_254:}
页: [1]
查看完整版本: robots.txt的规则