[已解决]robots.txt的规则

歌者文明清理员 · 发表于 2023-10-20 17:54:17

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

rt，我不想让baiduspider爬取我的网站，其它搜索引擎不要爬取private.html，该怎么做？
（现在已经对ai回答没有意见）

最佳答案

月排行榜 / 总排行榜

陶远航

2023-10-20 17:54:42

robots.txt是一个用于告诉搜索引擎爬虫哪些页面可以抓取，哪些页面不能抓取的文件。你可以通过在你的网站的根目录下创建一个名为\"robots.txt\"的文件来实现这个目的。

如果你不想让baiduspider爬取你的网站，你可以在robots.txt文件中添加以下内容：

User-agent: Baiduspider
Disallow: /

复制代码

这将阻止Baiduspider爬取你的网站的任何页面。

如果你不希望任何搜索引擎爬取private.html，你可以添加以下内容：

User-agent: *
Disallow: /private.html

复制代码

这将阻止所有的搜索引擎爬取private.html页面。

所以，你的完整的robots.txt文件可能看起来像这样：

User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow: /private.html

复制代码

请注意，虽然大多数搜索引擎都会尊重robots.txt文件的规则，但并非所有的搜索引擎都会这样做。此外，robots.txt文件是公开的，任何人都可以看到你不希望被爬取的页面，所以不应该用来隐藏敏感信息。
请注意，本回答来自GPT-4
如果问题已经解决，请设置最佳答案

跳转到最佳答案楼层

陶远航 · 发表于 2023-10-20 17:54:42

robots.txt是一个用于告诉搜索引擎爬虫哪些页面可以抓取，哪些页面不能抓取的文件。你可以通过在你的网站的根目录下创建一个名为\"robots.txt\"的文件来实现这个目的。

如果你不想让baiduspider爬取你的网站，你可以在robots.txt文件中添加以下内容：

User-agent: Baiduspider
Disallow: /

复制代码

这将阻止Baiduspider爬取你的网站的任何页面。

如果你不希望任何搜索引擎爬取private.html，你可以添加以下内容：

User-agent: *
Disallow: /private.html

复制代码

这将阻止所有的搜索引擎爬取private.html页面。

所以，你的完整的robots.txt文件可能看起来像这样：

User-agent: Baiduspider
Disallow: /
User-agent: *
Disallow: /private.html

复制代码

请注意，虽然大多数搜索引擎都会尊重robots.txt文件的规则，但并非所有的搜索引擎都会这样做。此外，robots.txt文件是公开的，任何人都可以看到你不希望被爬取的页面，所以不应该用来隐藏敏感信息。
请注意，本回答来自GPT-4
如果问题已经解决，请设置最佳答案

isdkz · 发表于 2023-10-20 17:55:02

你可以通过在网站的根目录下创建一个名为"robots.txt"的文件来控制搜索引擎的爬取行为。对于你的需求，你可以按照以下规则来编写robots.txt文件：

User-agent: Baiduspider

Disallow: /

User-agent: *

Disallow: /private.html

复制代码

上述规则中，"User-agent"指定了要控制的搜索引擎的名称，"Disallow"指定了不允许被访问的路径。在这个例子中，我们首先针对"Baiduspider"搜索引擎设置了"Disallow: /"，意味着不允许该搜索引擎访问整个网站。然后，通过"User-agent: *"和"Disallow: /private.html"的组合，我们指定了其他所有搜索引擎都不允许访问"private.html"页面。

请注意，虽然这些规则可以阻止搜索引擎爬取指定的页面，但并不能保证搜索引擎完全遵守这些规则。一些搜索引擎可能会忽略robots.txt文件中的规则。因此，如果你对页面的访问权限非常重要，你可能需要采取其他措施来确保页面的安全性。

Mike_python小 · 发表于 2023-10-20 17:55:48

robots.txt规则限制搜索引擎爬取

要通过robots.txt文件来限制baiduspider爬取网站并禁止其他搜索引擎爬取特定页面（如private.html），你可以按照以下步骤进行设置：

1. 创建一个名为robots.txt的文本文件。

2. 在文件中添加以下内容：

[/code]
User-agent: Baiduspider
Disallow: /

User-agent: *
Disallow: /private.html
[/code]

上述规则的含义是：
- User-agent: Baiduspider：针对Baiduspider搜索引擎的规则。
- Disallow: /：禁止Baiduspider爬取整个网站。
- User-agent: *：适用于所有其他搜索引擎的规则。
- Disallow: /private.html：禁止所有其他搜索引擎爬取private.html页面。

请注意，Disallowed路径是相对于网站根目录的路径，确保路径设置正确。

3. 将robots.txt文件保存在网站的根目录下。

确保robots.txt文件可以通过以下URL访问：https://www.example.com/robots.txt（将www.example.com替换为你的网站域名）。

4. 验证robots.txt文件的配置是否生效。

- 打开你的网站的URL（例如https://www.example.com/private.html）。
- 使用网络浏览器的开发者工具或在线robots.txt验证工具，检查Disallow规则是否阻止了搜索引擎的访问。

请注意，robots.txt文件是一种建议性的标准，而不是强制性的控制机制。大多数搜索引擎都会遵守robots.txt规则，但并不能保证所有搜索引擎都会完全遵循。

希望这对你有所帮助！如果还有其他问题，请随时提问。

球一个最佳答案谢谢啦！这对我非常重要！

账号		自动登录	找回密码
密码			立即注册

[已解决]robots.txt的规则

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块