[已解决]为什么看不到腾讯的robots.txt协议

payton24 · 发表于 2017-12-28 21:30:40

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

最近入门爬虫，才发现原来有robots.txt协议，简单点来说就是告诉哪些页面可以抓取，哪些不能抓取。
例如谷歌：https://www.google.com/robots.txt
百度：https://www.baidu.com/robots.txt
淘宝：https://www.taobao.com/robots.txt

但是腾讯有点特别，https://www.qq.com/robots.txt
访问时显示404错误。信息为：

找不到与以下网址对应的网页：https://www.qq.com/robots.txt
HTTP ERROR 404

复制代码

访问公司首页，https://www.tencent.com/robots.txt
弹出403禁止。

403 Forbidden

复制代码

有谁知道原因吗？google了一下也没找到答案。

最佳答案

月排行榜 / 总排行榜

gopythoner

2017-12-29 17:29:22

robots.txt是给搜索引擎看的，只是一个行业默认去遵守的规则，告诉搜索引擎的爬虫那些页面不要爬
有了这个文件，如果商业爬虫还来爬，网站就可以根据这个来告它，比如淘宝就禁止百度爬，所以百度没有收录淘宝的信息
但是并不是写了这个你就爬不了，所以对个人来说没有影响

跳转到最佳答案楼层

gopythoner · 发表于 2017-12-29 17:29:22

这个最佳答案由 gopythoner 给出，感谢 gopythoner 的回答。

单击隐藏图章

robots.txt是给搜索引擎看的，只是一个行业默认去遵守的规则，告诉搜索引擎的爬虫那些页面不要爬
有了这个文件，如果商业爬虫还来爬，网站就可以根据这个来告它，比如淘宝就禁止百度爬，所以百度没有收录淘宝的信息
但是并不是写了这个你就爬不了，所以对个人来说没有影响

payton24 · 发表于 2017-12-31 10:28:54

gopythoner 发表于 2017-12-29 17:29
robots.txt是给搜索引擎看的，只是一个行业默认去遵守的规则，告诉搜索引擎的爬虫那些页面不要爬
有了这个 ...

tks

账号		自动登录	找回密码
密码			立即注册