[已解决]读取网页的robots.txt内容

小甲鱼的铁粉 · 发表于 2020-7-5 11:16:13

您需要登录才可以下载或查看，没有账号？立即注册

x

网页的robots.txt文件的具体内容可以使用python打印出来吗

最佳答案

悠悠2264

2020-7-5 11:18:49

本帖最后由悠悠2264 于 2020-7-5 11:21 编辑

可以呀，比如打印鱼C的，用requests进行get：https://fishc.com.cn/robots.txt

复制代码

悠悠2264 · 发表于 2020-7-5 11:18:49

本帖最后由悠悠2264 于 2020-7-5 11:21 编辑

可以呀，比如打印鱼C的，用requests进行get：https://fishc.com.cn/robots.txt

复制代码

赚小钱 · 发表于 2020-7-5 11:19:10

http get 直接读，与其他地址没有区别。

小甲鱼的铁粉 · 发表于 2020-7-5 11:21:07

悠悠2264 发表于 2020-7-5 11:18
可以呀，比如打印鱼C的

爬虫如果爬到不该爬的违法吗

悠悠2264 · 发表于 2020-7-5 11:23:37

小甲鱼的铁粉发表于 2020-7-5 11:21
爬虫如果爬到不该爬的违法吗

算违法吧

但我觉得不对网站造成负担,不对正常用户造成影响就行，人家不会管你的

小甲鱼的铁粉 · 发表于 2020-7-5 11:24:30

悠悠2264 发表于 2020-7-5 11:18
可以呀，比如打印鱼C的，用requests进行get：https://fishc.com.cn/robots.txt

我想看https://www.mzitu.com的robots.txt，输出是这样的

复制代码

小甲鱼的铁粉 · 发表于 2020-7-5 11:25:24

妹子图网站的反爬好厉害

悠悠2264 · 发表于 2020-7-5 11:32:29

小甲鱼的铁粉发表于 2020-7-5 11:24
我想看https://www.mzitu.com的robots.txt，输出是这样的

那这个网站没有爬虫规则，不对网站造成负担,不对正常用户造成影响就行。
了解一下header和cookie反爬虫，可以参考一下论坛的各位大神写的如何爬这个网站

账号		自动登录	找回密码
密码			立即注册