小甲鱼的铁粉 发表于 2020-7-5 11:16:13

读取网页的robots.txt内容

网页的robots.txt文件的具体内容可以使用python打印出来吗

悠悠2264 发表于 2020-7-5 11:18:49

本帖最后由 悠悠2264 于 2020-7-5 11:21 编辑

可以呀,比如打印鱼C的,用requests进行get:https://fishc.com.cn/robots.txt
import requests
r = requests.get("https://fishc.com.cn/robots.txt")
print(r.text)

赚小钱 发表于 2020-7-5 11:19:10

http get 直接读,与其他地址没有区别。

小甲鱼的铁粉 发表于 2020-7-5 11:21:07

悠悠2264 发表于 2020-7-5 11:18
可以呀,比如打印鱼C的

爬虫如果爬到不该爬的违法吗{:10_250:}

悠悠2264 发表于 2020-7-5 11:23:37

小甲鱼的铁粉 发表于 2020-7-5 11:21
爬虫如果爬到不该爬的违法吗

算违法吧{:10_266:}
但我觉得不对网站造成负担,不对正常用户造成影响就行,人家不会管你的{:10_277:}

小甲鱼的铁粉 发表于 2020-7-5 11:24:30

悠悠2264 发表于 2020-7-5 11:18
可以呀,比如打印鱼C的,用requests进行get:https://fishc.com.cn/robots.txt

我想看https://www.mzitu.com的robots.txt,输出是这样的
<html>

<head><title>403 Forbidden</title></head>

<body>

<center><h1>403 Forbidden</h1></center>

<hr><center>nginx</center>

</body>

</html>

小甲鱼的铁粉 发表于 2020-7-5 11:25:24

妹子图网站的反爬好厉害{:10_250:}

悠悠2264 发表于 2020-7-5 11:32:29

小甲鱼的铁粉 发表于 2020-7-5 11:24
我想看https://www.mzitu.com的robots.txt,输出是这样的

那这个网站没有爬虫规则,不对网站造成负担,不对正常用户造成影响就行。
了解一下header和cookie反爬虫,可以参考一下论坛的各位大神写的如何爬这个网站{:10_256:}
页: [1]
查看完整版本: 读取网页的robots.txt内容