读取网页的robots.txt内容
网页的robots.txt文件的具体内容可以使用python打印出来吗 本帖最后由 悠悠2264 于 2020-7-5 11:21 编辑可以呀,比如打印鱼C的,用requests进行get:https://fishc.com.cn/robots.txt
import requests
r = requests.get("https://fishc.com.cn/robots.txt")
print(r.text) http get 直接读,与其他地址没有区别。 悠悠2264 发表于 2020-7-5 11:18
可以呀,比如打印鱼C的
爬虫如果爬到不该爬的违法吗{:10_250:} 小甲鱼的铁粉 发表于 2020-7-5 11:21
爬虫如果爬到不该爬的违法吗
算违法吧{:10_266:}
但我觉得不对网站造成负担,不对正常用户造成影响就行,人家不会管你的{:10_277:} 悠悠2264 发表于 2020-7-5 11:18
可以呀,比如打印鱼C的,用requests进行get:https://fishc.com.cn/robots.txt
我想看https://www.mzitu.com的robots.txt,输出是这样的
<html>
<head><title>403 Forbidden</title></head>
<body>
<center><h1>403 Forbidden</h1></center>
<hr><center>nginx</center>
</body>
</html>
妹子图网站的反爬好厉害{:10_250:} 小甲鱼的铁粉 发表于 2020-7-5 11:24
我想看https://www.mzitu.com的robots.txt,输出是这样的
那这个网站没有爬虫规则,不对网站造成负担,不对正常用户造成影响就行。
了解一下header和cookie反爬虫,可以参考一下论坛的各位大神写的如何爬这个网站{:10_256:}
页:
[1]