python爬虫进阶关于robotx.txt

MSK · 发表于 2017-7-4 15:50:40

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 MSK 于 2017-7-9 23:01 编辑

1.懂得约束自己的行为

无论如何，当你爬取一个网站的数据时，请记住自己是该网站的访客，应当约束自己的行为，否则对方可能封禁你的IP，甚至采取法律行动。

检查robots.txt

大多数网站都会定义robots.txt，让爬虫爬取时了解需要遵守哪些限制（对恶意爬虫好像没什么卵用，但是作为一个良好的网络公民应该遵守这些规则）

百度的robots.txt的一部分 (www.baidu.com/robots.txt)

User-agent: EasouSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
User-agent: *
Disallow: /

复制代码

其中规定了禁止用户代理为 EasouSpider的爬虫爬取的链接，也规定了无论哪种用户，都禁止爬取网站（尽管自身就是一个爬虫业务）

在有的robots.txt中还会定义sitemap（网站地图）文件，它提供了一个网页的所有链接

游客，如果您要查看本帖隐藏内容请回复

2.估算网站大小

目标网站的大小会影响我们如何爬取
一个简便的方法：检查Baidu爬虫的结果，Baidu爬虫可能已经爬过我们感兴趣的网页

方法：在浏览器地址栏输入：site: 网址

登录/注册后可看大图

游客，如果您要查看本帖隐藏内容请回复

3.查询网站所有者

在www.whois.org可以获取到相关网站的信息

登录/注册后可看大图

4.下载网页

使用urllib库来下载网页

from urllib.request import *
def download(url):
html = urlopen(url).read()
doenload('http://www.baidu.com')
#下载网页并返回其html

复制代码

但是下载网页时，总会遇到一些无法控制的错误，比如请求的资源不存在的404错误，还有傲娇的403错误

推荐阅读：http状态码大全

[size=3]重试下载
有的错误是临时性的，如5xx 类错误发生在服务端出现问题时
所以当发生5xx错误时，只需重试下载即可

import urllib.request
import urllib.error
def download(url,try_again=2):
try:
print('downloading %s...' % url)
html = urllib.request.urlopen(url).read()
except urllib.error.URLError as e:
html = None
print(e.reason)
if try_again > 0:
if hasattr(e,'code') and 500 <= e.code < 600:
print('下载失败，正在重试下载...')
return download(url,try_again - 1)
return html
url = input('input url please:')
download(url)

复制代码

5.自动检查robots.txt文件，避免爬取禁止的链接

使用urllib.robotparser

import urllib.robotparser
rp = urllib.robotparser.RobotFileParser()
rp.set_url('http://www.baidu.com/robots.txt')
rp.read()
user_agent = 'python3.6.1'
url = 'https://baike.baidu.com/'
#返回一个bool值，意思是是否能爬取
rp.can_fetch(user_agent,url)

复制代码

因为scrapy目前已经支持python3 本系列使用语言均为 python3

MSK · 发表于 2017-7-10 13:11:54

本帖最后由 MSK 于 2017-7-10 13:15 编辑

～风介～发表于 2017-7-9 23:57
为了验证是否属实，哥们用虚拟机在Python3.X装Scrapy试试？顺便出一个教程呗~

经过在win7 64bit虚拟机上测试，scrapy能够成功安装！

@小甲鱼 @～风介～

～风介～ · 发表于 2017-7-9 23:25:46

Python3.X对Scrapy的支持是建立在已经安装VS或MinGW的基础上，所以一键安装是木有意义的。。。

MSK · 发表于 2017-7-9 23:52:38

～风介～发表于 2017-7-9 23:25
Python3.X对Scrapy的支持是建立在已经安装VS或MinGW的基础上，所以一键安装是木有意义的。。。

不知道

，我安装时就调用了这几句命令，所以。。。

～风介～ · 发表于 2017-7-9 23:57:32

MSK 发表于 2017-7-9 23:52
不知道，我安装时就调用了这几句命令，所以。。。

为了验证是否属实，哥们用虚拟机在Python3.X装Scrapy试试？顺便出一个教程呗~

MSK · 发表于 2017-7-10 09:52:18

～风介～发表于 2017-7-9 23:57
为了验证是否属实，哥们用虚拟机在Python3.X装Scrapy试试？顺便出一个教程呗~

okok，等我重新装台虚拟机试试，虚拟机一开机就崩溃，昨晚弄了一晚上

小甲鱼 · 发表于 2017-7-10 15:52:27

～风介～发表于 2017-7-9 23:25
Python3.X对Scrapy的支持是建立在已经安装VS或MinGW的基础上，所以一键安装是木有意义的。。。

支持Python3就很知足了~~~

～风介～ · 发表于 2017-7-10 16:56:59

小甲鱼发表于 2017-7-10 15:52
支持Python3就很知足了~~~

简直是普大喜奔来着~

康小泡 · 发表于 2017-8-30 13:27:21

图片挂了。重新补一下啊？

domenet · 发表于 2017-8-30 20:35:26

学习下robots规则

新手·ing · 发表于 2017-8-30 21:06:48

妙啊秒啊

鱼粉斯 · 发表于 2017-9-17 20:03:46

回帖。。。。。。。。。。。

xflmp888 · 发表于 2017-9-17 21:04:31

学习一下。

tuxiaoqing · 发表于 2017-9-27 12:02:10

谢谢

Brance · 发表于 2017-9-28 14:38:20

看看~~~

不失微笑 · 发表于 2018-2-2 00:41:33

谢谢

lapo_Mu · 发表于 2018-2-2 10:45:17

昔日少年郎 · 发表于 2018-4-7 20:39:00

账号		自动登录	找回密码
密码			立即注册

[技术交流] python爬虫进阶关于robotx.txt

马上注册，结交更多好友，享用更多功能^_^

评分

本帖被以下淘专辑推荐:

评分