马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
轻量级爬虫:爬取不需要登录的静态加载的网站内容
爬虫:一段自动抓取互联网信息的程序。
互联网:不同的网页的URL互相指向,组成一个网状的结构。爬虫就是自动访问互联网采取有价值的信息。
简单爬虫架构:URL管理器,网页下载器(urllib2),网页解析器(BeautifulSoup)。
爬虫调度端:启动爬虫,停止爬虫,或者监视爬虫的运行情况。
在爬虫程序中,有三个模块:
URL管理器来对爬去的URL进行管理。从URL管理器中取出待爬取的URL传给网页下载器,下载器会将URL指定的网页下载下来,存储成一个字符串,这个字符串会传送给网页解析器进行解析,一方面会解析出有价值的数据,另一方面会将网页内的其他URL传给URL管理器进行管理,是否继续爬取或者停止爬取。这三个模块会形成一个循环,只要有URL就会一直运行。
URL管理器:管理待抓取URL集合和已抓取的URL,因为有的URL会指向其他URL会抓取重复的信息或者不需要的信息。
功能:1.添加新的URL到待爬取的集合。2.判断待添加的URL是否在容器中,如果已经存在就不能添加,以防止重复抓取。3.同时,需要支持从容器中获取URL。4.获取的同时还需要判断还有没有待爬取的URL。5.最后,如果URL被爬取之后,我们需要将这个URL从待爬取集合移动到已爬取集合。
实现方式:略
网页下载器:是将互联网上的URL对应的网页下载到本地的工具,只有下载到本地才能技能型数据分析和处理。
python有哪几种:内置的urllib2和第三方的requests插件
urllib2的下载方法:1.最简洁的方法:>>> import urllib.request#导入模块
>>> response = urllib.request.urlopen('https://www.baidu.com/')#打开url
>>> html = response.read()读取url
2.添加data(需要用户输入的数据),http header(添加http的头信息,可以用来伪装):现在,我们有了三个参数:data,http header,和url。我们将这三个参数传给(慕课网的视频过时了。。。。。)
3.添加特殊场景的处理器:
网页解析器:从网页中提取有价值数据的工具
网友解析器会将下载器下载好的HTML网页的字符串作为输入,然后提取出有价值的数据和待爬取的URL
python有哪几种网页解析器?1.正则表达式 2.python自带的html.parser 3.BeautifulSoup第三方模块(可以使用html.parser和lxml作为他的解析器) 4.lxml第三方插件
|