鱼C论坛

 找回密码
 立即注册
查看: 5987|回复: 3

[学习笔记] Python爬虫

[复制链接]
发表于 2017-12-18 15:23:41 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
轻量级爬虫:爬取不需要登录的静态加载的网站内容
爬虫:一段自动抓取互联网信息的程序。
互联网:不同的网页的URL互相指向,组成一个网状的结构。爬虫就是自动访问互联网采取有价值的信息。
简单爬虫架构:URL管理器,网页下载器(urllib2),网页解析器(BeautifulSoup)。
爬虫调度端:启动爬虫,停止爬虫,或者监视爬虫的运行情况。
在爬虫程序中,有三个模块:
                                                URL管理器来对爬去的URL进行管理。从URL管理器中取出待爬取的URL传给网页下载器,下载器会将URL指定的网页下载下来,存储成一个字符串,这个字符串会传送给网页解析器进行解析,一方面会解析出有价值的数据,另一方面会将网页内的其他URL传给URL管理器进行管理,是否继续爬取或者停止爬取。这三个模块会形成一个循环,只要有URL就会一直运行。
URL管理器:管理待抓取URL集合和已抓取的URL,因为有的URL会指向其他URL会抓取重复的信息或者不需要的信息。
                        功能:1.添加新的URL到待爬取的集合。2.判断待添加的URL是否在容器中,如果已经存在就不能添加,以防止重复抓取。3.同时,需要支持从容器中获取URL。4.获取的同时还需要判断还有没有待爬取的URL。5.最后,如果URL被爬取之后,我们需要将这个URL从待爬取集合移动到已爬取集合。
实现方式:略
网页下载器:是将互联网上的URL对应的网页下载到本地的工具,只有下载到本地才能技能型数据分析和处理。
python有哪几种:内置的urllib2和第三方的requests插件
urllib2的下载方法:1.最简洁的方法:
>>> import urllib.request#导入模块
>>> response = urllib.request.urlopen('https://www.baidu.com/')#打开url
>>> html = response.read()读取url
                                2.添加data(需要用户输入的数据),http header(添加http的头信息,可以用来伪装):现在,我们有了三个参数:data,http header,和url。我们将这三个参数传给(慕课网的视频过时了。。。。。)
                                3.添加特殊场景的处理器:
网页解析器:从网页中提取有价值数据的工具
网友解析器会将下载器下载好的HTML网页的字符串作为输入,然后提取出有价值的数据和待爬取的URL
python有哪几种网页解析器?1.正则表达式        2.python自带的html.parser        3.BeautifulSoup第三方模块(可以使用html.parser和lxml作为他的解析器)        4.lxml第三方插件

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-12-19 08:59:28 | 显示全部楼层
留个爪,之后回来看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2018-7-22 16:11:05 | 显示全部楼层
才学到14课,漫漫长路。留个脚印!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-8-13 18:23:10 | 显示全部楼层
留个爪爪,等回来慢慢看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-26 09:02

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表