Python爬虫,萌新交流区,萌新训练营,鱼C论坛

py大神 发表于 2017-12-18 15:23:41

Python爬虫

轻量级爬虫：爬取不需要登录的静态加载的网站内容
爬虫：一段自动抓取互联网信息的程序。
互联网：不同的网页的URL互相指向，组成一个网状的结构。爬虫就是自动访问互联网采取有价值的信息。
简单爬虫架构：URL管理器，网页下载器（urllib2），网页解析器（BeautifulSoup）。
爬虫调度端：启动爬虫，停止爬虫，或者监视爬虫的运行情况。
在爬虫程序中，有三个模块：
URL管理器来对爬去的URL进行管理。从URL管理器中取出待爬取的URL传给网页下载器，下载器会将URL指定的网页下载下来，存储成一个字符串，这个字符串会传送给网页解析器进行解析，一方面会解析出有价值的数据，另一方面会将网页内的其他URL传给URL管理器进行管理，是否继续爬取或者停止爬取。这三个模块会形成一个循环，只要有URL就会一直运行。
URL管理器：管理待抓取URL集合和已抓取的URL，因为有的URL会指向其他URL会抓取重复的信息或者不需要的信息。
功能：1.添加新的URL到待爬取的集合。2.判断待添加的URL是否在容器中，如果已经存在就不能添加，以防止重复抓取。3.同时，需要支持从容器中获取URL。4.获取的同时还需要判断还有没有待爬取的URL。5.最后，如果URL被爬取之后，我们需要将这个URL从待爬取集合移动到已爬取集合。
实现方式：略
网页下载器：是将互联网上的URL对应的网页下载到本地的工具，只有下载到本地才能技能型数据分析和处理。
python有哪几种：内置的urllib2和第三方的requests插件
urllib2的下载方法：1.最简洁的方法：>>> import urllib.request#导入模块
>>> response = urllib.request.urlopen('https://www.baidu.com/')#打开url
>>> html = response.read()读取url
2.添加data（需要用户输入的数据），http header（添加http的头信息，可以用来伪装）：现在，我们有了三个参数：data，http header，和url。我们将这三个参数传给（慕课网的视频过时了。。。。。）
3.添加特殊场景的处理器：
网页解析器：从网页中提取有价值数据的工具
网友解析器会将下载器下载好的HTML网页的字符串作为输入，然后提取出有价值的数据和待爬取的URL
python有哪几种网页解析器？1.正则表达式 2.python自带的html.parser 3.BeautifulSoup第三方模块（可以使用html.parser和lxml作为他的解析器） 4.lxml第三方插件

893157800 发表于 2017-12-19 08:59:28

{:10_266:}留个爪，之后回来看

panzhengyang 发表于 2018-7-22 16:11:05

才学到14课，漫漫长路。留个脚印！

鬼M^I心窍 发表于 2022-8-13 18:23:10

留个爪爪，等回来慢慢看

页: [1]

鱼C论坛's Archiver

Python爬虫