鱼C论坛

 找回密码
 立即注册
分享 爬虫801
2018-8-1 21:24
数据存储 我们看一下如何利用python存储txt格式文本文件 我们首先用requests获取源代码,再用相关解析库解析,接下来保存到文本中。 import requests from pyquery import PyQuery as pq url='http://www.zhihu.com/explore' headers={'User-Agent':"Mozilla/5.0(Macintosh; Intel Mac OS X 10_12_3)AppleWebKit/537 ...
270 次阅读|0 个评论
分享 pc730
2018-7-30 21:22
使用pyquery 同BeautifulSoup一样,初始化pyquery的时候同样先要初始化一个pyquery对象。可以直接传入字符串。传入url 传入文件名等等 html=''' ul li class='item-0'first item/li li class='item-1'a href='link2.html'secend item/a/li li class='item-0 active' ...
366 次阅读|0 个评论
分享 725
2018-7-25 21:50
解析库的使用 1xpath 2beautifulsoup 3pyquery 用正则表达式提取页面信息多多少少还是有些繁琐。 对于网页的节点来说,可以定义id、class等属性,而且节点之间也有层次关系 那么,我们用xpath定位提取一个或多个节点,再调用相应方法获取其正文内容、属性,就可以得到我们想要的信息! xpath常见规则 nodename ...
326 次阅读|0 个评论
分享 723
2018-7-23 21:49
正则表示式:一些字符和特殊符号组成的字符串,可以按照某一匹配模式匹配一系列相似特征的字符串 py通过re模块来确定正则表达式 1:最简单的,foo匹配foo,abc123匹配abc123 2;特殊符号: foo|bar: 匹配foo或bar .:匹配除了/n的任何字符 一个点代表了一个字符 ^:匹配字符串起始部分。 $:匹配字符串结尾部分 *: ...
251 次阅读|0 个评论
分享 722
2018-7-22 21:49
高级用法: 1文件上传:requests可以模拟提交一些数据。 import requests files={'file':('favicon.ico',;rb;} r=requests.post('http://httpbin.org/post',files=files) print(r.text), 需要注意的是,上传的文件需要和当前代码在同一目录下。 2:cookies(获取和设置cookies) import requests r=requests.get ...
258 次阅读|0 个评论
分享 721
2018-7-21 21:59
分析Robots协议(网络爬虫排除协议):告诉爬虫,哪些页面可以抓取。通常是一个robots.txt的 文本文件,放置于网站根目录下。 爬虫首先会检查根目录下是否有robots协议,如果有,则会根据其定义的爬取范围爬取。没有的话可以全爬取 一般内容如下: User-agent:* (表示爬虫的名称,*意思为所有) Dis ...
239 次阅读|0 个评论
分享 720
2018-7-20 21:48
处理异常: 1 URLError 来自urllib库中的error模块,由request模块产生的异常都可以通过 捕获这个类来处理。 from urllib import request,error try: response=request.urlopen('http://cuiqingcai.com/index.htm') except error.URLError as e: print(e.eason) 通过以上操作打开一个不存在的页面,程序没有 ...
266 次阅读|0 个评论
分享 719
2018-7-19 21:50
Request urlopen可以实现最基本简单的请求,如果要构成一个完整的请求, 比如加入Headers信息,最要利用强大的request类实现。 import urllib.request request=urllib.request.Request('http://python.org') response=urllib.request.urlopen(request) print(response.read().decode('utf-8')) Request的构造方 ...
264 次阅读|0 个评论
分享 2018717
2018-7-17 21:53
爬虫:获取网页提取、保存信息的自动化程序 获取网页:urllib、request 提取信息:正则表达式、css、xpath、Beautiful soup、lxml 保存数据:txt,json 抓取的内容:基于http、http协议 javaScript渲染页面 现在许多的网页可能都是JavaScipt渲染出来的,原始的HTML代码可能就是空壳。 !DOCTYPE html html ...
200 次阅读|0 个评论
分享 2018716
2018-7-16 21:49
url:uniform resource identifier 统一资源标识符 uri:uniform resource Locator 统一资源定位符 在目前互联网中,几乎所有的uri都是Url 超文本 hypertext 网页源代码HTML F12-Elements HTTP: 超文本传输协议 保证高效准确的传送超文本文档 HTTPS:加密版的HTTP 加入了SSl层 作用:保证传 ...
221 次阅读|0 个评论

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-28 04:16

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部