wangyinghan的日志 - 鱼C论坛 - Powered by Discuz!

设为首页收藏本站

切换到窄版

鱼C论坛 › wangyinghan › 日志

wangyinghan

https://fishc.com.cn/?518563

分享爬虫801: 2018-8-1 21:24; 数据存储我们看一下如何利用python存储txt格式文本文件我们首先用requests获取源代码，再用相关解析库解析，接下来保存到文本中。 import requests from pyquery import PyQuery as pq url='http://www.zhihu.com/explore' headers={'User-Agent':"Mozilla/5.0(Macintosh; Intel Mac OS X 10_12_3)AppleWebKit/537 ...; 270 次阅读|0 个评论

分享 pc730: 2018-7-30 21:22; 使用pyquery 同BeautifulSoup一样，初始化pyquery的时候同样先要初始化一个pyquery对象。可以直接传入字符串。传入url 传入文件名等等 html=''' ul li class='item-0'first item/li li class='item-1'a href='link2.html'secend item/a/li li class='item-0 active' ...; 366 次阅读|0 个评论

分享 725: 2018-7-25 21:50; 解析库的使用 1xpath 2beautifulsoup 3pyquery 用正则表达式提取页面信息多多少少还是有些繁琐。对于网页的节点来说，可以定义id、class等属性，而且节点之间也有层次关系那么，我们用xpath定位提取一个或多个节点，再调用相应方法获取其正文内容、属性，就可以得到我们想要的信息！ xpath常见规则 nodename ...; 326 次阅读|0 个评论

分享 723: 2018-7-23 21:49; 正则表示式：一些字符和特殊符号组成的字符串，可以按照某一匹配模式匹配一系列相似特征的字符串 py通过re模块来确定正则表达式 1：最简单的,foo匹配foo，abc123匹配abc123 2；特殊符号： foo|bar：匹配foo或bar .：匹配除了/n的任何字符一个点代表了一个字符 ^:匹配字符串起始部分。 $：匹配字符串结尾部分 *： ...; 251 次阅读|0 个评论

分享 722: 2018-7-22 21:49; 高级用法： 1文件上传:requests可以模拟提交一些数据。 import requests files={'file':('favicon.ico',;rb;} r=requests.post('http://httpbin.org/post',files=files) print(r.text), 需要注意的是，上传的文件需要和当前代码在同一目录下。 2：cookies(获取和设置cookies） import requests r=requests.get ...; 258 次阅读|0 个评论

分享 721: 2018-7-21 21:59; 分析Robots协议（网络爬虫排除协议）：告诉爬虫，哪些页面可以抓取。通常是一个robots.txt的文本文件，放置于网站根目录下。爬虫首先会检查根目录下是否有robots协议，如果有，则会根据其定义的爬取范围爬取。没有的话可以全爬取一般内容如下： User-agent:* (表示爬虫的名称，*意思为所有) Dis ...; 239 次阅读|0 个评论

分享 720: 2018-7-20 21:48; 处理异常： 1 URLError 来自urllib库中的error模块，由request模块产生的异常都可以通过捕获这个类来处理。 from urllib import request,error try: response=request.urlopen('http://cuiqingcai.com/index.htm') except error.URLError as e: print(e.eason) 通过以上操作打开一个不存在的页面，程序没有 ...; 266 次阅读|0 个评论

分享 719: 2018-7-19 21:50; Request urlopen可以实现最基本简单的请求，如果要构成一个完整的请求，比如加入Headers信息，最要利用强大的request类实现。 import urllib.request request=urllib.request.Request('http://python.org') response=urllib.request.urlopen(request) print(response.read().decode('utf-8')) Request的构造方 ...; 264 次阅读|0 个评论

分享 2018717: 2018-7-17 21:53; 爬虫：获取网页提取、保存信息的自动化程序获取网页：urllib、request 提取信息：正则表达式、css、xpath、Beautiful soup、lxml 保存数据：txt，json 抓取的内容：基于http、http协议 javaScript渲染页面现在许多的网页可能都是JavaScipt渲染出来的，原始的HTML代码可能就是空壳。 !DOCTYPE html html ...; 200 次阅读|0 个评论

分享 2018716: 2018-7-16 21:49; url：uniform resource identifier 统一资源标识符 uri：uniform resource Locator 统一资源定位符在目前互联网中，几乎所有的uri都是Url 超文本 hypertext 网页源代码HTML F12-Elements HTTP: 超文本传输协议保证高效准确的传送超文本文档 HTTPS:加密版的HTTP 加入了SSl层作用：保证传 ...; 221 次阅读|0 个评论

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-28 04:16

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部