新手,爬虫入门作品展示,爬取国内标准、规范
本帖最后由 snaker 于 2019-3-4 09:15 编辑因为工作需要经常需要找一下国内标准、规范等,就写了一个查询国内标准、规范并打开浏览器下载的爬虫
需要用到的库有requests、webbrowser(调用浏览器进行下载)、lxml(xpath)
http://m.qpic.cn/psb?/V102SR9c3f1JQ2/2aKpLp1zU6B6IURnbuT5juS4Ex7FzNsrqryJobcTBzg!/b/dLsAAAAAAAAA&bo=twT3AQAAAAADB2c!&rf=viewer_4
源码如下:
**** Hidden Message *****
PS:
1、这个网站比较蛋疼的是搜索到以后还需要两个页面才能找到下载地址;
2019年3月4日更新
1、由于之前写的为考虑模糊搜索,只能爬取一页数据,更新可以爬取多页数据;
2、之前写的爬虫直接爬取到下载链接后再输出显示--选择下载,而爬取到下载连接还需要打开两个页面才能得到,极大浪费资源。更新后选择需要下载的规范,再去爬取下载链接;
3、优化模糊搜索时多页数据会显示多页,输入&+数字进行跳转页面;
4、这个爬虫写完后发现,完全无用,直接打开网址----搜索-----下载就行了,但既然写了,就写个完整的,就当学习和巩固了;
http://m.qpic.cn/psb?/V102SR9c3f1JQ2/uO.CcKYE7FPBoj35dj**RT1UR8Wb3gTTwcArmbHi8Fk!/b/dL8AAAAAAAAA&bo=4QNTAgAAAAADB5E!&rf=viewer_4 爬国家? 牛逼
c调小白 发表于 2019-1-28 09:35
爬国家?
其实是爬标准,规范{:10_257:} 原来是爬 国标文件 乍一看标题以为是写爬虫也有国标 {:5_90:} 谢谢分享 一直都不会选择器,都是用取文本中间..{:5_104:}{:5_104:}
..最近刚学python ,,正则表达式.什么选择器,完全懵逼
搜索 -> 遍历结果-> 取出来页面ID->输入序号 ->http://www.bzmfxz.com/Common/ShowDownloadUrl.aspx?urlid=0&id=页面ID->获取下载地址->不知道能用requests 下载不,返回字节集 然后写到文件
感觉获取到搜索结果,然后对所有结果进行遍历过去下载,有点浪费资源了.. szhai1969 发表于 2019-1-29 21:35
一直都不会选择器,都是用取文本中间..
..最近刚学python ,,正则表达式.什么选择器,完全 ...
是浪费资源了,后续更新已经修改了
后来发现写这个爬虫完全无用,打开网址--搜索--下载,完全不需要爬虫,就当学习和巩固一下吧。 感谢分享 学习学习,正好工作中需要 1 正在做类似项目,正好参考。谢谢楼主。 看看 谢谢楼主 看看 这个用的到
爬的什么网站啊 henhao 学习 感谢分享!!!!!