|
![](static/image/common/ico_lz.png)
楼主 |
发表于 2017-6-12 00:08:10
|
显示全部楼层
本帖最后由 NeilDing 于 2017-6-12 00:09 编辑
问题2和4解决了一部分,XML其实就是一个个标签,静态网页中只要找到标签就可以找到自己想找的数据,用find_all,正则表达式,查找标签或者关键字,然后get_text就好,在爬取动态网页的过程中,我发现只用python的request库还是太薄弱了,异步数据是没办法的,审查元素和查看源代码显示不一样内容,而python本身只可以获得查看网页源代码部分,后来才知道这是ajax异步请求数据,果断开始入坑selenium
http://bbs.fishc.com/forum.php?m ... 2644&typeid=393
关于问题1.后来网上查了很多资料,requests库是基于urllib的,更高级一点,写headers用一个dict就好
问题3.deque和list的区别就是,list是线性存储,dequeue可以实现双向插入或删除元素,更高效,至于是集合还是列表……无所谓了。重复的url就用这个来实现,添加的过程中判断是否重复就好,爬过的url出队列,没爬过的入队列。
现在的问题还是集中在encode和decode上,有的网页如果不decode,输出格式很难看,还有就是中文会显示乱码……真是头疼啊 |
|