发一只我一直在用的爬虫——爬取“解闷”动态图的爬虫,绅士不妨留步^=^
本帖最后由 疾风。意破天晴 于 2018-5-27 13:56 编辑因为GIF这种东西似乎从诞生到现在一直挺流行的,所以我今天再来爬上一记^_^
我用爬虫也不是一天两天了,所以应该有资格给新新手们指导一下了:
爬一个页面在我看来就三步,一定位想要的资源,二搞清页面的结构,三理出程序的结构。
第一和第二步做好了,你就能得到爬虫的攀爬路径,然后根据此路径便可做到第三步,届时你的程序就差不多编好了,然后就来到最终的:
while 1:
try:
run my app
break
except:
fix my app
说一下我在刚学爬虫时遇到的问题:
1: 出现 ModuleNotFoundError: No module named "ooxxooxx"?
那么就去pip安装相应的包(其实代码语言排错和静态语言比起来简直太容易了,基本无需Debug,只要你英语过得去,那么根据错误提示一般都能
解决问题)
2: 怎么爬ajax的页面?
在当前页面右键审查元素,然后找到Network下的xhr,当有ajax请求时会有记录
3: 网站网络不稳定,或者有反爬虫机制怎么办?
在当前页面右键审查元素,然后把请求头复制一份,每次提取完资源后都time.sleep(second),并且每次尝试抓取做好异常处理(防止中断)并设置
timeout(防止死等),具体的可以参照我的代码。
好了,就这些,你以为爬虫是个什么东西?,看看学校图书馆里面那么一堆的书把你们吓的。。。作一个基本爬虫,这就是你所需要的全部。
**** Hidden Message *****
福利图片:
相关网址推荐:
http://www.gifjia.com/category/neihan/(GIF发源地): (这个应该都听过{:5_108:} )
http://www.fulibae.com/ (福利社)(这里面就挺杂的了,寂寞了看看吧{:5_97:} )
have good day^_^ 放我下车,我的身体一天不如一天了,不能再上车了{:10_245:} 让鸡儿放天假 啦啦啦 {:5_91:} 看看看看,嘿嘿嘿 代码,惊现 好东西啊,谢谢楼主分享 {:5_91:} 厉害了 路过看看。。 学习代码 既得福利,又学知识,不错。 见识一下 学习代码{:10_256:} 不是说不用回复就可以看码 试试看 看看
赞一个,围观网址推荐 学习知识{:10_256:}