疾风。意破天晴 发表于 2017-10-12 20:28:43

发一只我一直在用的爬虫——爬取“解闷”动态图的爬虫,绅士不妨留步^=^

本帖最后由 疾风。意破天晴 于 2018-5-27 13:56 编辑

因为GIF这种东西似乎从诞生到现在一直挺流行的,所以我今天再来爬上一记^_^
我用爬虫也不是一天两天了,所以应该有资格给新新手们指导一下了:
爬一个页面在我看来就三步,一定位想要的资源,二搞清页面的结构,三理出程序的结构。
第一和第二步做好了,你就能得到爬虫的攀爬路径,然后根据此路径便可做到第三步,届时你的程序就差不多编好了,然后就来到最终的:
while 1:
        try:
                run my app
                break
        except:
                fix my app
说一下我在刚学爬虫时遇到的问题:
1:        出现 ModuleNotFoundError: No module named "ooxxooxx"?
        那么就去pip安装相应的包(其实代码语言排错和静态语言比起来简直太容易了,基本无需Debug,只要你英语过得去,那么根据错误提示一般都能                       
        解决问题)
2:        怎么爬ajax的页面?
        在当前页面右键审查元素,然后找到Network下的xhr,当有ajax请求时会有记录
3:        网站网络不稳定,或者有反爬虫机制怎么办?
        在当前页面右键审查元素,然后把请求头复制一份,每次提取完资源后都time.sleep(second),并且每次尝试抓取做好异常处理(防止中断)并设置               
        timeout(防止死等),具体的可以参照我的代码。
好了,就这些,你以为爬虫是个什么东西?,看看学校图书馆里面那么一堆的书把你们吓的。。。作一个基本爬虫,这就是你所需要的全部。

**** Hidden Message *****
福利图片:





相关网址推荐:
http://www.gifjia.com/category/neihan/(GIF发源地): (这个应该都听过{:5_108:} )

http://www.fulibae.com/ (福利社)(这里面就挺杂的了,寂寞了看看吧{:5_97:} )

have good day^_^

丶忘却的年少o 发表于 2017-10-12 20:36:25

放我下车,我的身体一天不如一天了,不能再上车了{:10_245:}

小木偶 发表于 2017-10-12 22:39:11

让鸡儿放天假

熊爱荔枝 发表于 2017-10-12 23:20:54

啦啦啦

yunzhongzhuhuo 发表于 2017-10-13 09:34:16

{:5_91:}

WP叶超 发表于 2017-10-13 17:08:53

看看看看,嘿嘿嘿

nobocly 发表于 2017-10-13 17:22:18

代码,惊现

无与杰嵩1 发表于 2017-10-13 19:06:58

好东西啊,谢谢楼主分享

瓦蓝 发表于 2017-10-13 22:20:00

{:5_91:}

1173419450 发表于 2017-10-14 11:21:07

厉害了

dux6159 发表于 2017-10-14 11:59:42

路过看看。。

xindong 发表于 2017-10-14 13:07:55

学习代码

mmggkk1000 发表于 2017-10-14 13:10:10

既得福利,又学知识,不错。

hbxj2017 发表于 2017-10-14 15:01:52

见识一下

Anner5 发表于 2017-10-14 21:13:47

学习代码{:10_256:}

aishiwei 发表于 2017-10-15 16:17:58

不是说不用回复就可以看码

不做试验了 发表于 2017-10-15 17:32:30

试试看

gl5703 发表于 2017-10-16 17:07:50

看看

lakerszhy 发表于 2017-10-16 17:26:41

赞一个,围观网址推荐

Mojito 发表于 2017-10-16 20:53:53

学习知识{:10_256:}
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 发一只我一直在用的爬虫——爬取“解闷”动态图的爬虫,绅士不妨留步^=^