小小大鱼 发表于 2016-3-21 23:10:20

python 爬取百度云资源2.0来了。

本帖最后由 小小大鱼 于 2016-3-22 11:31 编辑

python 爬取百度云资源1.0 已取消隐藏。 传送门:http://bbs.fishc.com/thread-68448-1-1.html


本次更新:
1.主要是修改了正则,能匹配更多结果。
2.增加了注释,方便大家阅读代码
3.代码还是一样丑



代码:
**** Hidden Message *****
有什么bug,报错,建议希望大家在评论里说明,有时间我会回复。

说明:
1.本脚本实际是利用http://www.wangpansou.cn做的搜索结果。
2.如果你明白这里面的原理,直接写脚本通过百度搜索任意你想要的关键词也是可以的。
核心在这里:keyword =input('请输入要搜索的资源名:')
keyword = urllib.request.quote(keyword.encode('utf-8'))
url = "http://www.wangpansou.cn/s.php?wp=0&ty=gn&op=gn&q="+keyword+"&q="+keyword
3.标题可能引起误会了,如果要直接爬取百度云,那我暂时还不会。

Angel丶L 发表于 2016-3-22 00:05:35

意思就是 一个连接分析出正确的下载地址?

冬雪雪冬 发表于 2016-3-22 09:22:32

支持原创。

coder_wzy 发表于 2016-3-22 09:31:59

你好,我用你的程序测了两个词,爬出来都是91个结果,这个数量是不是有问题?{:10_256:}

小小大鱼 发表于 2016-3-22 09:40:49

coder_wzy 发表于 2016-3-22 09:31
你好,我用你的程序测了两个词,爬出来都是91个结果,这个数量是不是有问题?

实际上是90个资源,计数却显示91个,bug已经修改了。
但是你说的都是90个资源我还没发现原因,稍后排查再更新上来
谢谢

小小大鱼 发表于 2016-3-22 09:54:59

coder_wzy 发表于 2016-3-22 09:31
你好,我用你的程序测了两个词,爬出来都是91个结果,这个数量是不是有问题?

bug已经找到,原来正则没匹配到第一页答案。修改后的代码已经上传。
然后我发现一个没法悠的bug,不管什么资源,网站最多列出10页,也是最多只有100个链接。

小小大鱼 发表于 2016-3-22 09:57:49

Angel丶L 发表于 2016-3-22 00:05
意思就是 一个连接分析出正确的下载地址?

搜索一个你想找的资源,然后爬取百度云的分享链接。

老忘 发表于 2016-3-22 11:03:32

这个冒似不是爬百度云,而是利用了http://www.wangpansou.cn来搜索百度云资源吧?

小小大鱼 发表于 2016-3-22 11:20:00

老忘 发表于 2016-3-22 11:03
这个冒似不是爬百度云,而是利用了http://www.wangpansou.cn来搜索百度云资源吧?

是的,之前说明有写的,后面修改时给删掉了

阿鸿 发表于 2016-3-22 12:19:21

这是什么?

easypython 发表于 2016-3-22 15:13:29

路过,看看

a3522121 发表于 2016-3-22 15:14:57

谢谢 学学爬虫

xiang23808 发表于 2016-3-22 18:29:15

看看2.0,也跟楼主学习学习

jinzhong 发表于 2016-3-22 21:53:07

支持原创,谢谢楼主

ft3312591 发表于 2016-3-22 21:59:02

这个厉害,看看~~

shadetree 发表于 2016-3-23 13:51:34

谢谢分享

三林小猎人 发表于 2016-3-23 17:23:11

{:5_109:}{:5_109:}

小学期 发表于 2016-3-24 09:39:28

厉害,学习一下

一滴 发表于 2016-3-24 10:50:19

支持原创,学习Python

太空军校生 发表于 2016-3-24 12:00:55

学习学习看看
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: python 爬取百度云资源2.0来了。