python 爬取百度云资源2.0来了。
本帖最后由 小小大鱼 于 2016-3-22 11:31 编辑python 爬取百度云资源1.0 已取消隐藏。 传送门:http://bbs.fishc.com/thread-68448-1-1.html
本次更新:
1.主要是修改了正则,能匹配更多结果。
2.增加了注释,方便大家阅读代码
3.代码还是一样丑
代码:
**** Hidden Message *****
有什么bug,报错,建议希望大家在评论里说明,有时间我会回复。
说明:
1.本脚本实际是利用http://www.wangpansou.cn做的搜索结果。
2.如果你明白这里面的原理,直接写脚本通过百度搜索任意你想要的关键词也是可以的。
核心在这里:keyword =input('请输入要搜索的资源名:')
keyword = urllib.request.quote(keyword.encode('utf-8'))
url = "http://www.wangpansou.cn/s.php?wp=0&ty=gn&op=gn&q="+keyword+"&q="+keyword
3.标题可能引起误会了,如果要直接爬取百度云,那我暂时还不会。 意思就是 一个连接分析出正确的下载地址? 支持原创。 你好,我用你的程序测了两个词,爬出来都是91个结果,这个数量是不是有问题?{:10_256:} coder_wzy 发表于 2016-3-22 09:31
你好,我用你的程序测了两个词,爬出来都是91个结果,这个数量是不是有问题?
实际上是90个资源,计数却显示91个,bug已经修改了。
但是你说的都是90个资源我还没发现原因,稍后排查再更新上来
谢谢 coder_wzy 发表于 2016-3-22 09:31
你好,我用你的程序测了两个词,爬出来都是91个结果,这个数量是不是有问题?
bug已经找到,原来正则没匹配到第一页答案。修改后的代码已经上传。
然后我发现一个没法悠的bug,不管什么资源,网站最多列出10页,也是最多只有100个链接。 Angel丶L 发表于 2016-3-22 00:05
意思就是 一个连接分析出正确的下载地址?
搜索一个你想找的资源,然后爬取百度云的分享链接。 这个冒似不是爬百度云,而是利用了http://www.wangpansou.cn来搜索百度云资源吧? 老忘 发表于 2016-3-22 11:03
这个冒似不是爬百度云,而是利用了http://www.wangpansou.cn来搜索百度云资源吧?
是的,之前说明有写的,后面修改时给删掉了 这是什么? 路过,看看 谢谢 学学爬虫 看看2.0,也跟楼主学习学习 支持原创,谢谢楼主 这个厉害,看看~~ 谢谢分享 {:5_109:}{:5_109:} 厉害,学习一下 支持原创,学习Python
学习学习看看