很惭愧、写了一个小爬虫——小草社区~
本帖最后由 罗同学 于 2023-12-15 14:27 编辑2019.10.21更新:
看了前几天因为写爬虫整个公司被抓的新闻、太可怕了、撤了附件了、溜了溜了
2018.08.21更新
有鱼油回复说不能用了、刚看了一下是地址有更新了、所以请大家遇到问题先看下本文的说明哦
敲黑板:第50行的urlhead的内容已经更新为请新来的同学下载压缩包后自行修改,如果后续有运行后直接出现“Done”但什么都没有下载到的话,请先自行检查地址是否有更新。当然地址更新了、第49行的地址也要一起修改。
写了一个多线程爬某网站分享区的图片,之前写的只能一个页面一个页面的爬,还经常被远程服务器关闭,这几天看了多线程的教程修改了一下亲测有效。(毕竟看名字都ver3版了)。看到这有人估计想问到底是爬什么的,看图里面的名字应该能猜出来吧,至于爬到的结果,emmmm为了我们论坛的长足发展为了和谐就不放了,自己去用代码试吧。
请注意第49和第50行的备注内容哦:
(1)默认就爬第一页的所有贴(少年要节制),有需求的话、自己用for循环把'page='后面的数字改一下就可以爬多个页面了、相信各位是都会的
(2)从网页中解析出来的地址前面还要加上一个通过一的开头才能打开,如果哪天不能用了请先自己去网站看下是不是这个开头变了,注意49、50行要同步修改成最新的
第60行注释掉的内容,爬第一页的时候建议取消注释,第一页还有什么版规什么的,可以过滤掉
第24、25、41行的os命令注释掉了、本来想按帖子名分文件夹进行保存、但是多线程并发会导致工作目录混乱、导致各种报错。如果哪位大神有办法了可以来分享~所以换了个折中的方法,将图片的名字设置成了帖子名加图片名,这样一个帖子的图片就可以按顺序排在一起了。昨晚临时写了一个根据名字分文件夹的代码,但是还不太完美,后续 调好了看看再发上来。
写了这么多、第一次分享,喜欢的欢迎点个收藏(其实是第二次,上次分享的ver1由于贴了图,虽然打了码但还是被和谐了、所以这次大家就自己去体会吧)
2018.07.29更新
大家爬了之后来给个反馈哈{:10_256:} (纯洁的微笑)
269662667 发表于 2018-8-10 21:47
楼主:
很惭愧,只做了一点微小的工作,谢谢大家
返图 罗同学 发表于 2018-9-19 22:02
你的电脑没有lxml这个模块把、pip安装一下
具体可以参考这个https://www.jb51.net/article/67125.htm
虽然不知道什么问题,但是我用jupyter又打开了一遍,看的我面红耳赤,刺激啊 怎么感觉这个帖子最近一下又火起来了{:10_279:} 以学习的名义,哈哈 xuexile 学习爬虫经验 学习了 借鉴学习 多线程的?这个证需要呢。。。 titanss 发表于 2018-7-22 23:44
以学习的名义,哈哈
一次爬一页哦、要注意身体哦 学习 学习下 1 {:10_282:} 感谢楼主 厉害楼 学习一下看看 以学习的名义 学习学习 以学习的名义! 学习 我不管,我要看