很惭愧、写了一个小爬虫——小草社区~,Python交流,编程语言专区,鱼C论坛

罗同学 发表于 2018-7-22 11:19:32

很惭愧、写了一个小爬虫——小草社区~

本帖最后由罗同学于 2023-12-15 14:27 编辑

2019.10.21更新：
看了前几天因为写爬虫整个公司被抓的新闻、太可怕了、撤了附件了、溜了溜了

2018.08.21更新
有鱼油回复说不能用了、刚看了一下是地址有更新了、所以请大家遇到问题先看下本文的说明哦
敲黑板：第50行的urlhead的内容已经更新为请新来的同学下载压缩包后自行修改，如果后续有运行后直接出现“Done”但什么都没有下载到的话，请先自行检查地址是否有更新。当然地址更新了、第49行的地址也要一起修改。

写了一个多线程爬某网站分享区的图片，之前写的只能一个页面一个页面的爬，还经常被远程服务器关闭，这几天看了多线程的教程修改了一下亲测有效。（毕竟看名字都ver3版了）。看到这有人估计想问到底是爬什么的，看图里面的名字应该能猜出来吧，至于爬到的结果，emmmm为了我们论坛的长足发展为了和谐就不放了，自己去用代码试吧。

请注意第49和第50行的备注内容哦：
（1）默认就爬第一页的所有贴（少年要节制），有需求的话、自己用for循环把'page='后面的数字改一下就可以爬多个页面了、相信各位是都会的
（2）从网页中解析出来的地址前面还要加上一个通过一的开头才能打开，如果哪天不能用了请先自己去网站看下是不是这个开头变了，注意49、50行要同步修改成最新的
第60行注释掉的内容，爬第一页的时候建议取消注释，第一页还有什么版规什么的，可以过滤掉
第24、25、41行的os命令注释掉了、本来想按帖子名分文件夹进行保存、但是多线程并发会导致工作目录混乱、导致各种报错。如果哪位大神有办法了可以来分享~所以换了个折中的方法，将图片的名字设置成了帖子名加图片名，这样一个帖子的图片就可以按顺序排在一起了。昨晚临时写了一个根据名字分文件夹的代码，但是还不太完美，后续调好了看看再发上来。

写了这么多、第一次分享，喜欢的欢迎点个收藏（其实是第二次，上次分享的ver1由于贴了图，虽然打了码但还是被和谐了、所以这次大家就自己去体会吧）

2018.07.29更新
大家爬了之后来给个反馈哈{:10_256:} （纯洁的微笑）

269662667 发表于 2018-8-10 22:39:22

269662667 发表于 2018-8-10 21:47
楼主：
很惭愧，只做了一点微小的工作，谢谢大家

返图

RIXO 发表于 2018-9-19 22:29:58

罗同学发表于 2018-9-19 22:02
你的电脑没有lxml这个模块把、pip安装一下
具体可以参考这个https://www.jb51.net/article/67125.htm

虽然不知道什么问题，但是我用jupyter又打开了一遍，看的我面红耳赤，刺激啊

罗同学 发表于 2019-3-12 16:44:41

怎么感觉这个帖子最近一下又火起来了{:10_279:}

titanss 发表于 2018-7-22 23:44:58

以学习的名义，哈哈

不起这个名字了 发表于 2018-7-23 00:04:52

xuexile

NJHTT 发表于 2018-7-23 00:47:19

学习爬虫经验

LuAnys 发表于 2018-7-23 01:22:12

学习了

褪色发表于 2018-7-23 05:54:07

借鉴学习

love-vitex 发表于 2018-7-23 08:31:41

多线程的？这个证需要呢。。。

罗同学 发表于 2018-7-23 22:30:44

titanss 发表于 2018-7-22 23:44
以学习的名义，哈哈

一次爬一页哦、要注意身体哦

zhou995287902 发表于 2018-7-24 07:26:14

学习

CC柴 发表于 2018-7-24 08:45:17

学习下

下次记得办掉 发表于 2018-7-24 08:51:04

EzioA 发表于 2018-7-24 08:51:55

{:10_282:}

非官方认证 发表于 2018-7-24 08:55:46

感谢楼主

小菜几 发表于 2018-7-24 08:56:06

厉害楼

taigefcxj 发表于 2018-7-24 11:20:32

学习一下看看

Mzerp 发表于 2018-7-24 11:55:16

以学习的名义

我也叫甲鱼 发表于 2018-7-24 13:27:35

学习学习

kaibun 发表于 2018-7-24 14:31:42

以学习的名义！

见鲸发表于 2018-7-24 15:21:56

学习

oujq2541 发表于 2018-7-24 15:49:19

我不管，我要看

页: [1] 2 3 4 5 6 7 8 9 10

鱼C论坛's Archiver

很惭愧、写了一个小爬虫——小草社区~