煎蛋网爬虫代码小改进,按页爬取1500多张图片
本帖最后由 Timeload 于 2019-12-30 23:13 编辑最近在看小甲鱼老师的python教学视频,今天学到了爬取煎蛋网图片的课程。可是网页的链接组成与视频录制的时候已经有了非常大的差异,截至本文撰写时间2019年12月23日,页面的网页链接已经变成了下图:
于是本人对小甲鱼老师的代码直接进行了些许改动,使爬虫能够直接抓取第10页之后所有页面中的图片,理论抓取范围为第10页到第99页。
首先获取网页的最大页数,从最大页数向前抓取到第10页。实现方法:页面链接中"MjAxOTEyMjEt"之后的三位是有规律可循的,可以由页数计算得到。使用字典包含对每一位对应的字符进行索引。
代码运行结果如下:
目前页数为72页,总共爬取图片1522张。
源代码如下:**** Hidden Message *****
本人是刚刚开始学习python的小白一只,代码可能会有疏漏错误的地方,欢迎大家一起交流,给我批评指正。
同时这也是我在鱼C论坛发布的第一篇帖子,感谢大家的支持!
666666 学习 llll 66666666 楼主好厉害,可以教教我嘛 6666666666666666 你好,我想请教一下,为什么我爬下来的图片都打不开呀 看看 take a look.
想看下 methanecng 发表于 2019-12-28 14:54
你好,我想请教一下,为什么我爬下来的图片都打不开呀
不好意思,是我疏忽了,我把代码发上来的时候没有全部缩进好。
请注意50行左右的save_imgs()函数,复制下来之后要对with语句下面的两行进行缩进。
代码现在仍然是可用的,修改后的代码已经提交修改,审核通过后就能看见了。请把保存文件的函数正确缩进后再试。
厉害啊 1 66 Timeload 发表于 2019-12-30 23:20
不好意思,是我疏忽了,我把代码发上来的时候没有全部缩进好。
请注意50行左右的save_imgs()函数,复制 ...
不是这个原因吧,我把保存图片的语句换成urllib.request.urlretrieve(each,filename,None)就可以了,用read()下载的图片打不开,是不是网站加密了? 看看 看看 6
大佬厉害