鱼C论坛

 找回密码
 立即注册
查看: 12417|回复: 110

[技术交流] 煎蛋网爬虫代码小改进,按页爬取1500多张图片

  [复制链接]
发表于 2019-12-23 15:38:35 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Timeload 于 2019-12-30 23:13 编辑

最近在看小甲鱼老师的python教学视频,今天学到了爬取煎蛋网图片的课程。

可是网页的链接组成与视频录制的时候已经有了非常大的差异,截至本文撰写时间2019年12月23日,页面的网页链接已经变成了下图:
QQ截图20191223145702.png

于是本人对小甲鱼老师的代码直接进行了些许改动,使爬虫能够直接抓取第10页之后所有页面中的图片,理论抓取范围为第10页到第99页。
首先获取网页的最大页数,从最大页数向前抓取到第10页。

实现方法:页面链接中"MjAxOTEyMjEt"之后的三位是有规律可循的,可以由页数计算得到。

使用字典包含对每一位对应的字符进行索引。

代码运行结果如下:

QQ截图20191223150753.png

目前页数为72页,总共爬取图片1522张。

QQ截图20191223151227.png

源代码如下:
游客,如果您要查看本帖隐藏内容请回复

本人是刚刚开始学习python的小白一只,代码可能会有疏漏错误的地方,欢迎大家一起交流,给我批评指正。
同时这也是我在鱼C论坛发布的第一篇帖子,感谢大家的支持!

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-26 15:04:48 | 显示全部楼层
666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-26 15:10:36 | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-27 10:24:16 | 显示全部楼层
llll
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-27 15:07:18 | 显示全部楼层
66666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-27 19:18:20 | 显示全部楼层
楼主好厉害,可以教教我嘛
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-28 14:52:59 | 显示全部楼层
6666666666666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-28 14:54:52 | 显示全部楼层
你好,我想请教一下,为什么我爬下来的图片都打不开呀
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-28 20:45:28 | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-29 19:58:45 | 显示全部楼层
take a look.
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-29 20:35:09 From FishC Mobile | 显示全部楼层
想看下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-12-30 23:20:55 | 显示全部楼层
methanecng 发表于 2019-12-28 14:54
你好,我想请教一下,为什么我爬下来的图片都打不开呀

不好意思,是我疏忽了,我把代码发上来的时候没有全部缩进好。
请注意50行左右的save_imgs()函数,复制下来之后要对with语句下面的两行进行缩进。
代码现在仍然是可用的,修改后的代码已经提交修改,审核通过后就能看见了。请把保存文件的函数正确缩进后再试。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-31 16:09:23 | 显示全部楼层
厉害啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-31 16:56:12 | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-3 19:14:56 | 显示全部楼层
66
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-5 14:39:01 | 显示全部楼层
Timeload 发表于 2019-12-30 23:20
不好意思,是我疏忽了,我把代码发上来的时候没有全部缩进好。
请注意50行左右的save_imgs()函数,复制 ...

不是这个原因吧,我把保存图片的语句换成urllib.request.urlretrieve(each,filename,None)就可以了,用read()下载的图片打不开,是不是网站加密了?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-6 09:50:25 | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-6 15:33:33 | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-7 11:01:01 | 显示全部楼层
6
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-8 09:44:00 | 显示全部楼层
大佬厉害
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 08:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表