Timeload 发表于 2019-12-23 15:38:35

煎蛋网爬虫代码小改进,按页爬取1500多张图片

本帖最后由 Timeload 于 2019-12-30 23:13 编辑

最近在看小甲鱼老师的python教学视频,今天学到了爬取煎蛋网图片的课程。可是网页的链接组成与视频录制的时候已经有了非常大的差异,截至本文撰写时间2019年12月23日,页面的网页链接已经变成了下图:
于是本人对小甲鱼老师的代码直接进行了些许改动,使爬虫能够直接抓取第10页之后所有页面中的图片,理论抓取范围为第10页到第99页。
首先获取网页的最大页数,从最大页数向前抓取到第10页。实现方法:页面链接中"MjAxOTEyMjEt"之后的三位是有规律可循的,可以由页数计算得到。使用字典包含对每一位对应的字符进行索引。

代码运行结果如下:



目前页数为72页,总共爬取图片1522张。



源代码如下:**** Hidden Message *****
本人是刚刚开始学习python的小白一只,代码可能会有疏漏错误的地方,欢迎大家一起交流,给我批评指正。
同时这也是我在鱼C论坛发布的第一篇帖子,感谢大家的支持!

jroilee 发表于 2019-12-26 15:04:48

666666

pippo920 发表于 2019-12-26 15:10:36

学习

2434849827 发表于 2019-12-27 10:24:16

llll

bg4rft 发表于 2019-12-27 15:07:18

66666666

methanecng 发表于 2019-12-27 19:18:20

楼主好厉害,可以教教我嘛

1752633745 发表于 2019-12-28 14:52:59

6666666666666666

methanecng 发表于 2019-12-28 14:54:52

你好,我想请教一下,为什么我爬下来的图片都打不开呀

林思橙 发表于 2019-12-28 20:45:28

看看

一个账号 发表于 2019-12-29 19:58:45

take a look.

逍遥昕雨 发表于 2019-12-29 20:35:09

想看下

Timeload 发表于 2019-12-30 23:20:55

methanecng 发表于 2019-12-28 14:54
你好,我想请教一下,为什么我爬下来的图片都打不开呀

不好意思,是我疏忽了,我把代码发上来的时候没有全部缩进好。
请注意50行左右的save_imgs()函数,复制下来之后要对with语句下面的两行进行缩进。
代码现在仍然是可用的,修改后的代码已经提交修改,审核通过后就能看见了。请把保存文件的函数正确缩进后再试。

Y0uWill_1Will 发表于 2019-12-31 16:09:23

厉害啊

2224380384 发表于 2019-12-31 16:56:12

1

cpj2019 发表于 2020-1-3 19:14:56

66

methanecng 发表于 2020-1-5 14:39:01

Timeload 发表于 2019-12-30 23:20
不好意思,是我疏忽了,我把代码发上来的时候没有全部缩进好。
请注意50行左右的save_imgs()函数,复制 ...

不是这个原因吧,我把保存图片的语句换成urllib.request.urlretrieve(each,filename,None)就可以了,用read()下载的图片打不开,是不是网站加密了?

hope_peng 发表于 2020-1-6 09:50:25

看看

2074553018 发表于 2020-1-6 15:33:33

看看

小污龟的小迷弟 发表于 2020-1-7 11:01:01

6

编程xuexi 发表于 2020-1-8 09:44:00

大佬厉害
页: [1] 2 3 4 5 6
查看完整版本: 煎蛋网爬虫代码小改进,按页爬取1500多张图片