煎蛋网爬虫代码小改进，按页爬取1500多张图片,Python交流,编程语言专区,鱼C论坛

Timeload 发表于 2019-12-23 15:38:35

煎蛋网爬虫代码小改进，按页爬取1500多张图片

本帖最后由 Timeload 于 2019-12-30 23:13 编辑

最近在看小甲鱼老师的python教学视频，今天学到了爬取煎蛋网图片的课程。可是网页的链接组成与视频录制的时候已经有了非常大的差异，截至本文撰写时间2019年12月23日，页面的网页链接已经变成了下图：
于是本人对小甲鱼老师的代码直接进行了些许改动，使爬虫能够直接抓取第10页之后所有页面中的图片，理论抓取范围为第10页到第99页。
首先获取网页的最大页数，从最大页数向前抓取到第10页。实现方法：页面链接中"MjAxOTEyMjEt"之后的三位是有规律可循的，可以由页数计算得到。使用字典包含对每一位对应的字符进行索引。

代码运行结果如下：

目前页数为72页，总共爬取图片1522张。

源代码如下：**** Hidden Message *****
本人是刚刚开始学习python的小白一只，代码可能会有疏漏错误的地方，欢迎大家一起交流，给我批评指正。
同时这也是我在鱼C论坛发布的第一篇帖子，感谢大家的支持！

jroilee 发表于 2019-12-26 15:04:48

666666

pippo920 发表于 2019-12-26 15:10:36

学习

2434849827 发表于 2019-12-27 10:24:16

llll

bg4rft 发表于 2019-12-27 15:07:18

66666666

methanecng 发表于 2019-12-27 19:18:20

楼主好厉害，可以教教我嘛

1752633745 发表于 2019-12-28 14:52:59

6666666666666666

methanecng 发表于 2019-12-28 14:54:52

你好，我想请教一下，为什么我爬下来的图片都打不开呀

林思橙 发表于 2019-12-28 20:45:28

看看

一个账号 发表于 2019-12-29 19:58:45

take a look.

逍遥昕雨 发表于 2019-12-29 20:35:09

想看下

Timeload 发表于 2019-12-30 23:20:55

methanecng 发表于 2019-12-28 14:54
你好，我想请教一下，为什么我爬下来的图片都打不开呀

不好意思，是我疏忽了，我把代码发上来的时候没有全部缩进好。
请注意50行左右的save_imgs()函数，复制下来之后要对with语句下面的两行进行缩进。
代码现在仍然是可用的，修改后的代码已经提交修改，审核通过后就能看见了。请把保存文件的函数正确缩进后再试。

Y0uWill_1Will 发表于 2019-12-31 16:09:23

厉害啊

2224380384 发表于 2019-12-31 16:56:12

cpj2019 发表于 2020-1-3 19:14:56

methanecng 发表于 2020-1-5 14:39:01

Timeload 发表于 2019-12-30 23:20
不好意思，是我疏忽了，我把代码发上来的时候没有全部缩进好。
请注意50行左右的save_imgs()函数，复制 ...

不是这个原因吧，我把保存图片的语句换成urllib.request.urlretrieve(each,filename,None)就可以了，用read()下载的图片打不开，是不是网站加密了？

hope_peng 发表于 2020-1-6 09:50:25

看看

2074553018 发表于 2020-1-6 15:33:33

看看

小污龟的小迷弟 发表于 2020-1-7 11:01:01

编程xuexi 发表于 2020-1-8 09:44:00

大佬厉害

页: [1] 2 3 4 5 6

鱼C论坛's Archiver

煎蛋网爬虫代码小改进，按页爬取1500多张图片