本帖最后由 gopythoner 于 2017-4-24 10:14 编辑
你确定你爬到的全部是小图么,不对吧,应该有几张大图,大部分是小图,一小部分是大图猜对
这个地方,你打开了一个页面之后去提取整个页面的图片是不行的
- for i in find_img:
- ming = i.split('/')[-1]
- urllib.request.urlretrieve(i,ming,None)
复制代码
其实大图的链接格式和小图是不一样 的,这个需要你改一下正则提取图片链接的格式
加一句判断就可以
因为每个页面只有1张是大图,其他都是小图,你只能提取第一张,那张才是大图,如果你要提取更多,就需要翻页
比如你打开了这个页面https://www.uumnt.com/zipai/16941.html,你只能提取这个<img src="https://newimg.uumnt.com:446/Pics/2017/0424/05/02.jpg"图片链接,这个才是大图,其他都是小图没用的
如果你想提取这个妹子更多的图,就需要翻页
看看第二页链接,是这样 的https://www.uumnt.com/zipai/16941_2.html,然后提取第二页 的图片,以此类推