[已解决]爬取贴吧多页图片！

黑猪儿 · 发表于 2017-9-6 17:45:47

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

为什么文件夹里只有第一页的图片，
第二页也下载成功了啊

最佳答案

月排行榜 / 总排行榜

和vvv

2017-9-6 22:15:44

本帖最后由和vvv 于 2017-9-6 22:19 编辑

我知道你这个是什么问题了，其实你已经下载成功了。只是有些图片由于文件名相同被覆盖了。

下载的图片命名有问题，每一轮下载完之后，因此出现同文件名的图片会被覆盖。
你的图片下载过程并没有问题，只是保存时有些图片被覆盖。你要确保下载的图片名称不同，可以自己命名，也可以想其他办法。

这样修改是一种方法：

import urllib.request
import re,os
os.mkdir("远方")
os.chdir(os.path.join(os.getcwd(),"远方"))
#page 表示爬取页数
def getimg(url,page):
for k in range(1,page+1):
ul = url+str(k)
html = urllib.request.urlopen(ul).read().decode('utf-8')
a = r'src="(.*?\.jpg)" size'
req = re.compile(a)
imglist = re.findall(req,html)
for i in range(len(imglist)):
urllib.request.urlretrieve(imglist[i],"%s.jpg" % (str(i)+str(k)) )
print('下载成功'+str(k)+str(i)+'.jpg')
if __name__ == '__main__':
url = 'https://tieba.baidu.com/p/5113603072?pn='
getimg(url,10)

复制代码

这是效果：

跳转到最佳答案楼层

和vvv · 发表于 2017-9-6 18:27:43

能不能发个代码呢或者链接，这个直接看好像没问题。

tich · 发表于 2017-9-6 18:52:00

这个我做过

https://github.com/LewisTian/Python#tieba

黑猪儿 · 发表于 2017-9-6 19:28:01

和vvv 发表于 2017-9-6 18:27
能不能发个代码呢或者链接，这个直接看好像没问题。

import urllib.request
import re,os
os.chdir('E:\python练习\贴吧')
os.mkdir("远方")
os.chdir(os.path.join(os.getcwd(),"远方"))
def getimg(url,x):
html = urllib.request.urlopen(url).read().decode('utf-8')
a = r'src="(.*?\.jpg)" size'
req = re.compile(a)
imglist = re.findall(req,html)
for i in imglist:
x += 1
urllib.request.urlretrieve(i,"%s.jpg" % x)
print('下载成功', x)
x = 0
url = 'https://tieba.baidu.com/p/5113603072?pn='
for k in range(1,20):
ul = url + str(k)
print(ul)
print(getimg(ul,x))

复制代码

求解答！

和vvv · 发表于 2017-9-6 22:15:44

本帖最后由和vvv 于 2017-9-6 22:19 编辑

我知道你这个是什么问题了，其实你已经下载成功了。只是有些图片由于文件名相同被覆盖了。

下载的图片命名有问题，每一轮下载完之后，因此出现同文件名的图片会被覆盖。
你的图片下载过程并没有问题，只是保存时有些图片被覆盖。你要确保下载的图片名称不同，可以自己命名，也可以想其他办法。

这样修改是一种方法：

import urllib.request
import re,os
os.mkdir("远方")
os.chdir(os.path.join(os.getcwd(),"远方"))
#page 表示爬取页数
def getimg(url,page):
for k in range(1,page+1):
ul = url+str(k)
html = urllib.request.urlopen(ul).read().decode('utf-8')
a = r'src="(.*?\.jpg)" size'
req = re.compile(a)
imglist = re.findall(req,html)
for i in range(len(imglist)):
urllib.request.urlretrieve(imglist[i],"%s.jpg" % (str(i)+str(k)) )
print('下载成功'+str(k)+str(i)+'.jpg')
if __name__ == '__main__':
url = 'https://tieba.baidu.com/p/5113603072?pn='
getimg(url,10)

复制代码

这是效果：

账号		自动登录	找回密码
密码			立即注册

[已解决]爬取贴吧多页图片！

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块