爬贴吧中图片的时候，列表中有4个url，但是就保存了1张图片，怎么回事

石头怪 · 发表于 2017-3-31 15:03:07

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由石头怪于 2017-3-31 15:49 编辑

import urllib.request
import os

def open_url(url):

req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36')
response = urllib.request.urlopen(url)
html = response.read()
return html
def find_url(url):
html = open_url(url).decode('utf-8')

img_url = []

a = html.find('img class="BDE_Image" src=')
while a != -1:
      b = html.find('.jpg',a,a+255)
      if b != -1:
         html = html[a+27:b+4]
         img_url.append(html)
      else:
         b = a + 9
      a = html.find('img class="BDE_Image" src=',b)
      return img_url


def save_img(img_url):
for each in img_url:
      filename = each.split('/')[-1]
      with open(filename,'wb')as f:
         img = open_url(each)
         f.write(img)




def tbdownload(folder='tieba'):

os.mkdir(folder)
os.chdir(folder)

url = 'https://tieba.baidu.com/p/5048269511'

img_url = find_url(url)

save_img(img_url)

if __name__ == '__main__':
tbdownload()

lumber2388779 · 发表于 2017-3-31 15:31:37

我拿你的代码加了打印img_url 中只有一个元素，你检查下你的代码吧，你下载一张图片是对的

膜法记者 · 发表于 2017-4-2 10:06:34

正则表达式保平安

账号		自动登录	找回密码
密码			立即注册