大家好我参照56课写了代码没有报错但是文件夹是空的

oda24 · 发表于 2019-8-7 10:08:26

您需要登录才可以下载或查看，没有账号？立即注册

x

代码如下（用的是www.mzitu.com这个网站）

import urllib.request
import os
def url_open(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5221.400 QQBrowser/10.0.1125.400')
response=urllib.request.urlopen(req)
html=response.read()
print(url)
return html
def get_page(url):
html=url_open(url).decode('utf-8')
a=html.find('page-numbers current')+22
b=html.find('<',a)
return html[a:b]
def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]
a=html.find('img class=''lazy'' src=')
while a!=-1:
b=html.find('.jpg',a,a+255)
if b!=-1:
img_addrs.append('http:'+html[a+22:b+4])
else:
b=a+22
a=html.find('img class=''lazy'' src=',b)
for each in img_addrs:
print(each)
return img_addrs
def save_imgs(folder,img_addrs):
for each in img_addrs:
filename=each.splt('/')[-1]
with open(filename,'wb') as f:
img=open_url(each)
f.write(img)
def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)
url='http://www.mzitu.com/zipai/'
page_num=int(get_page(url))
for i in range(pages):
page_num-=i
page_url=url+'comment-page-'+str(page_num)+'/#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)
if __name__=='__main__':
download_mm()

复制代码

oda24 · 发表于 2019-8-7 17:20:27

解决了， find_imgs内容写的不对

oda24 · 发表于 2019-8-7 17:25:03

有个新问题有的网页页码是在<span>1</span>中，比如https://www.mzitu.com/190127，这种get_page 函数内容该怎么写呢

九里堤 · 发表于 2019-11-16 23:29:24

请问楼主解决新问题了吗，我也被卡在这一晚上，打印出来一直是l，而不是页码整数

账号		自动登录	找回密码
密码			立即注册

大家好 我参照56课写了代码 没有报错但是文件夹是空的