[已解决]求助列表历遍命令

jasmorning · 发表于 2018-12-31 15:56:40

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

先上代码

import urllib.request
import requests
import re
import os
#####get_pagelist、get_postlist、get_imglist######
def get_html(url):
res = requests.get(url)
return res.text
def down(url):
url = pagelist[0] #设定url为pagelist列表中第一个
posttemp = re.compile(r'<a href="(/meituisiwatupian/\d+/\d+\.html)" t')
html = get_html(url)#定义html命令为获取url源代码
postlistx = re.findall(posttemp,html)
for post in postlistx:
post = 'http://www.tu11.com/' + str(post)
img = get_html(post)
imgfind = r'src="(http://img15.haotuwu.com:8080/picture/\d+/\w+[^"]+.jpg)"'
img = re.findall(imgfind,img)
for down in img:
filename = down.split("/")[-1]
urllib.request.urlretrieve(down,filename,None)
if __name__=='__main__':
page = 1
pagelist = []
while True:
if page > 10:
break
url = "http://www.tu11.com/meituisiwatupian/list_2_" + str(page) + ".html"
pagelist.append(url)
page += 1
down(url)

复制代码

代码写的有点乱，基本思路是从main开始，构建一个页面列表pagelist，然后传入down函数，在down函数中构建一个postlistx列表，用拼接方式加上域名存为post列表，然后进入post列表中第一项，然后查找该帖子中所有.jpg

问题来了，现在程序跑起来的时候，仅得到了post列表中的第一个.jpg文件的地址，然后就去找post列表中第二个帖子去了。。。。

到底是哪里出错了呢？还是某个语句不该放在这个循环里？

最佳答案

月排行榜 / 总排行榜

ba21

2018-12-31 19:29:40

老实说，没明白你的意思。再说了人家网站也反爬。
如果你想爬所有页应该是这样

def down(urls):
for url in urls:
posttemp = re.compile(r'<a href="(/meituisiwatupian/\d+/\d+\.html)" t')
html = get_html(url)#定义html命令为获取url源代码
postlistx = re.findall(posttemp,html)
for post in postlistx:
post = 'http://www.tu11.com/' + str(post)
img = get_html(post)
imgfind = r'src="(http://img15.haotuwu.com:8080/picture/\d+/\w+[^"]+.jpg)"'
img = re.findall(imgfind,img)
for down in img:
filename = down.split("/")[-1]
urllib.request.urlretrieve(down,filename,None)
if __name__=='__main__':
page = 1
pagelist = []
while True:
if page > 10:
break
url = "http://www.tu11.com/meituisiwatupian/list_2_" + str(page) + ".html"
pagelist.append(url)
page += 1
down(pagelist)

复制代码

跳转到最佳答案楼层

ba21 · 发表于 2018-12-31 19:29:40

老实说，没明白你的意思。再说了人家网站也反爬。
如果你想爬所有页应该是这样

def down(urls):
for url in urls:
posttemp = re.compile(r'<a href="(/meituisiwatupian/\d+/\d+\.html)" t')
html = get_html(url)#定义html命令为获取url源代码
postlistx = re.findall(posttemp,html)
for post in postlistx:
post = 'http://www.tu11.com/' + str(post)
img = get_html(post)
imgfind = r'src="(http://img15.haotuwu.com:8080/picture/\d+/\w+[^"]+.jpg)"'
img = re.findall(imgfind,img)
for down in img:
filename = down.split("/")[-1]
urllib.request.urlretrieve(down,filename,None)
if __name__=='__main__':
page = 1
pagelist = []
while True:
if page > 10:
break
url = "http://www.tu11.com/meituisiwatupian/list_2_" + str(page) + ".html"
pagelist.append(url)
page += 1
down(pagelist)

复制代码

账号		自动登录	找回密码
密码			立即注册