|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
我看完小甲鱼的正则表达式 还有批量下载OOXX图片后,我自己写了一个类似的(想独立做一个试试 别笑我)
但问题是 假设2424页里面不止1个图片 而是5个图片,我这样写就只能获取到一个图片,请问 我的程序 应该怎么改呢?
----------------------------我是淫荡的分割线---------------------------------------------------------------------------------------
import urllib.request
import re
imggroup=[]
#用于获取最新的图片号码
def getmaxnum(url):
req=urllib.request.urlopen(url)
html=req.read().decode('utf-8')
num=re.search(r'class="current-comment-page"(.{7})',html)
maxnum=int(num.group(0)[30:34])
return maxnum
#用于获取图片地址,并加入到序列中
def down_mm(url):
req=urllib.request.urlopen(url)
html=req.read().decode('utf-8')
img_adds=re.search(r'<img src="(.+)\.jpg',html)
img_adds=str(img_adds.group(0)[12:])
return img_adds
#主程序
def download_main():
url='http://jandan.net/ooxx'
maxnum=getmaxnum(url)
num=maxnum-5
while maxnum > num:
url='http://jandan.net/ooxx/page-'+str(maxnum)+'#comments'
img_adds=down_mm(url)
imggroup.append(img_adds)
maxnum-=1
for i in imggroup:
reqr=urllib.request.urlopen('http://'+i)
htmlr=reqr.read()
#print (i)
f=open(str(i[40:]),'wb')
f.write(htmlr)
f.close
if __name__=='__main__':
download_main()
本帖最后由 Aifrincoo 于 2017-4-8 23:16 编辑
你那个def down_mm(url):每个页面就返回了一个图片链接
img_adds=re.search(r'<img src="(.+)\.jpg',html) 找出第一张图片的链接
最后return 得到的也就是当前页面的一条图片链接
|
|