|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
1、先上代码:
# coding:utf-8
import urllib.request
import re
x = 0 # 下载序号
for pg in range(0,3): # 先来3页测试
pg += 1 # 页数
url = 'http://www.pengfu.com/index_' + str(pg) + '.html'
html = urllib.request.urlopen(url).read().decode('utf-8') # 获取网页源码
title = re.compile(r'<h1 class="dp-b"><a href=".*?" target="_blank">(.*?)</a>',re.S)
titles = re.findall(title,html) # 匹配title
img = re.compile(r'<img src="(.*?)" width=')
imgs = re.findall(img,html) # 匹配图片
for k,v in zip(titles,imgs):
print(k,v)
path = 'D:\Python之窗\Spider\pengfu\%s.%s.jpg' %(x,k) #.decode('utf-8').encode('gbk')
urllib.request.urlretrieve(v,path)
x += 1 # 名称序号
'''文字和图片不匹配'''
2、运行结果:
C:\Python\Python35\python.exe D:/Python之窗/Spider/pengfu.py
这身搭配非常显身材。
打喷嚏打的停不下来
左边的女生是来送人头的吧?
求个名字,捧腹人才多
【今日话题】毁童年的动画你看过哪些?
很喜欢他们
这个逼装的,无懈可击
哥哥回来了
这样秀恩爱好烧钱啊!
果然是亲生的,姿势都一毛一样
取个款也太小心了吧!
大人的东西不要随便乱动!
真的假的?
完蛋了这给老婆带的生日礼物啊
被原配殴打的小三,路人竟然劝和
出门前一定要检查一下自己的着装啊
美女,注定是与众不同的
迟到了悄悄走进教室却发现走错了的我
当买家秀遇到了卖家秀
来吧,来场公平的决斗
这俩碗牛肉面花了我250块
进程已结束,退出代码0
3、下载结果:
4、说说写完后的疑点:
a、比喻一个贴吧,如果不知道尾页,for...range()此时不能用,多页效果如何达到
b、名称和地址不匹配(有不对应的组合存在)
5、是不是在匹配title和img时得先确保是一个组合才不会出现titles和imgs不对等的关系,从而导致文字和图片的不对等
|
-
运行结果
-
下载结果
|