superFeng777
发表于 2016-9-12 11:27:40
{:10_266:}支持楼主
superFeng777
发表于 2016-9-14 12:47:30
{:10_256:}学习学习!
hotool
发表于 2016-9-15 15:08:10
import os
import re
import urllib.request
#打开网页抓取源文件
def get_html(url):
try:
res = urllib.request.Request(url)
res.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')
html = urllib.request.urlopen(res).read().decode('utf-8')
except:
print('网页打开失败.....')
return html
#获得帖子列表页的内容页地址
def get_page(html):
z = r'<div class="postTitle"><a target="_blank" href="/(\d+.html)">.+</a></div>'
page = re.findall(z,html)
pagelist = []
for each in page:
pagelist.append('http://tt.mop.com/' + each)
return pagelist
#抓取内容页图片
def get_img(html):
z = r'<p class="tc mb10"><img src="([^"]+\.jpg)"></p>'
imglist = re.findall(z,html)
x = 1
for each in imglist:
filename = each.split('/')[-1]
urllib.request.urlretrieve(each,filename,None)
x +=1
print('成功下载%d张图片' % x)
if __name__ == "__main__":
url = 'http://tt.mop.com/c35.html'
urllist = get_page(get_html(url))
if not os.path.exists('猫扑女郎'):
os.mkdir('猫扑女郎')
os.chdir('猫扑女郎')
print('一共%d个图片帖子' % len(urllist))
y = 1
for each in urllist:
print('--------进入第%d页--------' % y)
get_img(get_html(each))
y += 1
if y > len(urllist):
print('抓取完毕!')
帮闲魂
发表于 2016-9-15 18:37:19
cc
aiblen
发表于 2016-10-13 08:44:56
看看,这么强,学习一下
lb971216008
发表于 2016-10-13 10:54:03
666666666666666
hvagab
发表于 2016-10-13 12:31:38
我来学习技术
奔跑的炒饭
发表于 2017-1-18 16:51:06
谢谢!
我要做爬虫
发表于 2017-1-18 17:25:13
的
guangwei_cai
发表于 2017-1-19 09:58:31
{:5_91:}
daniel209a
发表于 2017-1-19 11:37:13
我也在用eclipse
哈哈狗
发表于 2017-1-19 15:41:05
66666666666666666666666666666666666666666
n9vakin
发表于 2017-1-19 16:23:42
沉迷学习无法自拔
panda小正太
发表于 2017-1-28 15:09:21
好厉害学下
三良
发表于 2017-2-5 17:14:01
{:5_91:}
浅笑无痕111
发表于 2017-2-6 13:46:47
python哪个版本?
xiaotan1314
发表于 2017-4-4 17:11:24
谔谔
zp0871
发表于 2017-4-7 09:13:30
看看~~~
99592938
发表于 2017-4-7 16:45:27
????
zhanghonn
发表于 2017-4-7 22:20:28
6666666666