爬点性感的。初学者Eclipse下python2.7爬虫,Python交流,编程语言专区,鱼C论坛

superFeng777 发表于 2016-9-12 11:27:40

{:10_266:}支持楼主

superFeng777 发表于 2016-9-14 12:47:30

{:10_256:}学习学习！

hotool 发表于 2016-9-15 15:08:10

import os
import re
import urllib.request

#打开网页抓取源文件
def get_html(url):
try:
   res = urllib.request.Request(url)
   res.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')
   html = urllib.request.urlopen(res).read().decode('utf-8')
except:
   print('网页打开失败.....')
return html

#获得帖子列表页的内容页地址
def get_page(html):
z = r'<div class="postTitle"><a target="_blank" href="/(\d+.html)">.+</a></div>'
page = re.findall(z,html)
pagelist = []

for each in page:
   pagelist.append('http://tt.mop.com/' + each)

return pagelist

#抓取内容页图片
def get_img(html):
z = r'<p class="tc mb10"><img src="([^"]+\.jpg)"></p>'
imglist = re.findall(z,html)
x = 1
for each in imglist:
   filename = each.split('/')[-1]
   urllib.request.urlretrieve(each,filename,None)
   x +=1
print('成功下载%d张图片' % x)

if __name__ == "__main__":
url = 'http://tt.mop.com/c35.html'
urllist = get_page(get_html(url))
if not os.path.exists('猫扑女郎'):
   os.mkdir('猫扑女郎')
os.chdir('猫扑女郎')
print('一共%d个图片帖子' % len(urllist))
y = 1
for each in urllist:
   print('--------进入第%d页--------' % y)
   get_img(get_html(each))
   y += 1
if y > len(urllist):
   print('抓取完毕！')

帮闲魂 发表于 2016-9-15 18:37:19

aiblen 发表于 2016-10-13 08:44:56

看看，这么强，学习一下

lb971216008 发表于 2016-10-13 10:54:03

666666666666666

hvagab 发表于 2016-10-13 12:31:38

我来学习技术

奔跑的炒饭 发表于 2017-1-18 16:51:06

谢谢！

我要做爬虫 发表于 2017-1-18 17:25:13

的

guangwei_cai 发表于 2017-1-19 09:58:31

{:5_91:}

daniel209a 发表于 2017-1-19 11:37:13

我也在用eclipse

哈哈狗 发表于 2017-1-19 15:41:05

66666666666666666666666666666666666666666

n9vakin 发表于 2017-1-19 16:23:42

沉迷学习无法自拔

panda小正太 发表于 2017-1-28 15:09:21

好厉害学下

三良发表于 2017-2-5 17:14:01

{:5_91:}

浅笑无痕111 发表于 2017-2-6 13:46:47

python哪个版本？

xiaotan1314 发表于 2017-4-4 17:11:24

谔谔

zp0871 发表于 2017-4-7 09:13:30

看看~~~

99592938 发表于 2017-4-7 16:45:27

????

zhanghonn 发表于 2017-4-7 22:20:28

6666666666

页: 11 12 13 14 15 16 17 18 19 20 [21] 22 23 24 25 26 27

鱼C论坛's Archiver