爬点性感的。初学者Eclipse下python2.7爬虫

superFeng777 · 发表于 2016-9-12 11:27:40

支持楼主

superFeng777 · 发表于 2016-9-14 12:47:30

学习学习！

hotool · 发表于 2016-9-15 15:08:10

import os
import re
import urllib.request

#打开网页抓取源文件
def get_html(url):
try:
      res = urllib.request.Request(url)
      res.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')
      html = urllib.request.urlopen(res).read().decode('utf-8')
except:
      print('网页打开失败.....')
return html

#获得帖子列表页的内容页地址
def get_page(html):
z = r'<div class="postTitle"><a target="_blank" href="/(\d+.html)">.+</a></div>'
page = re.findall(z,html)
pagelist = []

for each in page:
      pagelist.append('http://tt.mop.com/' + each)

return pagelist

#抓取内容页图片
def get_img(html):
z = r'<p class="tc mb10"><img src="([^"]+\.jpg)"></p>'
imglist = re.findall(z,html)
x = 1
for each in imglist:
      filename = each.split('/')[-1]
      urllib.request.urlretrieve(each,filename,None)
      x +=1
print('成功下载%d张图片' % x)

if __name__ == "__main__":
url = 'http://tt.mop.com/c35.html'
urllist = get_page(get_html(url))
if not os.path.exists('猫扑女郎'):
      os.mkdir('猫扑女郎')
os.chdir('猫扑女郎')
print('一共%d个图片帖子' % len(urllist))
y = 1
for each in urllist:
      print('--------进入第%d页--------' % y)
      get_img(get_html(each))
      y += 1
if y > len(urllist):
      print('抓取完毕！')

帮闲魂 · 发表于 2016-9-15 18:37:19

aiblen · 发表于 2016-10-13 08:44:56

看看，这么强，学习一下

lb971216008 · 发表于 2016-10-13 10:54:03

666666666666666

hvagab · 发表于 2016-10-13 12:31:38

我来学习技术

奔跑的炒饭 · 发表于 2017-1-18 16:51:06

谢谢！

我要做爬虫 · 发表于 2017-1-18 17:25:13

guangwei_cai · 发表于 2017-1-19 09:58:31

daniel209a · 发表于 2017-1-19 11:37:13

我也在用eclipse

哈哈狗 · 发表于 2017-1-19 15:41:05

66666666666666666666666666666666666666666

n9vakin · 发表于 2017-1-19 16:23:42

沉迷学习无法自拔

panda小正太 · 发表于 2017-1-28 15:09:21

好厉害学下

三良 · 发表于 2017-2-5 17:14:01

浅笑无痕111 · 发表于 2017-2-6 13:46:47

python哪个版本？

xiaotan1314 · 发表于 2017-4-4 17:11:24

谔谔

zp0871 · 发表于 2017-4-7 09:13:30

看看~~~

99592938 · 发表于 2017-4-7 16:45:27

????

zhanghonn · 发表于 2017-4-7 22:20:28

6666666666

账号		自动登录	找回密码
密码			立即注册

[作品展示] 爬点性感的。初学者Eclipse下python2.7爬虫

浏览过的版块