superFeng777 发表于 2016-9-12 11:27:40

{:10_266:}支持楼主

superFeng777 发表于 2016-9-14 12:47:30

{:10_256:}学习学习!

hotool 发表于 2016-9-15 15:08:10

import os
import re
import urllib.request

#打开网页抓取源文件
def get_html(url):
    try:
      res = urllib.request.Request(url)
      res.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')
      html = urllib.request.urlopen(res).read().decode('utf-8')
    except:
      print('网页打开失败.....')
    return html

#获得帖子列表页的内容页地址
def get_page(html):
    z = r'<div class="postTitle"><a target="_blank" href="/(\d+.html)">.+</a></div>'
    page = re.findall(z,html)
    pagelist = []

    for each in page:
      pagelist.append('http://tt.mop.com/' + each)

    return pagelist

#抓取内容页图片
def get_img(html):
    z = r'<p class="tc mb10"><img src="([^"]+\.jpg)"></p>'
    imglist = re.findall(z,html)
    x = 1
    for each in imglist:
      filename = each.split('/')[-1]
      urllib.request.urlretrieve(each,filename,None)
      x +=1
    print('成功下载%d张图片' % x)


if __name__ == "__main__":
    url = 'http://tt.mop.com/c35.html'
    urllist = get_page(get_html(url))
    if not os.path.exists('猫扑女郎'):
      os.mkdir('猫扑女郎')
    os.chdir('猫扑女郎')
    print('一共%d个图片帖子' % len(urllist))
    y = 1
    for each in urllist:
      print('--------进入第%d页--------' % y)
      get_img(get_html(each))
      y += 1
    if y > len(urllist):
      print('抓取完毕!')

帮闲魂 发表于 2016-9-15 18:37:19

cc

aiblen 发表于 2016-10-13 08:44:56

看看,这么强,学习一下

lb971216008 发表于 2016-10-13 10:54:03

666666666666666

hvagab 发表于 2016-10-13 12:31:38

我来学习技术

奔跑的炒饭 发表于 2017-1-18 16:51:06

谢谢!

我要做爬虫 发表于 2017-1-18 17:25:13

guangwei_cai 发表于 2017-1-19 09:58:31

{:5_91:}

daniel209a 发表于 2017-1-19 11:37:13

我也在用eclipse

哈哈狗 发表于 2017-1-19 15:41:05

66666666666666666666666666666666666666666

n9vakin 发表于 2017-1-19 16:23:42

沉迷学习无法自拔

panda小正太 发表于 2017-1-28 15:09:21

好厉害学下

三良 发表于 2017-2-5 17:14:01

{:5_91:}

浅笑无痕111 发表于 2017-2-6 13:46:47

python哪个版本?

xiaotan1314 发表于 2017-4-4 17:11:24

谔谔

zp0871 发表于 2017-4-7 09:13:30

看看~~~

99592938 发表于 2017-4-7 16:45:27

????

zhanghonn 发表于 2017-4-7 22:20:28

6666666666
页: 11 12 13 14 15 16 17 18 19 20 [21] 22 23 24 25 26 27
查看完整版本: 爬点性感的。初学者Eclipse下python2.7爬虫