鱼C论坛

 找回密码
 立即注册
楼主: mavericks

[作品展示] 爬点性感的。初学者Eclipse下python2.7爬虫

  [复制链接]
发表于 2016-9-12 11:27:40 | 显示全部楼层
支持楼主
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-9-14 12:47:30 | 显示全部楼层
学习学习!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-9-15 15:08:10 | 显示全部楼层
import os
import re
import urllib.request

#打开网页抓取源文件
def get_html(url):
    try:
        res = urllib.request.Request(url)
        res.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')
        html = urllib.request.urlopen(res).read().decode('utf-8')
    except:
        print('网页打开失败.....')
    return html

#获得帖子列表页的内容页地址
def get_page(html):
    z = r'<div class="postTitle"><a target="_blank" href="/(\d+.html)">.+</a></div>'
    page = re.findall(z,html)
    pagelist = []

    for each in page:
        pagelist.append('http://tt.mop.com/' + each)

    return pagelist

#抓取内容页图片
def get_img(html):
    z = r'<p class="tc mb10"><img src="([^"]+\.jpg)"></p>'
    imglist = re.findall(z,html)
    x = 1
    for each in imglist:
        filename = each.split('/')[-1]
        urllib.request.urlretrieve(each,filename,None)
        x +=1
    print('成功下载%d张图片' % x)


if __name__ == "__main__":
    url = 'http://tt.mop.com/c35.html'
    urllist = get_page(get_html(url))
    if not os.path.exists('猫扑女郎'):
        os.mkdir('猫扑女郎')
    os.chdir('猫扑女郎')
    print('一共%d个图片帖子' % len(urllist))
    y = 1
    for each in urllist:
        print('--------进入第%d页--------' % y)
        get_img(get_html(each))
        y += 1
    if y > len(urllist):
        print('抓取完毕!')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-9-15 18:37:19 | 显示全部楼层
cc
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2016-10-13 08:44:56 | 显示全部楼层
看看,这么强,学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-10-13 10:54:03 | 显示全部楼层
666666666666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-10-13 12:31:38 | 显示全部楼层
我来学习技术
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-1-18 16:51:06 | 显示全部楼层
谢谢!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-1-18 17:25:13 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-1-19 09:58:31 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-1-19 11:37:13 | 显示全部楼层
我也在用eclipse
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-1-19 15:41:05 | 显示全部楼层
66666666666666666666666666666666666666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-1-19 16:23:42 | 显示全部楼层
沉迷学习无法自拔
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-1-28 15:09:21 | 显示全部楼层
好厉害学下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-2-5 17:14:01 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-2-6 13:46:47 | 显示全部楼层
python哪个版本?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-4 17:11:24 | 显示全部楼层
谔谔
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-7 09:13:30 | 显示全部楼层
看看~~~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-7 16:45:27 | 显示全部楼层
????
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-7 22:20:28 | 显示全部楼层
6666666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-23 02:33

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表