鱼C论坛

 找回密码
 立即注册
查看: 34713|回复: 1497

[技术交流] 爬虫爬取妹子图

  [复制链接]
发表于 2018-8-14 14:42:23 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
给大家送一波儿福利了,用python写的网络爬虫爬取妹子图上的优质资源。
因为很多网站都有反爬取机制,所以新手很难找到一些合适的网站进行爬取练习,在这里给大家推荐妹子图这个网站,图片都可以爬取。
记住不要让妈妈和女朋友发现了你爬的东西哦!!!

import urllib.request
import urllib.parse
import re
import time


def getHtml(url, header):
    request = urllib.request.Request(url, headers = header)
    response = urllib.request.urlopen(request)
    html = response.read().decode("gbk")

    return html

def getaddressofpic(html):
    r_key = "<img alt=\"(.*?)\" src=\"(.*?)\" />"
    key = re.compile(r_key)

    piclist = re.findall(key, html)

    return piclist

def saving(piclist):
    for each in piclist:
        address = each[1]
        name = each[0]
        print(name)
        print(address)
        urllib.request.urlretrieve(address, "e://pachong/%s.jpg"%name)


def paqu():
    for num in range(5550, 5580):
        if num % 10 != 3:
            url = "http://www.meizitu.com/a/" + str(num) + ".html"

            header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"}

            html = getHtml(url, header)

            piclist = getaddressofpic(html)

            saving(piclist)


        else:
            url = "http://www.meizitu.com/a//" + str(num) + ".html"

            header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"}

            html = getHtml(url, header)

            piclist = getaddressofpic(html)

            saving(piclist)

        time.sleep(60)


if __name__ == "__main__":
    paqu()


print("爬取成功!")




这里的储存地址大家按自己的电脑可以改一下,我这里是E盘。
另外User Agent设置大家也按照自己的电脑有需要的改一下。
paqu()函数中的num参数是爬取的哪一页,大家可以在浏览的时候注意一下网站的URL。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-14 15:37:42 | 显示全部楼层
老司机。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-14 15:46:40 | 显示全部楼层
老铁没毛病
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-14 16:07:21 | 显示全部楼层
我也要来试试看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-14 16:25:46 | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-14 16:42:16 | 显示全部楼层
了解下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-14 16:45:46 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-14 16:47:14 | 显示全部楼层
111
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-14 17:41:34 | 显示全部楼层
想看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-14 17:50:32 | 显示全部楼层
随便看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-14 18:05:17 | 显示全部楼层
看下代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-14 19:28:42 | 显示全部楼层
厉害了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-14 20:00:53 | 显示全部楼层
厉害了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-14 20:11:42 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-14 20:49:59 | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-14 22:39:15 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-14 23:20:05 | 显示全部楼层
看看是什么好东西
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-15 00:17:57 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-15 06:40:13 | 显示全部楼层
污污污,小火车开车啦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-15 07:50:35 | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-21 19:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表