鱼C论坛

 找回密码
 立即注册
楼主: 流羽星

[作品展示] 自制简单的爬虫,爬取妹子图

  [复制链接]
发表于 2019-12-22 20:26:32 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-22 20:48:50 | 显示全部楼层
import requests,time,parsel
headers={
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36',
    'Referer': 'https://www.mzitu.com/mm/'
}

def Download_tu(tu_download,tu_name):#下载一张图片
    tu_pian=requests.get(tu_download,headers=headers)
    s='E:\\下载库\\图片\\图片-1'#设置储存路径,这个win系统加上\\ 或者自己创建路径。
    with open(s+'\\'+tu_name+'.jpg','wb') as f:
        f.write(tu_pian.content)#写入图片

def Download_tuji(url,n):#下载一个图集
    response=requests.get(url,headers=headers)#发送网络请求
    nei_rong=parsel.Selector(response.text)#解析网页
    ye_shu=int(nei_rong.xpath('//div[4]/a[5]/span/text()').get())#获取图片最大页数
    for i in range(ye_shu):
        time.sleep(0.3)#设置下载延时
        tu_download=nei_rong.xpath('//p/a/img/@src').get()#获取图片下载地址
        huan_ye=nei_rong.xpath('//p/a/@href').get()#获取换页地址
        tu_name=nei_rong.xpath('//div[1]/h2/text()').get()#提取图片名字
        print(f'正在下载第{i+1}张:{tu_name},此系列共有张{ye_shu}图片,总共下载了{n}张')
        #print(tu_download,huan_ye,tu_name)
        Download_tu(tu_download,tu_name)
        url=huan_ye#换一页
        response=requests.get(url,headers=headers)#换请求新页面
        nei_rong=parsel.Selector(response.text)
        n+=1#计数
    return n


def Download_yiye(url):#下载整页图
    response=requests.get(url,headers=headers)
    nei_rong=parsel.Selector(response.text)
    urls=nei_rong.xpath('//*[@id="pins"]/li/a/@href').getall()
    n=1#获取当前页面不同类型图集的链接
    for url in urls:
        print(url)#打印要下载的图集地址
        n=Download_tuji(url,n)#下载图片

url='https://www.mzitu.com/japan//'#要爬取的网址
Download_yiye(url)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-22 21:19:20 | 显示全部楼层
厉害呀
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-22 21:21:19 | 显示全部楼层
11111
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-22 21:36:48 | 显示全部楼层
666666666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-22 21:42:14 | 显示全部楼层
我是来学习的。好好学习,天天向上
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-22 22:29:33 From FishC Mobile | 显示全部楼层
我是来看代码的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-22 22:43:40 From FishC Mobile | 显示全部楼层
厉害
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-22 22:49:49 | 显示全部楼层
import requests
from lxml import etree

i = 0
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3088.3 Safari/537.36","Referer":"http://www.mzitu.com/all/"}
url = 'https://www.mzitu.com/tag/meitun/page/2/'                # 此处网址根据需要修改
data = requests.get(url,headers=headers).text
s = etree.HTML(data)
file = s.xpath('//*[@id="pins"]/li')

for div in file:
    url_te = div.xpath('./a/@href')[0]
    data_te = requests.get(url_te,headers=headers).text
    s_te = etree.HTML(data_te)
    page = int(s_te.xpath('/html/body/div[2]/div[1]/div[4]/a[5]/span/text()')[0])

    # 图片列表页
    for x in range(1,page):
        urls = url_te + '/' + str(x)
        data_s = requests.get(urls,headers=headers).text
        s_s = etree.HTML(data_s)

        img_url = s_s.xpath('/html/body/div[2]/div[1]/div[3]/p/a/img/@src')[0]
        r = requests.get(img_url,headers=headers)

        # 保存图片
        path  = str('F:\\py_exe\\catchImg\\img' + str(i) + '.png')        # 此处路径需要修改
        with open(path,'wb') as f:
            f.write(r.content)
        i+=1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-22 23:48:50 | 显示全部楼层
3
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-23 00:01:59 From FishC Mobile | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-23 08:42:58 | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-23 08:54:05 | 显示全部楼层
厉害
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-23 12:36:56 From FishC Mobile | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-23 14:30:04 | 显示全部楼层
学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-23 14:34:31 From FishC Mobile | 显示全部楼层
学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-23 14:50:07 | 显示全部楼层
为了网址
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-23 14:59:51 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-12-23 16:27:41 | 显示全部楼层
大佬厉害
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-12-23 16:32:41 | 显示全部楼层
学习学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-24 18:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表