鱼C论坛

 找回密码
 立即注册
楼主: 拉了盏灯

[作品展示] [更新2020.2.17]爬虫:一只爬取yande.re的妹子图爬虫(15禁)

  [复制链接]
发表于 2018-9-7 12:04:31 | 显示全部楼层
有节制的爬才能可持续发展
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-7 12:08:53 | 显示全部楼层
有节制的爬才能可持续发展
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-7 12:59:05 | 显示全部楼层
可以哦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-8 09:51:24 | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-9-8 09:59:06 | 显示全部楼层
shualiuliang
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-8 10:05:17 | 显示全部楼层

学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-8 13:57:00 | 显示全部楼层
666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-9-8 15:45:01 | 显示全部楼层
import requests
import re
import os
import time

dir_path = r'd://nhentai'  # 文件保存目录,需要自己创建
ua = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
headers = {
    'User-Agent': ua
}


def urlretrieve(url, path, proxies=True):  # 自定义下载图片函数
    if proxies:
        proxies = {
            'http': '127.0.0.1:1080',
            'https': '127.0.0.1:1080'
        }
        web = requests.get(url, headers=headers, proxies=proxies)
        with open(path, 'wb') as fp:
            fp.write(web.content)
            return True
    else:
        web = requests.get(url, headers=headers)
        with open(path, 'wb') as fp:
            fp.write(web.content)
            return True


def download_img(imgs, page_id):
    for img in imgs:
        # 缩略图 'https://t.nhentai.net/galleries/1257176/22t.png'
        # 大图 'https://i.nhentai.net/galleries/1257176/22.png'
        img_re = re.match(r'.+?/(\d+)/(\d+)t(.+)', img)
        # page_id = img_re.group(1)  # 这个不是作品ID
        link_id = img_re.group(1)
        img_id = img_re.group(2)  # 图片ID
        img_suffix = img_re.group(3)  # 图片后缀
        url = 'https://i.nhentai.net/galleries/%s/%s%s' % (link_id, img_id, img_suffix)  # 图片URL
        page_id_path = os.path.join(dir_path, page_id)  # 作品ID目录
        if not os.path.exists(page_id_path):  # 一个作品一个目录
            os.mkdir(page_id_path)
        img_path = os.path.join(page_id_path, img_id + img_suffix)  # 图片保存位置
        success = urlretrieve(url, img_path, proxies=False)  # 调用自定义下载函数
        if success:
            print('下载%s到%s成功' % (url, img_path))


def parse_search_page(url):
    web = requests.get(url, headers=headers)
    if web.status_code == 200:
        text = web.text
        links = re.findall(r'<a href="(.*?)/" class="cover"', text)
        return links


def parse_id_page(links):
    for link in links:
        # link 是'/g/2444092'
        url = 'https://nhentai.net' + link
        page_id = link.split('/')[-1]
        web = requests.get(url)
        if web.status_code == 200:
            text = web.text
            imgs = re.findall(r'<div class="thumb-container">.+?data-src="(.+?)"', text, re.S)
            download_img(imgs, page_id)  # 缩略图解析完成,调用下载函数
        time.sleep(5)  # 每下载完一个作品睡5秒


def main():
    try:
        search = input('请输入你要搜索的关键字,如fate:')
        page = int(input('请输入你要下载的分页数,如2:'))
    except Exception as e:
        print(e)
        return False

    for i in range(1, page + 1):
        url = 'https://nhentai.net/search/?q=%s&page=%d' % (search, i)
        links = parse_search_page(url)  # 得到作品ID,数组
        parse_id_page(links)  # 进入作品ID页面解析缩略图


if __name__ == '__main__':
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-8 16:03:37 | 显示全部楼层
RE: 爬虫:一只爬取yande.re的妹子图爬虫(15禁) [修改]
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-8 16:40:05 | 显示全部楼层
试试
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-9-8 16:58:37 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-9-8 17:16:03 | 显示全部楼层
学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-8 17:44:30 | 显示全部楼层
好好学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-8 17:59:41 | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-9-8 18:11:18 | 显示全部楼层
源码源码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-9 11:11:27 | 显示全部楼层
可以的,我就喜欢这种hentai绅士
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-9 12:06:23 | 显示全部楼层
程序还是不会写,但是会用,谢谢楼主。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-9-9 13:59:05 From FishC Mobile | 显示全部楼层
TEEMORUMBLE 发表于 2018-9-8 15:45
import requests
import re
import os

666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-9-9 13:59:40 From FishC Mobile | 显示全部楼层
布洛妮娅的CC 发表于 2018-9-9 11:11
可以的,我就喜欢这种hentai绅士

嘿嘿嘿,
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-9 16:48:26 | 显示全部楼层
来看看啦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-28 08:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表