鱼C论坛

 找回密码
 立即注册
查看: 2237|回复: 13

[技术交流] 多线程,多进程爬取妹子图片800+张,新年快乐。

[复制链接]
发表于 2022-1-28 11:19:02 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 eeffve 于 2022-1-29 14:28 编辑

"""
Author:某
Time:2022/1/29 11:09
"""
# 线程池
from concurrent.futures import ThreadPoolExecutor
# 进程和进程队列
from multiprocessing import Queue, Process
from lxml import etree
import requests
import os


def all_p(num):
    """
    解析htlm网页,并添加到进程队列中。
    :param num: 页数
    :return: 无
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
    }

    http = requests.get(f'https://mmzztt.com/photo/page/{num}/', headers=headers)
    http.encoding = http.apparent_encoding
    # xpath解析
    html = etree.HTML(http.text)
    # 找到每个标签
    all_li = html.xpath('//main/ul/li')
    b2s = []
    for li in all_li:
        # 图片
        tu = li.xpath('./div[@class="uk-card"]/div[@class="uk-card-media-top"]/a/img/@data-srcset')[0]
        # 名字
        name = li.xpath('./div[@class="uk-card"]/div[@class="uk-card-media-top"]/a/img/@alt')[0]
        b2s.append([name, (requests.get(tu, headers=headers).content)])
    # 添加到进程队列
    q.put(b2s)


def writes(q):
    """
    写入本地图片
    :param q: 进程队列
    :return: 无
    """
    # 创建文件夹
    if not os.path.exists('美女'):
        os.mkdir('美女')
    # 写入文件
    while True:
        img = q.get()
        # 判断结束
        if img == 'end':
            break
        for i in img:
            if len(i) == 2:
                # 写入图片到本地
                try:
                    open(f'美女/{i[0]}.jpg', 'wb').write(i[1])
                except FileNotFoundError:
                    s = i[0].replace('/', ',')
                    open(f'美女/{s}.jpg', 'wb').write(i[1])


# 进程队列
q = Queue()
if __name__ == '__main__':
    # 创建20个线程池
    pool = ThreadPoolExecutor(20)
    pool.map(all_p, range(1, 38))

    # 创建一个进程专门写入文件
    p = Process(target=writes, args=(q,))
    # 开始执行
    p.start()

    # 结束添加‘end’,用于判断
    pool.shutdown()
    q.put('end')


微信图片_20220128111832.png

改成标题

改成标题

评分

参与人数 1荣誉 +3 鱼币 +3 收起 理由
小伤口 + 3 + 3 感谢楼主无私奉献!

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-28 12:11:19 | 显示全部楼层
这,这,这,这伤风败俗啊这,
不敢看啊不敢看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2022-1-28 12:58:07 | 显示全部楼层

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-28 13:05:35 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-28 13:49:38 | 显示全部楼层
封见主义算是玩明白了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-28 17:28:41 From FishC Mobile | 显示全部楼层
88

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-28 17:43:00 From FishC Mobile | 显示全部楼层
楼主发源码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-28 19:05:33 | 显示全部楼层
不错哦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-28 20:17:56 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-1-29 14:18:11 | 显示全部楼层

发了

改了一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-29 20:30:01 | 显示全部楼层
江山代有人才出
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-29 22:43:13 From FishC Mobile | 显示全部楼层
eeffve 发表于 2022-1-29 14:18
发了

改了一下

感觉需要魔法上网,我这边用那个网址打开之后显示被封
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-1-31 19:27:59 | 显示全部楼层
shiyouroc 发表于 2022-1-29 22:43
感觉需要魔法上网,我这边用那个网址打开之后显示被封

正常的隔天又可以搞他一波了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-2-17 01:31:10 From FishC Mobile | 显示全部楼层
感谢大佬赐站
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-12 06:13

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表