多线程，多进程爬取妹子图片800+张，新年快乐。

eeffve · 发表于 2022-1-28 11:19:02

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 eeffve 于 2022-1-29 14:28 编辑

"""
Author:某
Time:2022/1/29 11:09
"""
# 线程池
from concurrent.futures import ThreadPoolExecutor
# 进程和进程队列
from multiprocessing import Queue, Process
from lxml import etree
import requests
import os

def all_p(num):
"""
解析htlm网页，并添加到进程队列中。
:param num: 页数
:return: 无
"""
headers = {
      'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}

http = requests.get(f'https://mmzztt.com/photo/page/{num}/', headers=headers)
http.encoding = http.apparent_encoding
# xpath解析
html = etree.HTML(http.text)
# 找到每个标签
all_li = html.xpath('//main/ul/li')
b2s = []
for li in all_li:
      # 图片
      tu = li.xpath('./div[@class="uk-card"]/div[@class="uk-card-media-top"]/a/img/@data-srcset')[0]
      # 名字
      name = li.xpath('./div[@class="uk-card"]/div[@class="uk-card-media-top"]/a/img/@alt')[0]
      b2s.append([name, (requests.get(tu, headers=headers).content)])
# 添加到进程队列
q.put(b2s)

def writes(q):
"""
写入本地图片
:param q: 进程队列
:return: 无
"""
# 创建文件夹
if not os.path.exists('美女'):
      os.mkdir('美女')
# 写入文件
while True:
      img = q.get()
      # 判断结束
      if img == 'end':
         break
      for i in img:
         if len(i) == 2:
            # 写入图片到本地
            try:
                  open(f'美女/{i[0]}.jpg', 'wb').write(i[1])
            except FileNotFoundError:
                  s = i[0].replace('/', ',')
                  open(f'美女/{s}.jpg', 'wb').write(i[1])

# 进程队列
q = Queue()
if __name__ == '__main__':
# 创建20个线程池
pool = ThreadPoolExecutor(20)
pool.map(all_p, range(1, 38))

# 创建一个进程专门写入文件
p = Process(target=writes, args=(q,))
# 开始执行
p.start()

# 结束添加‘end’,用于判断
pool.shutdown()
q.put('end')

小伤口 · 发表于 2022-1-28 12:11:19

这，这，这，这伤风败俗啊这，

不敢看啊不敢看

woshijunjun · 发表于 2022-1-28 12:58:07

hornwong · 发表于 2022-1-28 13:05:35

起风了番茄 · 发表于 2022-1-28 13:49:38

封见主义算是玩明白了

shiyouroc · 发表于 2022-1-28 17:28:41

88

shiyouroc · 发表于 2022-1-28 17:43:00

楼主发源码

小丑9 · 发表于 2022-1-28 19:05:33

不错哦

tomok · 发表于 2022-1-28 20:17:56

eeffve · 发表于 2022-1-29 14:18:11

shiyouroc 发表于 2022-1-28 17:43
楼主发源码

发了

改了一下

昨非 · 发表于 2022-1-29 20:30:01

江山代有人才出

shiyouroc · 发表于 2022-1-29 22:43:13

eeffve 发表于 2022-1-29 14:18
发了

改了一下

感觉需要魔法上网，我这边用那个网址打开之后显示被封

eeffve · 发表于 2022-1-31 19:27:59

shiyouroc 发表于 2022-1-29 22:43
感觉需要魔法上网，我这边用那个网址打开之后显示被封

正常的隔天又可以搞他一波了

All_of_Mortal · 发表于 2022-2-17 01:31:10

感谢大佬赐站

账号		自动登录	找回密码
密码			立即注册

[技术交流] 多线程，多进程爬取妹子图片800+张，新年快乐。

马上注册，结交更多好友，享用更多功能^_^

评分

浏览过的版块