新人求指点,爬取妹子图帮忙优化一下,Python交流,编程语言专区,鱼C论坛

简单滴滴 发表于 2022-9-19 22:14:53

新人求指点,爬取妹子图帮忙优化一下,

##为了自己看的方便,汉字请自动忽略{:5_100:}

import requests
import re
import os
import time

标签 = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Core/1.94.175.400 QQBrowser/11.1.5155.400'
}
页数 = 1
符号 = '?User-Agent=Mozilla%2F5.0+%28Windows+NT+10.0%3B+WOW64%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F94.0.4606.71+Safari%2F537.36+Core%2F1.94.175.400+QQBrowser%2F11.1.5155.400'
while 页数 <= 100:
页数 = str(页数)
下一页 = 'https://www.vmgirls.com/fresh/page/'+ 页数
页数 = int(页数)
页数 = 页数 + 1
print(页数)
一级链接 = requests.get(下一页,标签)
time.sleep(1)
一级链接 = 一级链接.text
二级链接 = re.findall('<a href="(.*?)" title=".*?" class=".*?" >',一级链接)
for 三级链接 in 二级链接:
   time.sleep(2)
   三级链接 = requests.get(三级链接,标签)
   三级链接 = 三级链接.text
   图片链接 = re.findall('<a rel=".*?" href="(.*?)" alt=".*?" title=".*?">',三级链接)
   文件夹名称 = re.findall('<h1 class="post-title mb-3">(.*?)</h1>',三级链接)[-1]
   if not os.path.exists (文件夹名称):
         os.mkdir(文件夹名称)

   for 下载链接 in 图片链接:
         time.sleep(2)
         图片名称 = 下载链接.split('/')[-1]
         下载链接 = requests.get(下载链接,标签)
         with open (文件夹名称 + '/' + 图片名称,'wb') as f :
            f.write(下载链接.content)

print('爬取完成')

页: [1]

鱼C论坛's Archiver

新人求指点,爬取妹子图 帮忙优化一下,

新人求指点,爬取妹子图帮忙优化一下,