32行代码爬取妹子图全系图片

admintest166 · 发表于 2020-9-8 17:47:20

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 admintest166 于 2020-9-8 17:52 编辑

32行代码主要是妹子图这个网站的翻页机制给了很大的便利细致化的内容可以自行观察一下代码和网站的结构就可以看出来

之前发过pyspider框架的爬取妹子图但如果不去阅读源代码很难知道其原理

因为最近在写php的代码对python有些生疏了感谢“疾风怪盗” 给予的技术上的帮助

没有对图片进行文件夹分类运行速度上也比较慢

import requests
from pyquery import PyQuery as pq
headers={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36',
}
#存储翻页的列表
lis = []
#解析具体地址中的图片URL抓取
def picture(url):
while True:
lis.append(url)
request_two = requests.get(lis[0], headers=headers).text
# 图片下载
doc = pq(request_two)
image = doc('.main-image').find('img').attr('src')
img_file = image[32:]
headerse = {
'Host': 'hm.baidu.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}
request_dowm = requests.get(url=image, headers=headerse).content
with open(img_file, 'wb')as file:
file.write(request_dowm)
print('保存完毕')
lis.clear()
# 翻页
doc = pq(request_two)
page = doc('.pagenavi').find('a').eq(-1).attr.href
lis.append(page)
print(lis)
picture('https://www.mzitu.com/247153')

复制代码

账号		自动登录	找回密码
密码			立即注册

[技术交流] 32行代码爬取妹子图全系图片

马上注册，结交更多好友，享用更多功能^_^