我又回来啦，有认识我的朋友吗，就是坚持爬妹子图的那个~终于扒下来了，和渔友分享

Stubborn · 发表于 2019-1-22 21:54:48

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 Stubborn 于 2019-2-12 17:18 编辑

网页跟新，get_page_name函数获取不到最大页数的值，需要跟正，渔友动起手来吧
把py文件放到，需要保存的文件目录就可以开始扒图片了。刚学习爬虫的渔友可以看看，写的备注很详细，仅供学习参考，请不要下载欣赏，有伤身体。

需要用到的库bs4 lxml requests fake_useragent

关于库的安装，首先打开CMD命令，cd+空格+pyrhon的Scripts目录，如下图，然后使用pip install 库名，例如输入pip install lxml就是安装lxml解析库

#_*_coding:utf-8
import requests,os
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
ua = UserAgent()
Hostreferer = {
'User-Agent': ua.random,
'Referer': 'http://www.mzitu.com'
}
Picreferer = {
'User-Agent': ua.random,
'Referer': 'http://i.meizitu.net'
}
def get_page_name(url):
"获取到图集最大页数和图集介绍"
html = get_html(url)
soup = BeautifulSoup(html, 'lxml')
span = soup.findAll('span')
title = soup.find('h2', class_="main-title")
return span[10].text, title.text
def get_html(url):
"请求网页函数，获取页面代码"
page_data = requests.get(url,headers=Hostreferer)
soup_data = page_data.text
return soup_data
def get_img_url(url, name):
"获取到图片下载地址"
html = get_html(url)
soup = BeautifulSoup(html, 'lxml')
img_url = soup.find('img', alt= name)
return img_url['src']
def save_img(img_url, count, name):
"下载"
req = requests.get(img_url, headers=Picreferer)
with open(name+'/'+str(count)+'.jpg', 'wb') as f:
f.write(req.content)
def get_Atlas_dict(img_link):
"获取到页面的图集URL"
soup_data = get_html(img_link)
soup_data = BeautifulSoup(soup_data,'html.parser')
img_link = soup_data.find_all("span")
Atlas_dict = []
try:
for i in img_link:
if i.a == None:
pass
else:
#题取出图集的url,因为第一页有总网址，这个得删下，技术不足
if i.a.text == "妹子图":
pass
else:
Atlas_dict.append(i.a["href"])
except:
pass
return Atlas_dict
if __name__ == "__main__":
i = int(input("输入需要下载的页数,一页24个图集："))
for each in range(1,i+1):
url = "https://www.mzitu.com/page/" + str(each) + "/"
img_url_list = get_Atlas_dict(url)
for atlas_url in img_url_list:
page, name = get_page_name(atlas_url)
print("开始下载：{}图集共计{}张".format(name,page))
os.mkdir(name)
for i in range(1, int(page)+1):
url = atlas_url + "/" + str(i)
img_url = get_img_url(url, name)
save_img(img_url, i, name)
print('保存第' + str(i) + '张图片成功')
if i ==int(page):
print(name+"图集下载完成")

复制代码

Stubborn · 发表于 2019-1-22 22:02:03

@edwinxin 经过我修炼，和百度，终于扒下来了。

yjsx86 · 发表于 2019-1-22 23:02:53

看看是什么东西

Stubborn · 发表于 2019-1-22 23:06:16

yjsx86 发表于 2019-1-22 23:02
看看是什么东西

爬虫，爬的好辛苦

13572044595 · 发表于 2019-1-22 23:09:31

抱着学习的态度！

Stubborn · 发表于 2019-1-22 23:10:19

13572044595 发表于 2019-1-22 23:09
抱着学习的态度！

仅供学习参考，请不要下载欣赏，有伤身体。

拉了盏灯 · 发表于 2019-1-22 23:15:06

看看学习学习

13572044595 · 发表于 2019-1-22 23:19:34

本帖最后由 13572044595 于 2019-1-22 23:20 编辑

为了正常运行代码，我连续安装了 3 个库，终于能运行了，但是。。。。。
报错！
报错！
报错！

QQ截图20190122232038.png

Stubborn · 发表于 2019-1-22 23:29:21

本帖最后由 Stubborn 于 2019-1-22 23:30 编辑

13572044595 发表于 2019-1-22 23:19
为了正常运行代码，我连续安装了 3 个库，终于能运行了，但是。。。。。
报错！
报错！

试过可以正常运行啊，不然不会发帖的，我看看下

13572044595 · 发表于 2019-1-22 23:30:33

Stubborn 发表于 2019-1-22 23:29
试过可以正常运行啊，不然不会发帖的，我看看下

为什么我报错了，还有你下载保存的路径在哪里？

Stubborn · 发表于 2019-1-22 23:32:35

Stubborn 发表于 2019-1-22 23:29
试过可以正常运行啊，不然不会发帖的，我看看下

fake_useragent，bs4，requests 这三个库安装好了？

Stubborn · 发表于 2019-1-22 23:34:24

本帖最后由 Stubborn 于 2019-1-22 23:46 编辑

13572044595 发表于 2019-1-22 23:30
为什么我报错了，还有你下载保存的路径在哪里？

在哪里运行，下载目录就在哪里，会在牡目录下面新建文件夹（图集名称文件夹存放图片），不大清楚哪里出错了

13572044595 · 发表于 2019-1-22 23:48:40

Stubborn 发表于 2019-1-22 23:34
在哪里运行，下载目录就在哪里，会在牡目录下面新建文件夹（图集名称文件夹存放图片），不大清楚哪里出 ...

不知道什么意思，还没学到哪里，算了，我放弃了~

Stubborn · 发表于 2019-1-22 23:56:51

本帖最后由 Stubborn 于 2019-1-22 23:58 编辑

13572044595 发表于 2019-1-22 23:48
不知道什么意思，还没学到哪里，算了，我放弃了~

你安装bs4库直接pip install bs4吗？还是直接pip install BeautifulSoup 再安装下这个 pip install lxml

13572044595 · 发表于 2019-1-23 00:57:43

iwanna 发表于 2019-1-23 00:31
pip install lxml 试试

可以了，谢谢

13572044595 · 发表于 2019-1-23 00:58:15

Stubborn 发表于 2019-1-22 23:56
你安装bs4库直接pip install bs4吗？还是直接pip install BeautifulSoup 再安装下这个 pip install lx ...

可以了，谢谢，代码我留着，以后参考

Stubborn · 发表于 2019-1-23 04:44:59

iwanna 发表于 2019-1-23 00:31
pip install lxml 试试

黄天不负苦心人

wangxinyw · 发表于 2019-1-23 07:47:21

学习学习

heidern0612 · 发表于 2019-1-23 07:55:40

会隐藏了啊

新手·ing · 发表于 2019-1-23 08:03:59

你终于成功了。。

账号		自动登录	找回密码
密码			立即注册

[作品展示] 我又回来啦，有认识我的朋友吗，就是坚持爬妹子图的那个~终于扒下来了，和渔友分享

马上注册，结交更多好友，享用更多功能^_^

评分

本帖被以下淘专辑推荐: