复习一下妹子图（啊不对）爬虫

七夜长川 · 发表于 2019-6-16 23:39:16

哈哈，赚大了，改进了下，不报错，然后到现在都下载了几百个的美女了
不解释，直接说步骤：
1.先在CMD里面安装：
pip install requests
pip3 install Beautifulsoup4
pip3 install lxml
2：贴代码（改进方法）：
a、运行了很多次报错，后面进行了一个非空判断
b.楼主说只有24个，我就找了个能遍历的路径，然后就可以一直遍历，路径可以修改哈，例如 https://www.mzitu.com/xinggan/page/2

from bs4 import BeautifulSoup
import requests
import os
# 使用说明将py文件放在要保存图包的目录下运行
# number别太贪心目前主页24个我也就设置最大24
# 源url number确认要整几个图包
for aa in range(2,100):
pageCount = aa
url0 = 'https://www.mzitu.com/xinggan/page/' + str(aa)
headers={
'referer': 'https://www.mzitu.com/188045',
'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Mobile Safari/537.36'
}
# number = int(input('how many:(max=24)'))
# while number > 24:
# number = int(input('how many:(max=24)'))
number = 24
# 打开主页
res0 = requests.get(url0,headers=headers)
soup0 = BeautifulSoup(res0.text,'lxml')
# 正式开整
for h in range(number):
url = soup0.find('div', class_='main').find('div', class_='postlist')\
.find_all('li')[h].a['href']
res = requests.get(url,headers=headers)
soup = BeautifulSoup(res.text,'lxml')
target_url = soup.find('div',class_='main-image').img['src']
# filename = target_url.split(r'.net/')[-1]
# 懒得处理filename里的/了直接1 2 3 4命名图片完事
pages = soup.find('div',class_='pagenavi').find_all('a')[-2].span.text
title = soup.find('div',class_='content').find('h2',class_='main-title').text
print('正在搞第{}个'.format(h+1))
if title not in os.listdir():
os.mkdir(title)
os.chdir(title)
for i in range(int(pages)):
url1 = url + r'/' + str(i+1)
res1 = requests.get(url1,headers=headers)
soup = BeautifulSoup(res1.text,'lxml')
target_url = soup.find('div',class_='main-image').img['src']
if target_url is None:
break
res1 = requests.get(target_url,headers=headers)
with open(str(i+1)+r'.jpg', 'wb') as f:
f.write(res1.content)
os.chdir('..')
# 我完事了你们呢
#感谢楼主，修改代码by 七夜长川（也是新手）

复制代码

老羊 · 发表于 2019-6-16 23:50:38

学习

七夜长川 · 发表于 2019-6-17 00:03:50

from bs4 import BeautifulSoup
import requests
import os
# 使用说明将py文件放在要保存图包的目录下运行
# number别太贪心目前主页24个我也就设置最大24
# 源url number确认要整几个图包
for aa in range(2,100):
pageCount = aa
url0 = 'https://www.mzitu.com/xinggan/page/' + str(aa)
headers={
'referer': 'https://www.mzitu.com/188045',
'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Mobile Safari/537.36'
}
# number = int(input('how many:(max=24)'))
# while number > 24:
# number = int(input('how many:(max=24)'))
number = 24
# 打开主页
res0 = requests.get(url0,headers=headers)
soup0 = BeautifulSoup(res0.text,'lxml')
# 正式开整
for h in range(number):
url = soup0.find('div', class_='main').find('div', class_='postlist')\
.find_all('li')[h].a['href']
res = requests.get(url,headers=headers)
soup = BeautifulSoup(res.text,'lxml')
target_url = soup.find('div',class_='main-image').img['src']
# filename = target_url.split(r'.net/')[-1]
# 懒得处理filename里的/了直接1 2 3 4命名图片完事
pages = soup.find('div',class_='pagenavi').find_all('a')[-2].span.text
title = soup.find('div',class_='content').find('h2',class_='main-title').text
print('正在搞第{}个'.format(h+1))
if title not in os.listdir():
os.mkdir(title)
os.chdir(title)
for i in range(int(pages)):
url1 = url + r'/' + str(i+1)
res1 = requests.get(url1,headers=headers)
soup = BeautifulSoup(res1.text,'lxml')
target_url = soup.find('div',class_='main-image').img['src']
if target_url is None:
break
res1 = requests.get(target_url,headers=headers)
with open(str(i+1)+r'.jpg', 'wb') as f:
f.write(res1.content)
os.chdir('..')
# 我完事了你们呢
#感谢楼主，修改代码by 七夜长川（也是新手）

复制代码

ietar · 发表于 2019-6-17 09:00:23

MC摸鱼发表于 2019-6-16 11:09
若是服务器在你beautifulsoup后更新了数据怎么办呢？

完全不影响吧这个爬虫的功能是不管内容如何只管爬几个
要获取最新的（1个）就再运行1次 how many填(1)就好了

ietar · 发表于 2019-6-17 09:00:58

七夜长川发表于 2019-6-16 19:20
pip install requests
pip3 install Beautifulsoup4
pip3 install lxml

你就是课代表咯

qqw110233 · 发表于 2019-6-19 09:29:28

ietar 发表于 2019-6-16 09:47
爬虫一般是只针对一个任务的把首页换成台湾首页还能正常工作只是凑巧两个页面结构一样而已..

哦哦，这样啊。谢谢你！

wscgm · 发表于 2019-6-19 10:25:44

呀呀呀我天 · 发表于 2019-6-20 23:31:26

强无敌

ashou · 发表于 2019-6-23 23:34:11

学习了

小甲鱼007 · 发表于 2019-6-24 00:17:41

eric91 发表于 2019-6-9 21:58
好东西

这。。。

ylixiang · 发表于 2019-6-25 12:45:41

haha

cangmao · 发表于 2019-6-26 19:26:23

Traceback (most recent call last):
File "D:/Pictures/第一个爬虫.py", line 1, in <module>
from bs4 import BeautifulSoup
ModuleNotFoundError: No module named 'bs4'

这是啥意思

hutaojiazi · 发表于 2019-6-26 23:36:07

黃阿福 · 发表于 2019-6-28 07:19:34

這個能不推一下嗎？！

blankmiss · 发表于 2019-6-28 08:32:22

我还得努力学啊

xixiang · 发表于 2019-6-28 09:56:53

请问怎么操作怎么用阿

七夜长川 · 发表于 2019-6-29 16:49:05

cangmao 发表于 2019-6-26 19:26
Traceback (most recent call last):
File "D:/Pictures/第一个爬虫.py", line 1, in
from bs4 im ...

导入三个包，这个包需要额外安装，我写了pip的，你找找看看，pip install BeautifulSoup

GK_ · 发表于 2019-6-29 19:15:39

支持一下

橘猫侠 · 发表于 2019-7-2 20:48:14

大神好厉害。

alwayshappy · 发表于 2019-7-2 23:34:18

不错不错

账号		自动登录	找回密码
密码			立即注册

[作品展示] 复习一下妹子图（啊不对）爬虫

浏览过的版块