[已解决]python 爬虫问题

51Arduino32 · 发表于 2020-9-28 17:33:55

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

在爬取美桌壁纸图片，运行到一半时候报错:

这个路劲错误很奇怪，我的e盘下明明创建了这个文件夹....求大佬指点一二
这个是 url: http://www.win4000.com/wallpaper_0_0_10_1.html
下面是我的代码

import requests
from bs4 import BeautifulSoup
import os
url = 'http://www.win4000.com/wallpaper_0_0_10_1.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
j = 0
# 获取网页源代码
html = requests.get(url=url,headers=headers).text
soup = BeautifulSoup(html, 'html.parser')
# 查找缩略图对应的网址
new_soup = soup.find('div',class_="tab_box")
# print(type(new_soup)) <class 'bs4.element.Tag'>
for link in new_soup.find_all('a'):
# print(link.get("href"))
#
new_link = link.get("href")
new_html = requests.get(url=new_link,headers=headers).text
img_page = BeautifulSoup(new_html, 'html.parser').find('div',class_="ptitle")
first_page = int(img_page.find('span').text) #图片的起始页数
last_page = int(img_page.find('em').text) #图片的末尾页数
folder_name = img_page.find('h1').text
# 创建分类文件夹
os.mkdir('e:/meizitu/'+folder_name)
#print(first_page,last_page)
for i in range(first_page,last_page+1):
page_html = requests.get(url=new_link,headers=headers).text
soup_1 = BeautifulSoup(page_html, 'html.parser').find('img',class_="pic-large")
# 查找下一张大图的URL
next_page_html = BeautifulSoup(page_html, 'html.parser').find('div',class_="pic-meinv")
new_link = next_page_html.find('a').get("href")
#提取图片的链接和标题
img_url = soup_1.get('src')
img_title = soup_1.get('alt')
img_data = requests.get(url=img_url,headers=headers).content
print("正在保存...",img_title)
with open('E:\\meizitu\\'+ folder_name + '\\' + str(j) +'.jpg','wb') as f:
f.write(img_data)
j = j+1

复制代码

最佳答案

月排行榜 / 总排行榜

疾风怪盗

2020-9-28 17:50:15

文件名可能会有空格，加个去除空格试试

folder_name = img_page.find('h1').text.strip()

复制代码

其他代码除了路径改了下，都没动，运行正常

跳转到最佳答案楼层

疾风怪盗 · 发表于 2020-9-28 17:50:15

文件名可能会有空格，加个去除空格试试

folder_name = img_page.find('h1').text.strip()

复制代码

其他代码除了路径改了下，都没动，运行正常

bonst · 发表于 2020-9-28 18:15:22

你可以加一个容错机制

try:
with open('E:\\meizitu\\'+ folder_name + '\\' + str(j) +'.jpg','wb') as f:
f.write(img_data)
j = j+1
except:
j +=1
continue

复制代码

Stubborn · 发表于 2020-9-28 19:03:05

本帖最后由 Stubborn 于 2020-9-28 19:12 编辑

使用标准的os模块去合成路径，使程序更标准。
path = os.path.join(os.getcwd(), file)

最多就用字符加一下文件后缀，fiile_name +'.jpg' 。其他的都用os.path.join去合成

51Arduino32 · 发表于 2020-9-29 09:39:02

疾风怪盗发表于 2020-9-28 17:50
文件名可能会有空格，加个去除空格试试

非常感谢您的回答，修改后确实没错误了，话说windows文件命名是可以有空格的吧

51Arduino32 · 发表于 2020-9-29 09:40:14

Stubborn 发表于 2020-9-28 19:03
使用标准的os模块去合成路径，使程序更标准。
path = os.path.join(os.getcwd(), file)

非常感谢谢，这点非常好

51Arduino32 · 发表于 2020-9-29 09:42:15

bonst 发表于 2020-9-28 18:15
你可以加一个容错机制

谢谢您的建议

疾风怪盗 · 发表于 2020-9-29 10:17:06

51Arduino32 发表于 2020-9-29 09:39
非常感谢您的回答，修改后确实没错误了，话说windows文件命名是可以有空格的吧

创建文件时好像有点限制的，我之前爬一个一个网站时，也是这样，而且文件名中还有斜杠之类的字符，都要去除的，反正报啥错，就去除啥呗

账号		自动登录	找回密码
密码			立即注册

[已解决]python 爬虫问题

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +10 鱼币