鱼C论坛

 找回密码
 立即注册
查看: 1654|回复: 7

[已解决]python 爬虫问题

[复制链接]
发表于 2020-9-28 17:33:55 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
在爬取美桌壁纸图片,运行到一半时候报错:
1dcc501ccf15855833fb394990215f5.png

这个路劲错误很奇怪,我的e盘下明明创建了这个文件夹....求大佬指点一二
这个是 url: http://www.win4000.com/wallpaper_0_0_10_1.html
下面是我的代码
  1. import requests
  2. from bs4 import BeautifulSoup
  3. import os

  4. url = 'http://www.win4000.com/wallpaper_0_0_10_1.html'
  5. headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
  6. j = 0
  7. # 获取网页源代码
  8. html = requests.get(url=url,headers=headers).text
  9. soup = BeautifulSoup(html, 'html.parser')
  10. # 查找缩略图对应的网址
  11. new_soup = soup.find('div',class_="tab_box")
  12. # print(type(new_soup)) <class 'bs4.element.Tag'>
  13. for link in new_soup.find_all('a'):
  14.    
  15.     # print(link.get("href"))
  16.     #
  17.     new_link = link.get("href")
  18.     new_html = requests.get(url=new_link,headers=headers).text
  19.     img_page = BeautifulSoup(new_html, 'html.parser').find('div',class_="ptitle")
  20.     first_page = int(img_page.find('span').text) #图片的起始页数
  21.     last_page = int(img_page.find('em').text)    #图片的末尾页数
  22.     folder_name = img_page.find('h1').text
  23.     # 创建分类文件夹
  24.     os.mkdir('e:/meizitu/'+folder_name)
  25.     #print(first_page,last_page)
  26.     for i in range(first_page,last_page+1):
  27.         page_html = requests.get(url=new_link,headers=headers).text
  28.         soup_1 = BeautifulSoup(page_html, 'html.parser').find('img',class_="pic-large")
  29.         # 查找下一张大图的URL
  30.         next_page_html = BeautifulSoup(page_html, 'html.parser').find('div',class_="pic-meinv")
  31.         new_link = next_page_html.find('a').get("href")
  32.         #提取图片的链接和标题
  33.         img_url = soup_1.get('src')
  34.         img_title = soup_1.get('alt')

  35.         img_data =  requests.get(url=img_url,headers=headers).content
  36.         print("正在保存...",img_title)
  37.         with open('E:\\meizitu\\'+ folder_name + '\\' + str(j) +'.jpg','wb') as f:
  38.             f.write(img_data)
  39.         j = j+1
复制代码
最佳答案
2020-9-28 17:50:15
文件名可能会有空格,加个去除空格试试
  1. folder_name = img_page.find('h1').text.strip()
复制代码


其他代码除了路径改了下,都没动,运行正常
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-9-28 17:50:15 | 显示全部楼层    本楼为最佳答案   

回帖奖励 +10 鱼币

文件名可能会有空格,加个去除空格试试
  1. folder_name = img_page.find('h1').text.strip()
复制代码


其他代码除了路径改了下,都没动,运行正常
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-28 18:15:22 | 显示全部楼层
你可以加一个容错机制
  1. try:
  2.     with open('E:\\meizitu\\'+ folder_name + '\\' + str(j) +'.jpg','wb') as f:
  3.             f.write(img_data)
  4.         j = j+1
  5. except:
  6.     j +=1
  7.     continue
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-28 19:03:05 | 显示全部楼层
本帖最后由 Stubborn 于 2020-9-28 19:12 编辑

使用标准的os模块去合成路径,使程序更标准。
path = os.path.join(os.getcwd(), file)

最多就用字符加一下文件后缀,fiile_name +'.jpg' 。 其他的都用os.path.join去合成
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-9-29 09:39:02 | 显示全部楼层
疾风怪盗 发表于 2020-9-28 17:50
文件名可能会有空格,加个去除空格试试

非常感谢您的回答,修改后确实没错误了,话说windows文件命名是可以有空格的吧
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-9-29 09:40:14 | 显示全部楼层
Stubborn 发表于 2020-9-28 19:03
使用标准的os模块去合成路径,使程序更标准。
path = os.path.join(os.getcwd(), file)

非常感谢谢,这点非常好
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-9-29 09:42:15 | 显示全部楼层
bonst 发表于 2020-9-28 18:15
你可以加一个容错机制

谢谢您的建议
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-29 10:17:06 | 显示全部楼层
51Arduino32 发表于 2020-9-29 09:39
非常感谢您的回答,修改后确实没错误了,话说windows文件命名是可以有空格的吧

创建文件时好像有点限制的,我之前爬一个一个网站时,也是这样,而且文件名中还有斜杠之类的字符,都要去除的,反正报啥错,就去除啥呗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-27 20:11

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表