鱼C论坛

 找回密码
 立即注册
查看: 1799|回复: 6

[已解决]关于多线程保存图片的半异常

[复制链接]
发表于 2020-7-23 15:50:16 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
上代码
  1. # 导包
  2. import requests
  3. from time import sleep
  4. import os
  5. import threading
  6. import parsel

  7. if not os.path.exists('image'):
  8.     os.mkdir('image')

  9. # base_url = 'https://anime-pictures.net/pictures/view_posts/0?lang=en'

  10. headers = {
  11.     'User-Agent':
  12.         'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'
  13. }


  14. def get(url, headers):
  15.     '''请求数据'''
  16.     response = requests.get(url, headers)
  17.     html_data = response.text
  18.     return html_data


  19. def parsel_data(html_data):
  20.     '''筛选数据'''
  21.     selector = parsel.Selector(html_data)
  22.     result_list = selector.xpath('//span[@class="img_block_big"]')

  23.     for result in result_list:
  24.         image_url = result.xpath('./a/picture/source/img/@src').extract_first()
  25.         image_id = result.xpath('./a/picture/source/img/@id').extract_first()

  26.         img_url = 'https:' + image_url  # 手动拼url

  27.         all_title = img_url
  28.         img_name = image_id + '.' + img_url.split('.')[-1]

  29.         img_data = requests.get(url=all_title, headers=headers).content

  30.         yield all_title, image_id, img_data, img_name


  31. def save(all_title, image_id, img_data,img_name):
  32.     '''保存数据'''
  33.     try:
  34.         with open('image\\' + img_name, mode='wb') as f:
  35.             print('保存成功:', image_id)
  36.             f.write(img_data)

  37.     except:
  38.         pass
  39.         print('保存失败:', image_id, '(|・ω・` ))')


  40. def start_save(base_url):
  41.     html_data = get(url=base_url, headers=headers)
  42.     for image_data in parsel_data(html_data):
  43.         all_title = image_data[0]  # url https://xxxxxxxxxx...
  44.         img_id = image_data[1]  # ID
  45.         img_data = image_data[2]  # 数据
  46.         img_name = image_data[3] #文件名
  47.         save(all_title=all_title, image_id=img_id, img_data=img_data,img_name = img_name)
  48.         sleep(5)

  49. def main(page):
  50.     for page in range(0, page + 1):
  51.         print('###############正在下载第{}页数据###############'.format(page))
  52.         base_url = 'https://anime-pictures.net/pictures/view_posts/0?lang=en'.format(page)
  53.         if page>0:
  54.             print('休息哈|ू・ω・` )')
  55.             sleep(2)
  56.         my_thread = threading.Thread(target=start_save, args=(base_url,)) #启动多线程
  57.         my_thread.setDaemon(True)
  58.         my_thread.start()
  59.        

  60. if __name__ == '__main__':
  61.     lock = threading.RLock()

  62.     main(6300)

复制代码





异常,这个异常很奇怪
他一直显示保存成功 但是 实际的文件夹之保存了几张而已
最佳答案
2020-7-24 10:56:13
问题已解决,三十秒内下载了上千张图片。
请看代码:
  1. # 导包
  2. import requests
  3. from time import sleep
  4. import os
  5. import threading
  6. import parsel
  7. import random

  8. if not os.path.exists('image'):
  9.     os.mkdir('image')

  10. # base_url = 'https://anime-pictures.net/pictures/view_posts/0?lang=en'

  11. headers = {
  12.     'User-Agent':
  13.         'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'
  14. }


  15. def get(url, headers):
  16.     '''请求数据'''
  17.     response = requests.get(url, headers)
  18.     html_data = response.text
  19.     return html_data


  20. def parsel_data(html_data):
  21.     '''筛选数据'''
  22.     selector = parsel.Selector(html_data)
  23.     result_list = selector.xpath('//span[@class="img_block_big"]')

  24.     for result in result_list:
  25.         image_url = result.xpath('./a/picture/source/img/@src').extract_first()
  26.         image_id = result.xpath('./a/picture/source/img/@id').extract_first()

  27.         img_url = 'https:' + image_url  # 手动拼url

  28.         all_title = img_url
  29.         img_name = image_id + '.' + img_url.split('.')[-1]

  30.         img_data = requests.get(url=all_title, headers=headers).content

  31.         yield all_title, image_id, img_data, img_name


  32. def save(all_title, image_id, img_data,img_name):
  33.     '''保存数据'''
  34.     try:
  35.         with open('image\\' + str(random.randint(0,1000000)) + os.path.splitext(img_name)[1], mode='wb') as f:
  36.             print('保存成功:', image_id)
  37.             f.write(img_data)
  38.     except:
  39.         print('保存失败:', image_id, '(|・ω・` ))')


  40. def start_save(base_url):
  41.     html_data = get(url=base_url, headers=headers)
  42.     for image_data in parsel_data(html_data):
  43.         all_title = image_data[0]  # url https://xxxxxxxxxx...
  44.         img_id = image_data[1]  # ID
  45.         img_data = image_data[2]  # 数据
  46.         img_name = image_data[3] #文件名
  47.         save(all_title=all_title, image_id=img_id, img_data=img_data,img_name = img_name)            

  48. def main(page):
  49.     for page in range(0, page + 1):
  50.         print('###############正在下载第{}页数据###############'.format(page))
  51.         base_url = 'https://anime-pictures.net/pictures/view_posts/0?lang=en'.format(page)
  52.         if page>0:
  53.             print('休息哈|ू・ω・` )')
  54.             sleep(2)

  55.         my_thread = threading.Thread(target=start_save, args=(base_url,)) #启动多线程
  56.         my_thread.setDaemon(True)
  57.         my_thread.start()

  58.         

  59. if __name__ == '__main__':
  60.     lock = threading.RLock()
  61.     main(6300)

复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-7-23 23:00:22 | 显示全部楼层
可以用主线程专门负责下载数据并用一个全局变量列表保存,创建一个子线程专门用来保存文件。
这样就不会影响下载速度而且因为只用一个线程在保存文件所以不会出现 IO 丢失的现象。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-7-24 06:24:36 | 显示全部楼层
nahongyan1997 发表于 2020-7-23 23:00
可以用主线程专门负责下载数据并用一个全局变量列表保存,创建一个子线程专门用来保存文件。
这样就不会影 ...

我把每一个函数都上过一次锁 结果都没用 说白点就是我不知道他的资源竞争哪里
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-7-24 07:33:38 | 显示全部楼层
除了子线程函数其他函数上锁没有任何用处,推荐按我的方法修改一下程序,不影响下载速度只影响保存速度,也不会慢多少。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-7-24 07:52:06 | 显示全部楼层
nahongyan1997 发表于 2020-7-24 07:33
除了子线程函数其他函数上锁没有任何用处,推荐按我的方法修改一下程序,不影响下载速度只影响保存速度,也 ...

我造诣浅薄 只会使用线程最表层的 还请大佬举个例子(听不懂大佬讲的子线程和IO
)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-7-24 08:56:17 | 显示全部楼层
本帖最后由 nahongyan1997 于 2020-7-24 09:03 编辑

主线程里用 threading 开的线程就是子线程,IO 就是 input,output。

写文件就是 文件 Input,也就是 I 。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-7-24 10:56:13 | 显示全部楼层    本楼为最佳答案   
问题已解决,三十秒内下载了上千张图片。
请看代码:
  1. # 导包
  2. import requests
  3. from time import sleep
  4. import os
  5. import threading
  6. import parsel
  7. import random

  8. if not os.path.exists('image'):
  9.     os.mkdir('image')

  10. # base_url = 'https://anime-pictures.net/pictures/view_posts/0?lang=en'

  11. headers = {
  12.     'User-Agent':
  13.         'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'
  14. }


  15. def get(url, headers):
  16.     '''请求数据'''
  17.     response = requests.get(url, headers)
  18.     html_data = response.text
  19.     return html_data


  20. def parsel_data(html_data):
  21.     '''筛选数据'''
  22.     selector = parsel.Selector(html_data)
  23.     result_list = selector.xpath('//span[@class="img_block_big"]')

  24.     for result in result_list:
  25.         image_url = result.xpath('./a/picture/source/img/@src').extract_first()
  26.         image_id = result.xpath('./a/picture/source/img/@id').extract_first()

  27.         img_url = 'https:' + image_url  # 手动拼url

  28.         all_title = img_url
  29.         img_name = image_id + '.' + img_url.split('.')[-1]

  30.         img_data = requests.get(url=all_title, headers=headers).content

  31.         yield all_title, image_id, img_data, img_name


  32. def save(all_title, image_id, img_data,img_name):
  33.     '''保存数据'''
  34.     try:
  35.         with open('image\\' + str(random.randint(0,1000000)) + os.path.splitext(img_name)[1], mode='wb') as f:
  36.             print('保存成功:', image_id)
  37.             f.write(img_data)
  38.     except:
  39.         print('保存失败:', image_id, '(|・ω・` ))')


  40. def start_save(base_url):
  41.     html_data = get(url=base_url, headers=headers)
  42.     for image_data in parsel_data(html_data):
  43.         all_title = image_data[0]  # url https://xxxxxxxxxx...
  44.         img_id = image_data[1]  # ID
  45.         img_data = image_data[2]  # 数据
  46.         img_name = image_data[3] #文件名
  47.         save(all_title=all_title, image_id=img_id, img_data=img_data,img_name = img_name)            

  48. def main(page):
  49.     for page in range(0, page + 1):
  50.         print('###############正在下载第{}页数据###############'.format(page))
  51.         base_url = 'https://anime-pictures.net/pictures/view_posts/0?lang=en'.format(page)
  52.         if page>0:
  53.             print('休息哈|ू・ω・` )')
  54.             sleep(2)

  55.         my_thread = threading.Thread(target=start_save, args=(base_url,)) #启动多线程
  56.         my_thread.setDaemon(True)
  57.         my_thread.start()

  58.         

  59. if __name__ == '__main__':
  60.     lock = threading.RLock()
  61.     main(6300)

复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-24 05:07

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表