鱼C论坛

 找回密码
 立即注册
查看: 1241|回复: 5

[已解决]re爬取jpg和png格式有个疑问

[复制链接]
发表于 2021-7-28 19:13:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import requests,bs4
  2. import re

  3. pzn=input('请输入网址')

  4. headers = {
  5.     'authority': 'cn.apo.com',
  6.     'cache-control': 'max-age=0',
  7.     'upgrade-insecure-requests': '1',
  8.     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
  9.     'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
  10.     'sec-fetch-site': 'same-origin',
  11.     'sec-fetch-mode': 'navigate',
  12.     'sec-fetch-user': '?1',
  13.     'sec-fetch-dest': 'document',
  14.     'accept-language': 'zh-CN,zh;q=0.9',
  15.     'cookie': '__guid=5722465.4514138450663120400.1622527541951.2417; _ga=GA1.2.2073280731.1622543356; _gid=GA1.2.939110097.1626079866; SESSION=d12919a9-f80b-42df-8503-ee05e35e9fe7; csrfToken=a98f0a8c41e3e93909c7317868223b59; Hm_lvt_af0f4729a756b47aeb8f98097a94a1e1=1625815401,1626079865,1626142090,1626166025; monitor_count=484; Hm_lpvt_af0f4729a756b47aeb8f98097a94a1e1=1626167242',
  16.     'if-none-match': '^\\^02c3749931be82f7276467b122f391d4c^\\^',
  17. }

  18. response = requests.get(pzn, headers=headers)
  19. xqq=1

  20. bsp=bs4.BeautifulSoup(response.text,'html.parser')
  21. bsp=str(bsp.find_all('div',class_="introduction-body"))
  22. b=re.findall(r'https:.*?.jpg',bsp)


  23. for url in b:
  24.     r = requests.get(url, stream=True)
  25.     b='xq'+str(xqq)+'.jpg'
  26.     b='xq'+str(xqq)+'.jpg'
  27.     with open(b, 'wb') as fd:
  28.         for chunk in r.iter_content():
  29.             fd.write(chunk)
  30.     xqq+=1

  31. b=re.findall(r'https:.*?.png',bsp)
  32. for url in b:
  33.     r = requests.get(url, stream=True)
  34.     b='xq'+str(xqq)+'.png'
  35.     b='xq'+str(xqq)+'.png'
  36.     with open(b, 'wb') as fd:
  37.         for chunk in r.iter_content():
  38.             fd.write(chunk)
  39.     xqq+=1



  40. b=re.findall(r'https:.*?.png',bsp)
  41. for url in b:
  42.     if url[-9:] == 'large.jpg':
  43.         r = requests.get(url, stream=True)
  44.         b='zt'+str(xqq)+'.png'
  45.         with open(b, 'wb') as fd:
  46.             for chunk in r.iter_content():
  47.                 fd.write(chunk)
  48.         xqq+=1
复制代码


我用re爬这个网址的商品详情图的时候,有少数商品会出现一张jpg格式,一张PNG格式,例如:1.png 2.jpg   3.jpg  4.png
但是我这个代码只能爬其中的一个格式在爬其他格式:1.jpg  2.jpg  3.png  4.png   
想知道如何修改成按顺序爬下来
最佳答案
2021-7-29 07:21:50
re可以用  或 *.jpg | *.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-7-29 01:04:37 | 显示全部楼层
网站URL发出来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-29 07:21:50 From FishC Mobile | 显示全部楼层    本楼为最佳答案   
re可以用  或 *.jpg | *.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-29 10:11:38 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-29 10:18:08 | 显示全部楼层
wp231957 发表于 2021-7-29 07:21
re可以用  或 *.jpg | *.png

能具体说说吗  不是很明白
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-29 10:19:42 | 显示全部楼层
wp231957 发表于 2021-7-29 07:21
re可以用  或 *.jpg | *.png

我明白了  谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-21 05:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表