鱼C论坛

 找回密码
 立即注册
查看: 1040|回复: 5

[已解决]re爬取jpg和png格式有个疑问

[复制链接]
发表于 2021-7-28 19:13:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import requests,bs4
import re

pzn=input('请输入网址')

headers = {
    'authority': 'cn.apo.com',
    'cache-control': 'max-age=0',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'sec-fetch-site': 'same-origin',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-user': '?1',
    'sec-fetch-dest': 'document',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cookie': '__guid=5722465.4514138450663120400.1622527541951.2417; _ga=GA1.2.2073280731.1622543356; _gid=GA1.2.939110097.1626079866; SESSION=d12919a9-f80b-42df-8503-ee05e35e9fe7; csrfToken=a98f0a8c41e3e93909c7317868223b59; Hm_lvt_af0f4729a756b47aeb8f98097a94a1e1=1625815401,1626079865,1626142090,1626166025; monitor_count=484; Hm_lpvt_af0f4729a756b47aeb8f98097a94a1e1=1626167242',
    'if-none-match': '^\\^02c3749931be82f7276467b122f391d4c^\\^',
}

response = requests.get(pzn, headers=headers)
xqq=1

bsp=bs4.BeautifulSoup(response.text,'html.parser')
bsp=str(bsp.find_all('div',class_="introduction-body"))
b=re.findall(r'https:.*?.jpg',bsp)


for url in b:
    r = requests.get(url, stream=True)
    b='xq'+str(xqq)+'.jpg'
    b='xq'+str(xqq)+'.jpg'
    with open(b, 'wb') as fd:
        for chunk in r.iter_content():
            fd.write(chunk)
    xqq+=1

b=re.findall(r'https:.*?.png',bsp)
for url in b:
    r = requests.get(url, stream=True)
    b='xq'+str(xqq)+'.png'
    b='xq'+str(xqq)+'.png'
    with open(b, 'wb') as fd:
        for chunk in r.iter_content():
            fd.write(chunk)
    xqq+=1



b=re.findall(r'https:.*?.png',bsp)
for url in b:
    if url[-9:] == 'large.jpg':
        r = requests.get(url, stream=True)
        b='zt'+str(xqq)+'.png'
        with open(b, 'wb') as fd:
            for chunk in r.iter_content():
                fd.write(chunk)
        xqq+=1

我用re爬这个网址的商品详情图的时候,有少数商品会出现一张jpg格式,一张PNG格式,例如:1.png 2.jpg   3.jpg  4.png
但是我这个代码只能爬其中的一个格式在爬其他格式:1.jpg  2.jpg  3.png  4.png   
想知道如何修改成按顺序爬下来
最佳答案
2021-7-29 07:21:50
re可以用  或 *.jpg | *.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-29 01:04:37 | 显示全部楼层
网站URL发出来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-29 07:21:50 From FishC Mobile | 显示全部楼层    本楼为最佳答案   
re可以用  或 *.jpg | *.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-29 10:11:38 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-29 10:18:08 | 显示全部楼层
wp231957 发表于 2021-7-29 07:21
re可以用  或 *.jpg | *.png

能具体说说吗  不是很明白
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-29 10:19:42 | 显示全部楼层
wp231957 发表于 2021-7-29 07:21
re可以用  或 *.jpg | *.png

我明白了  谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-13 22:38

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表