鱼C论坛

 找回密码
 立即注册
查看: 3863|回复: 11

爬取的图片打不开

[复制链接]
发表于 2021-5-15 16:41:42 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
爬取图片中发生的问题:图片是爬下来了,也是jpeg格式的,但是打不开

代码如下:

"""请求网页"""
import requests
import re

headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
           }
response = requests.get('https://www.vmgirls.com/12985.html', headers=headers)
print(response.request.headers)
html = response.text

"""解析网页"""
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">', html)
print(urls)

"""保存图片"""
for url in urls:
    # 图片的名字
    file_name = url.split('/')[-1]
    response = requests.get("https://www.vmgirls.com/12985.html", headers=headers)
    with open(file_name, 'wb') as f:
        f.write(response.content)

在网上看的视频中网页源代码是这样的:[attachimg]143619 标红的地方图片地址是https开头的

但相同的地方我所得到的图片网址是'//t.cdn.ink/image/2019/10/470B6B0D-609A-4A84-A533-351AF30F3927-1-scaled.jpeg' 的格式 是不是源头网页做过了调整?

视频中的图片网址以https开头

视频中的图片网址以https开头
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-5-15 17:25:28 From FishC Mobile | 显示全部楼层
你爬下来的不是图片文件
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-5-15 19:49:27 | 显示全部楼层
wp231957 发表于 2021-5-15 17:25
你爬下来的不是图片文件

可是图片拓展名是jpeg诶
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-15 20:31:57 | 显示全部楼层
kris0913 发表于 2021-5-15 19:49
可是图片拓展名是jpeg诶

最常见的反爬,headers加上referer就行了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-15 20:34:39 | 显示全部楼层
  1. for url in urls:
  2.     # 图片的名字
  3.     file_name = url.split('/')[-1]
  4.     response = requests.get("https://www.vmgirls.com/12985.html", headers=headers)
  5.     with open(file_name, 'wb') as f:
  6.         f.write(response.content)
复制代码

这段代码中get()方法的url传错了,应该是requests.get(url,headers=headers)
当然了url可能需要处理,比如开头加上http之类的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-15 20:47:39 | 显示全部楼层
redforce 发表于 2021-5-15 20:34
这段代码中get()方法的url传错了,应该是requests.get(url,headers=headers)
当然了url可能需要处理, ...

对,url这也是一个问题,刚分析了网页,是有referer反爬的,没具体看他的代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-5-16 14:12:28 | 显示全部楼层
YunGuo 发表于 2021-5-15 20:47
对,url这也是一个问题,刚分析了网页,是有referer反爬的,没具体看他的代码

具体代码是怎么写呀
请求头变成headers={'referer': 'https://www.vmgirls.com/12985.html'}这样吗
还是在原来的基础上加上这句话呢?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-5-16 14:53:11 | 显示全部楼层
redforce 发表于 2021-5-15 20:34
这段代码中get()方法的url传错了,应该是requests.get(url,headers=headers)
当然了url可能需要处理, ...

url不是get方法里的一个参数吗。。我直接写了应该也可以吧
程序是可以运行的 但就是下载下来的图片不能打开哈哈哈
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-16 16:56:38 | 显示全部楼层
这个网站好狗啊,右键连 F12 都打不开

非要点击网站地址,再按 F12
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-16 18:49:00 | 显示全部楼层
本帖最后由 YunGuo 于 2021-5-16 18:52 编辑
kris0913 发表于 2021-5-16 14:12
具体代码是怎么写呀
请求头变成headers={'referer': 'https://www.vmgirls.com/12985.html'}这样吗
还 ...


headers里面加一个referer
  1. headers = {
  2.     'referer': 'https://www.vmgirls.com/',
  3.     'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
  4. }
复制代码


你的代码这样改下
  1. """请求网页"""
  2. import requests
  3. import re

  4. headers = {
  5.     'referer': 'https://www.vmgirls.com/',
  6.     'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
  7. }
  8. response = requests.get('https://www.vmgirls.com/12985.html', headers=headers)
  9. html = response.text

  10. """解析网页"""
  11. urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">', html)
  12. # print(urls)

  13. """保存图片"""
  14. for url in urls:
  15. #     # 图片的名字
  16.     file_name = url.split('/')[-1]
  17.     img_url = 'https:' + url
  18.     response = requests.get(img_url, headers=headers)
  19.     with open(file_name, 'wb') as f:
  20.         f.write(response.content)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-16 22:21:58 | 显示全部楼层
0.0
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-5-19 15:21:28 | 显示全部楼层
Daniel_Zhang 发表于 2021-5-16 16:56
这个网站好狗啊,右键连 F12 都打不开

非要点击网站地址,再按 F12

是看b站上的视频里说的网站
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-23 17:45

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表