鱼C论坛

 找回密码
 立即注册
查看: 724|回复: 4

请求大神帮我解决爬虫里的编码问题!

[复制链接]
发表于 2018-12-11 10:22:52 From FishC Mobile | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
爬网站妹子图时,head标签中charset为utf8,为何我用使用decode(’utf-8')解码时总会出现下图的错误呢?
466689206823b4fa.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-12-11 10:41:17 | 显示全部楼层
你这是获取图片链接还是保存图片啊??

保存图片是二进制形式,不需要utf-8编码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-12-11 15:09:56 | 显示全部楼层
如楼上所讲,如果你使用的是requests模块,那么response里面是对应的图片的话,那你应该直接用
  1. html = response.content
复制代码
,然后直接保存为图片格式,jpg,png都行
             另外,如果你用的urllib模块的话,那么你应该直接这样
  1. urllib.urlretrieve(url[, filename[, reporthook[, data]]])
复制代码
可以直接将图片保存在filename路径中,也就不需要read了
如果你想弄清楚关于编码的报错,请看下面   (自己多尝试)
            看报错提示:utf-8解码器不能解析字节  ,所以你read出来的市字节啊;字节其实就是unicode格式,所以先用unicode解码,然后用utf-8编码再utf-8解码,试试吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-12-11 15:15:36 | 显示全部楼层
刚刚在网上看到同样问题的答案:是请求头中的
  1.   “Accept-Encoding”:" gzip, deflate"
复制代码
在作祟,所以在headers中删掉这句就可以了(不过,我没试过,你可以试试嘛)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-12-14 16:11:58 | 显示全部楼层
cupbbboom 发表于 2018-12-11 15:15
刚刚在网上看到同样问题的答案:是请求头中的    在作祟,所以在headers中删掉这句就可以了(不过,我没试 ...

谢谢帮助!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 05:36

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表