鱼C论坛

 找回密码
 立即注册
查看: 3031|回复: 4

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbb in position 918: inv...

[复制链接]
发表于 2017-5-3 16:54:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
爬取网页图片时一直报UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbb in position 918: invalid start byte错误,用的是Python3,求指教
网上说的方法:
1.
#!/usr/bin/env Python
# coding=utf-8
2.
#encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('gbk')
都不对。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-5-3 17:48:02 | 显示全部楼层
使用try...except语句,把不能转码成功的字符串忽略掉,有些特殊字符是转换不了的,比如一些手机形成的表情
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-5-3 18:11:22 | 显示全部楼层
gopythoner 发表于 2017-5-3 17:48
使用try...except语句,把不能转码成功的字符串忽略掉,有些特殊字符是转换不了的,比如一些手机形成的表情

感觉和你说的不是一个情况,是在网页上下载照片
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-5-3 18:32:18 | 显示全部楼层
错误可能是有一些非ASCII字符,不能进行编码/解码。 避免此错误的一个简单方法是使用encode()函数对这些字符串进行encode() ,如下所示(如果a是具有非ASCII字符的字符串):
a.encode('utf-8').strip()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-5-4 15:51:46 | 显示全部楼层
html = response.read( ).decode('gbk')就可以了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-22 10:22

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表