[已解决]为什么我打开文件总是出现UnicodeDecodeError这个错误呢？

思思大美女 · 发表于 2019-7-4 10:58:58

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 46: illegal multibyte sequence

百度说是要改encoding

with open (each_filename,encoding ="utf-8") as f:

改了encoding之后又会出现新的error
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xca in position 0: invalid continuation byte

最后是创建了一个简单的文件夹来验证程序对不对，就没报错了

求大神帮忙解决一下

最佳答案

月排行榜 / 总排行榜

wp231957

2019-7-4 11:53:57

思思大美女发表于 2019-7-4 11:48
是目标文件是什么编码就要用什么编码打开对吧，那我要迭代打开多个文件，有utf-8的，有ASCII码的，有解决 ...

是目标文件是什么编码就要用什么编码打开对吧，  这个是对的
那我要迭代打开多个文件，有utf-8的，有ASCII码的，有解决方法么，
还是我得把所有目标文件统一编码方式？  这个是不现实的

先判断一下目标文件的编码  然后再使用相应的编码格式去打开

# coding: utf-8
from os import listdir
import chardet
#程序的功能就是查阅e:\gcc-html\gcc的所有文件的编码格式
#格式如下: 编码相似度语言
# 'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'
if __name__=="__main__":
files=listdir('e:\gcc-html\gcc')
for file in files:
ftmp="e:\\gcc-html\\gcc"+file
fo = open(ftmp, "rb").read()
print (chardet.detect(fo))

复制代码

跳转到最佳答案楼层

wp231957 · 发表于 2019-7-4 11:05:46

看目标文件编码格式

思思大美女 · 发表于 2019-7-4 11:48:41

wp231957 发表于 2019-7-4 11:05
看目标文件编码格式

是目标文件是什么编码就要用什么编码打开对吧，那我要迭代打开多个文件，有utf-8的，有ASCII码的，有解决方法么，还是我得把所有目标文件统一编码方式？

wp231957 · 发表于 2019-7-4 11:53:57

这个最佳答案由 wp231957 给出，感谢 wp231957 的回答。

单击隐藏图章

思思大美女发表于 2019-7-4 11:48
是目标文件是什么编码就要用什么编码打开对吧，那我要迭代打开多个文件，有utf-8的，有ASCII码的，有解决 ...

是目标文件是什么编码就要用什么编码打开对吧，  这个是对的
那我要迭代打开多个文件，有utf-8的，有ASCII码的，有解决方法么，
还是我得把所有目标文件统一编码方式？  这个是不现实的

先判断一下目标文件的编码  然后再使用相应的编码格式去打开

# coding: utf-8
from os import listdir
import chardet
#程序的功能就是查阅e:\gcc-html\gcc的所有文件的编码格式
#格式如下: 编码相似度语言
# 'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'
if __name__=="__main__":
files=listdir('e:\gcc-html\gcc')
for file in files:
ftmp="e:\\gcc-html\\gcc"+file
fo = open(ftmp, "rb").read()
print (chardet.detect(fo))

复制代码

账号		自动登录	找回密码
密码			立即注册

[已解决]为什么我打开文件总是出现UnicodeDecodeError这个错误呢？

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块