马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
python的编码判断_
我要打开一批txt文本来进行文本处理,
可是,这批文本的编码不统一,
有的是uft8 有的是gbk 可能有的还是gb2312,
这样,我要怎么去不出错的打开这些文本呢?
下面是我的测试代码,不太成功,有知道的指导一下谢谢 try:
text0.decode('utf8')
except Exception as e:
if "unexpected end of data" in str(e):
file = open(text, encoding='utf-8')
elif "invalid start byte" in str(e):
file = open(text, encoding='gb2312')
elif "ascii" in str(e):
file = open(text, encoding='Unicode')
用 charder 模块中的 detect 函数,读取文件二进制内容即可获取 txt 文本的编码格式
参考代码:
import chardet
file = open('Test.txt','rb')
data = file.read()
print(chardet.detect(data)['encoding'])
|