|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
python的编码判断_
我要打开一批txt文本来进行文本处理,
可是,这批文本的编码不统一,
有的是uft8 有的是gbk 可能有的还是gb2312,
这样,我要怎么去不出错的打开这些文本呢?
下面是我的测试代码,不太成功,有知道的指导一下谢谢
- try:
- text0.decode('utf8')
- except Exception as e:
- if "unexpected end of data" in str(e):
- file = open(text, encoding='utf-8')
- elif "invalid start byte" in str(e):
- file = open(text, encoding='gb2312')
- elif "ascii" in str(e):
- file = open(text, encoding='Unicode')
复制代码
用 charder 模块中的 detect 函数,读取文件二进制内容即可获取 txt 文本的编码格式
参考代码:
- import chardet
- file = open('Test.txt','rb')
- data = file.read()
- print(chardet.detect(data)['encoding'])
复制代码
|
|