获取文档编码

随风~ · 发表于 2019-4-19 12:36:05

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

>>> from bs4 import UnicodeDammit
>>> dammit = UnicodeDammit("Sacr\xc3\xa9 bleu!")
>>> print(dammit.unicode_markup)
SacrÃ© bleu!
>>> dammit.original_encoding
>>> dammit.original_encoding
>>>

复制代码

如图，请教大佬为什么获取dammit文本编码没反应。py3.7

wp231957 · 发表于 2019-4-19 13:21:57

本帖最后由 wp231957 于 2019-4-19 13:23 编辑

https://fishc.com.cn/forum.php?mod=viewthread&tid=132996&mobile=2

手机获取的不对

wp231957 · 发表于 2019-4-19 13:38:53

# coding: utf-8
from os import listdir
import chardet

#程序的功能就是查阅e:\gcc-html\gcc的所有文件的编码格式
#格式如下: 编码                相似度             语言
#    'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'
if __name__=="__main__":
  files=listdir('e:\gcc-html\gcc')
  for file in files:
ftmp="e:\\gcc-html\\gcc\"+file
fo = open(ftmp, "rb").read()
print (chardet.detect(fo))

随风~ · 发表于 2019-4-19 13:55:49

wp231957 发表于 2019-4-19 13:38
# coding: utf-8
from os import listdir
import chardet

你说的对，但是original_encoding这个获取编码该怎么用，还是python3.7已经删掉这个了？

账号		自动登录	找回密码
密码			立即注册

获取文档编码

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块