lapo_Mu 发表于 2018-2-13 15:42:20

Python编码问题

学了爬虫之后,我知道了requests这个库,我很好奇apparent_encoding是怎么获取的。
我自己也尝试写了一个获取编码的程序,可是效果并不理想。
然后,我就遇到了这篇文章:https://www.zhihu.com/question/24590883
原来可以用chardet这个第三方库来获取猜测的编码方式!
如果你安装了requests的话,chardet也一起安装了,
所以,requests(应该)就是用chardet来获取apparent_encoding的。
如果你没有安装requests,就在cmd下执行如下命令:
pip install chardet

用起来是这样的:
>>> import chardet
>>> string = "你好,世界".encode("utf-32")
>>> chardet.detect(string)
{'encoding': 'UTF-32', 'confidence': 1.0, 'language': ''}
返回的是一个字典,encoding是猜测的编码方式,confidence是概率,language是语言(因为utf-32是通用的编码方式,所以这里返回的是一个空字符串)。
页: [1]
查看完整版本: Python编码问题