|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
学了爬虫之后,我知道了requests这个库,我很好奇apparent_encoding是怎么获取的。
我自己也尝试写了一个获取编码的程序,可是效果并不理想。
然后,我就遇到了这篇文章:https://www.zhihu.com/question/24590883
原来可以用chardet这个第三方库来获取猜测的编码方式!
如果你安装了requests的话,chardet也一起安装了,
所以,requests(应该)就是用chardet来获取apparent_encoding的。
如果你没有安装requests,就在cmd下执行如下命令:
用起来是这样的:
- >>> import chardet
- >>> string = "你好,世界".encode("utf-32")
- >>> chardet.detect(string)
- {'encoding': 'UTF-32', 'confidence': 1.0, 'language': ''}
复制代码
返回的是一个字典,encoding是猜测的编码方式,confidence是概率,language是语言(因为utf-32是通用的编码方式,所以这里返回的是一个空字符串)。 |
|