鱼C论坛

 找回密码
 立即注册
查看: 841|回复: 3

获取文档编码

[复制链接]
发表于 2019-4-19 12:36:05 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. >>> from bs4 import UnicodeDammit
  2. >>> dammit = UnicodeDammit("Sacr\xc3\xa9 bleu!")
  3. >>> print(dammit.unicode_markup)
  4. Sacré bleu!
  5. >>> dammit.original_encoding
  6. >>> dammit.original_encoding
  7. >>>
复制代码

如图,请教大佬为什么获取dammit文本编码没反应。py3.7
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-4-19 13:21:57 From FishC Mobile | 显示全部楼层
本帖最后由 wp231957 于 2019-4-19 13:23 编辑

https://fishc.com.cn/forum.php?mod=viewthread&tid=132996&mobile=2

手机获取的不对
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2019-4-19 13:38:53 From FishC Mobile | 显示全部楼层
# coding: utf-8
from os import listdir
import chardet

#程序的功能就是查阅e:\gcc-html\gcc的所有文件的编码格式
#格式如下:   编码                   相似度               语言
#      'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'
if __name__=="__main__":
  files=listdir('e:\gcc-html\gcc')
  for file in files:
    ftmp="e:\\gcc-html\\gcc\"+file
    fo = open(ftmp, "rb").read()
    print (chardet.detect(fo))
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2019-4-19 13:55:49 | 显示全部楼层
wp231957 发表于 2019-4-19 13:38
# coding: utf-8
from os import listdir
import chardet

你说的对,但是original_encoding这个获取编码该怎么用,还是python3.7已经删掉这个了?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-15 09:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表