鱼C论坛

 找回密码
 立即注册
查看: 1579|回复: 6

[已解决]有没有批量自动识别文本文件编码格式 并 转换成 utf8 的通用程序?

[复制链接]
发表于 2022-7-19 09:45:59 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
有没有批量自动识别文本文件编码格式 并 转换成 utf8 的通用程序?

很多都要指定 源文件的编码格式。有没有自动识别源txt编码格式的?
最佳答案
2022-7-19 12:12:22
本帖最后由 jackz007 于 2022-7-19 12:41 编辑
def convert(file):
    r = 0
    with open(file , 'rb') as fp
        b = fp . read()
    try:
        s = b . decode('GB2312')
        r = 1
    except:
        try:
            s = b . decode('UTF-8')
            r = 2
        except:
            pass
    if r == 1
        with open(file , 'wt' , encoding = 'UTF-8')
            fp . write(s)
    return r

fn = input('输入文件名 : ')  . strip()
if fn:
    x = convert(fn)
    if x == 1:
        print(fn + ':' , '【GB2312】')
    elif x == 2:
        print(fn + ':' , '【UTF-8】')
    else:
        print(fn + ':' , '【未知】')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-7-19 09:58:31 From FishC Mobile | 显示全部楼层
识别尚且有个识别率的问题
自动转换就不可能有了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-7-19 10:32:51 | 显示全部楼层
wp231957 发表于 2022-7-19 09:58
识别尚且有个识别率的问题
自动转换就不可能有了

这个不知道咋样?   https://blog.csdn.net/u011731378/article/details/122210519
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-7-19 12:12:22 | 显示全部楼层    本楼为最佳答案   
本帖最后由 jackz007 于 2022-7-19 12:41 编辑
def convert(file):
    r = 0
    with open(file , 'rb') as fp
        b = fp . read()
    try:
        s = b . decode('GB2312')
        r = 1
    except:
        try:
            s = b . decode('UTF-8')
            r = 2
        except:
            pass
    if r == 1
        with open(file , 'wt' , encoding = 'UTF-8')
            fp . write(s)
    return r

fn = input('输入文件名 : ')  . strip()
if fn:
    x = convert(fn)
    if x == 1:
        print(fn + ':' , '【GB2312】')
    elif x == 2:
        print(fn + ':' , '【UTF-8】')
    else:
        print(fn + ':' , '【未知】')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-7-19 13:22:18 | 显示全部楼层
本帖最后由 blackantt 于 2022-7-19 13:24 编辑


好像还有 ascii,unicode,gbk 等编码的中文小说?   能不能都考虑进去,被编码都搞糊涂了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-7-19 13:28:05 | 显示全部楼层
本帖最后由 jackz007 于 2022-7-19 13:32 编辑
blackantt 发表于 2022-7-19 13:22
好像还有 ascii,unicode,gbk 等编码的中文小说?   能不能都考虑进去


       ASCII 不是编码名称,UTF-8 属于 UNICODE,GBK 和 GB2312 是一回事。

       一切都来源于需要或问题,对于我们来说,解码出现问题的都是因为中文字符,满足需要就可以了,当然,如果你足够有雄心和耐心,也可以把你自己可能遇到的编码格式都考虑进去。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-7-19 14:33:34 From FishC Mobile | 显示全部楼层
使用chardet模块识别编码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-28 14:15

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表