鱼C论坛

 找回密码
 立即注册
查看: 1637|回复: 11

第035讲:图形用户界面入门:EasyGui,课后习题2,打开文本文件报错

[复制链接]
发表于 2019-8-1 22:13:57 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
2. 提供一个文件夹浏览框,让用户选择需要打开的文本文件,打开并显示文件内容。"bmT<wB

课后提供的密码如下:
————————————————————————————————————————————————————————————

import easygui as g
import os

file_path = g.fileopenbox(default="*.txt")

with open(file_path) as f:
    title = os.path.basename(file_path)
    msg = "文件【%s】的内容如下:" % title
    text = f.read()
    g.textbox(msg, title, text)

————————————————————————————————————————————————————————————
执行结果:

Traceback (most recent call last):
  File "C:/Programs/Python/text/035-6.py", line 9, in <module>
    text = f.read()
UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 11: illegal multibyte sequence

这个错误应该是文本格式的原因,但是该怎么修改呢?
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-8-1 23:31:52 | 显示全部楼层
'gbk' codec can't decode 编码解码。
cchardet 比chardet准确度高,速度快

cchardet.detect()返回字典,其中confidence是检测精确度,encoding是编码形式



1:网页编码判断:
import requests
import cchardet

res = requests.get('http://www.baidu.com/')
rawdata  = res.content
cchardet.detect(rawdata)

>>>{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}



2:文件编码判断

import cchardet

with open('c:\\111.txt','rb') as f:
        msg=f.read()

enc = cchardet.detect(msg)
enc = enc['encoding']
print(enc)



# 以指定编码打开文件
with open("新建文本文档.txt", "r", encoding=enc) as f:
    print(f.read())


小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-2 08:13:01 | 显示全部楼层
  1. import easygui as g
  2. import os

  3. file_path = g.fileopenbox(default="*.txt")

  4. with open(file_path, encoding="utf-8") as f:
  5.     title = os.path.basename(file_path)
  6.     msg = "文件【%s】的内容如下:" % title
  7.     text = f.read()
  8.     g.textbox(msg, title, text)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-3 19:15:58 | 显示全部楼层
本帖最后由 wyft5t5 于 2019-8-3 19:21 编辑
ba21 发表于 2019-8-1 23:31
'gbk' codec can't decode 编码解码。
cchardet 比chardet准确度高,速度快


我参照你的这个例子进行更改,程序如下:
————————————————————————————————————————
import easygui as g
import os
import cchardet as k

file_path = g.fileopenbox(default="*.txt")

with open(file_path) as f:
    title = os.path.basename(file_path)
    msg = "文件【%s】的内容如下:" % title
    text = f.read()
    enc=k.detect(text)
    enc = enc['encoding']
    g.textbox(msg, title, enc)
————————————————————————————————————————
结果报错如下:
Traceback (most recent call last):
  File "C:/Programs/Python/text/035-6.py", line 11, in <module>
    enc=k.detect(text)
  File "C:\Programs\Python\text\venv\lib\site-packages\cchardet\__init__.py", line 15, in detect
    encoding, confidence = _cchardet.detect_with_confidence(msg)
TypeError: Argument 'msg' has incorrect type (expected bytes, got str)
————————————————————————————————————————
这个报错,针对的是
msg = "文件【%s】的内容如下:" % title
这一句
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-3 19:20:53 | 显示全部楼层
ba21 发表于 2019-8-1 23:31
'gbk' codec can't decode 编码解码。
cchardet 比chardet准确度高,速度快

第二次修改,将
msg = "文件【%s】的内容如下:" % title 这句改成 msg = "文件的内容如下:"
————————————————————————————————————————
import easygui as g
import os
import cchardet as k

file_path = g.fileopenbox(default="*.txt")

with open(file_path) as f:
    title = os.path.basename(file_path)
    msg = "文件的内容如下:"
    text = f.read()
    enc=k.detect(text)
    enc = enc['encoding']
    g.textbox(msg, title, enc)
————————————————————————————————————————
此时报错如下:
Traceback (most recent call last):
  File "C:/Programs/Python/text/035-6.py", line 11, in <module>
    enc=k.detect(text)
  File "C:\Programs\Python\text\venv\lib\site-packages\cchardet\__init__.py", line 15, in detect
    encoding, confidence = _cchardet.detect_with_confidence(msg)
TypeError: Argument 'msg' has incorrect type (expected bytes, got str)

这次针对的是enc=k.detect(text)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-3 19:23:29 | 显示全部楼层

这次txt是utf-8的时候可以正常读取了,但是gbk格式的时候,又报错了
有什么办法可以让程序自主判断格式吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-3 19:26:03 | 显示全部楼层
wyft5t5 发表于 2019-8-3 19:23
这次txt是utf-8的时候可以正常读取了,但是gbk格式的时候,又报错了
有什么办法可以让程序自主判断格式 ...


请参考:https://blog.csdn.net/LeonTom/article/details/85164998
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-3 19:27:12 | 显示全部楼层
wyft5t5 发表于 2019-8-3 19:23
这次txt是utf-8的时候可以正常读取了,但是gbk格式的时候,又报错了
有什么办法可以让程序自主判断格式 ...

注:需要安装 chardet 库
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-3 20:17:34 | 显示全部楼层
ba21 发表于 2019-8-1 23:31
'gbk' codec can't decode 编码解码。
cchardet 比chardet准确度高,速度快

在这个程序里,'c:\\111.txt'被打开了两次,我只想以指定编码方式打开一次,应该怎么写啊?
enc = enc['encoding'],这一句是必须要有的吗?
——————————————————————————————
import cchardet
with open('c:\\111.txt','rb') as f:
        msg=f.read()
enc = cchardet.detect(msg)
enc = enc['encoding']
# 以指定编码打开文件
with open('c:\\111.txt', "r", encoding=enc) as f:
    print(f.read())
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-3 20:59:49 | 显示全部楼层
wyft5t5 发表于 2019-8-3 20:17
在这个程序里,'c:\\111.txt'被打开了两次,我只想以指定编码方式打开一次,应该怎么写啊?
enc = enc[' ...

with 会自动关闭
第一次是判断编码。
第2次才是正试打开。
不读文件如何判断编码?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-4 08:46:21 | 显示全部楼层
ba21 发表于 2019-8-3 20:59
with 会自动关闭
第一次是判断编码。
第2次才是正试打开。

enc = cchardet.detect(msg)
这一句应该是判断编码了

enc = enc['encoding']
这一句是做什么用途的?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-4 09:15:42 | 显示全部楼层
wyft5t5 发表于 2019-8-4 08:46
enc = cchardet.detect(msg)
这一句应该是判断编码了

自己上网找下 cchardet.detect的返回值
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-17 10:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表