Nate_2020 发表于 2020-9-15 17:10:39

文本操作获得列表报错问题 'gbk'

帮忙看看用file.readlines()和用list(file)获得列表有什么区别, 为什么用list(file)有些文本会出错. 如下:
>>> p = r'G:\production\2h0480dfa0\2h0480dfa0.d6'
>>> f = open(p,'r')
>>> ff = list(f)
Traceback (most recent call last):
File "<pyshell#18>", line 1, in <module>
    ff = list(f)
UnicodeDecodeError: 'gbk' codec can't decode byte 0x8c in position 35: illegal multibyte sequence
>>> f
<_io.TextIOWrapper name='G:\\production\\2h0480dfa0\\2h0480dfa0.d6' mode='r' encoding='cp936'>
>>> ff = f.readlines()
>>> ff

文本如下:
M48
INCH,LZ
VER,1
FMAT,2
DIAP, Htg-4.EDI
T01C0.125000
T02C0.017717
T03C0.019685
T04C0.025591
T05C0.027559

导致问题的行应该是 DIAP, Htg-4.EDI, 中多了一个空格.

昨非 发表于 2020-9-15 17:20:55

f = open("fishc_test.txt","r",encoding="UTF-8")

ff = list(f)
for i in ff:
    print(i)

编码问题,上述代码可以实现和readline差不多的效果
list(f)的列表内容各元素是带有\n的,所以打印出来多了个换行

昨非 发表于 2020-9-15 17:26:33

上边的文件名内容是你所提供的
我没有刻意比较过两种方法,不过效果是一样的

昨非 发表于 2020-9-15 17:29:58

还有,你帖子发错地方了
建议:
点击帖子左下角【编辑】
左上角【选择帖子类型】
重新设置为【求助帖】
以便在他人解决后设置【最佳答案】

小甲鱼的铁粉 发表于 2020-9-15 19:01:40

打开你这个fishc_test.txt文件,点击左上角'文件',点击'另存为',然后弹出来一个窗口,最下面有一个编码,选择UTF-8
然后在代码中加一个东西
f = open("fishc_test.txt","r",encoding="utf-8")

Nate_2020 发表于 2020-9-28 08:58:59

昨非 发表于 2020-9-15 17:29
还有,你帖子发错地方了
建议:
点击帖子左下角【编辑】


我的左上角没有【选择帖子类型】, 你能截个图来看看吗?

昨非 发表于 2020-9-28 09:42:07

Nate_2020 发表于 2020-9-28 08:58
我的左上角没有【选择帖子类型】, 你能截个图来看看吗?

我说的是左下角

Nate_2020 发表于 2020-9-29 08:53:35

昨非 发表于 2020-9-28 09:42
我说的是左下角

昨天写了个新的, 看到了, 谢谢提醒
页: [1]
查看完整版本: 文本操作获得列表报错问题 'gbk'