关于 read 读取文件的问题
问题:一个有标点(但是都在末尾)其他都是 中文字符的文件。使用seek让光标到达第二个字节的位置,然后进行全部read读取的时候,就发生错误了,然后再次用tell的时候,发现已经回到最末尾的。为啥呢? 什么编码?GBK 的汉字编码是两个字节,UTF-8 的汉字编码是三个字节。。 sunrise085 发表于 2020-7-14 16:11什么编码?GBK 的汉字编码是两个字节,UTF-8 的汉字编码是三个字节。。
不知道那种编码,在txt文件里面书写的。我试试三个字节看看能不能读取。 caesar2334 发表于 2020-7-14 16:13
不知道那种编码,在txt文件里面书写的。我试试三个字节看看能不能读取。
>>> f =open("C:\\Users\\gues\\Desktop\\file.txt","r")
>>> f.read()
Traceback (most recent call last):
File "<pyshell#44>", line 1, in <module>
f.read()
UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 20: illegal multibyte sequence
这样的,直接读取的话变成这样了
因为 read() 函数会将文件指针移动到文件末尾
caesar2334 发表于 2020-7-14 16:14
>>> f =open("C:\%users\\gues\\Desktop\\file.txt","r")
>>> f.read()
Traceback (most recent call ...
你这个报错是文件编码问题吧,你加上 encoding 参数设置下编码就好了,open 默认是 r 只读方式打开,所以这里可以不加 r :
f =open("C:\\Users\\gues\\Desktop\\file.txt",encoding='utf-8')
f.read() caesar2334 发表于 2020-7-14 16:14
>>> f =open("C:\%users\\gues\\Desktop\\file.txt","r")
>>> f.read()
Traceback (most recent call ...
估计应该是utf-8编码
打开文件改为这个,应该就行了
f =open("C:\\Users\\gues\\Desktop\\file.txt","r",encoding='utf-8')
GBK汉字编码是两个字节,这样从一个汉字中间读取是会出现解码错误的。
utf-8汉字编码是三个字节,也会有这样的问题。
所以一般不建议用seek移动光标到文件的中间位置,seek更多是用在移动光标到文件开始或文件末尾。 sunrise085 发表于 2020-7-14 16:17
估计应该是utf-8编码
打开文件改为这个,应该就行了
好的 谢谢你 Twilight6 发表于 2020-7-14 16:16
你这个报错是文件编码问题吧,你加上 encoding 参数设置下编码就好了,open 默认是 r 只读方式打开,所以 ...
好的 谢谢你
页:
[1]