wangxinnan 发表于 2019-7-27 15:46:46

关于字节的问题

求助,据所了解,中文是两个字节,数字和符号是一个字节
今天自己做测试,TXT文件内容为“1234用于测试的。。。。”

>>> f = open("123.txt")
>>> f.tell()
0
# 返回指针位置
>>> f.read()
'1234用于测试的\n55测试使用\n666'
# 读取全部文件
>>> f.seek(0,0)
0
# 返回文件起始位置
>>> f.read(5)
'1234用'
# 读取5个字符
>>> f.tell()
7

按理说,4个数字+1个中文,返回不是6么?为什么测试返回的字节是7呢?
后来我又做了测试
>>> f.seek(0,0)
0
>>> f.read(2)
'12'
>>> f.tell()
2                        #2个数字,返回2个字节
>>> f.read(1)
'3'
>>> f.tell()
3                        #3个数字,返回3个字节
>>> f.read(1)
'4'
>>> f.tell()
5                      #4个数字,返回5个字节


百度搜了半天没明白原因,请大神帮忙解释一下

jackz007 发表于 2019-7-27 16:07:45

本帖最后由 jackz007 于 2019-7-27 16:18 编辑

f = open('123.txt')
print(f . read(5))
print(f . tell())
f . seek(0 , 0)
print(f . read(6))
print(f . tell())
f . close()

    运行实况
C:\Bin>python x.py
1234
5
1234用
6

C:\Bin>

      没有任何问题呀。

冬雪雪冬 发表于 2019-7-27 16:16:23

根据查看python的help函数,read(n)是读取n个字符,这里一个汉字算一个字符。tell()返回当前位置,这里是按byte算的,所以一个汉字算2个byte。

wangxinnan 发表于 2019-7-27 17:02:17

jackz007 发表于 2019-7-27 16:07
运行实况




tell()返回的是指针位置的字节,你看你运行的第二和第三行,第二行是4个数字,返回的字节是5,我就是在质疑这个。。。

wangxinnan 发表于 2019-7-27 17:03:50

冬雪雪冬 发表于 2019-7-27 16:16
根据查看python的help函数,read(n)是读取n个字符,这里一个汉字算一个字符。tell()返回当前位置,这里是按 ...

中文字符是2个字节这个我知道的
我很疑惑的是,我通过read()读取的内容是“1234”
按理说,一个数字是一个字节,
读取的1234,不是应该返回字节4么,为啥返回的是5啊{:5_94:}

冬雪雪冬 发表于 2019-7-27 17:09:07

wangxinnan 发表于 2019-7-27 17:03
中文字符是2个字节这个我知道的
我很疑惑的是,我通过read()读取的内容是“1234”
按理说,一个数字 ...

我这里是4呀。
>>> f.seek(0,0)
0
>>> f.read(4)
'asd1'
>>> f.tell()
4

不知道叫啥好 发表于 2019-7-29 13:46:11

python中文utf8编码后占3位,Unicode汉字为2个字节
页: [1]
查看完整版本: 关于字节的问题