lzb1001 发表于 2022-4-25 21:58:38

对返回的结果不理解

>>> s = ''
>>> for i in range(0, 65536):
        if not i >= 55296 and i <= 57343:
                s += chr(i)

               
>>> s
# 返回结果过长省略!
>>> b = bytes(s, 'utf-8')
>>> b
# 返回结果过长省略!
>>> type(s)
<class 'str'>
>>> type(b)
<class 'bytes'>
>>> len(s)
55296
>>> len(b)
163712
>>> re.search(rb'\d', b)
<re.Match object; span=(48, 49), match=b'0'> # 下标48、49是b'0'?
>>> re.search(r'\d', s)
<re.Match object; span=(48, 49), match='0'> # 下标48、49是'0'?

isdkz 发表于 2022-4-25 22:26:38

b 是字节串,没有 b 的是字符串,字节串的匹配结果也是字节串,

字符串的匹配结果是字符串

lzb1001 发表于 2022-4-25 23:01:35

isdkz 发表于 2022-4-25 22:26
b 是字节串,没有 b 的是字符串,字节串的匹配结果也是字节串,

字符串的匹配结果是字符串

感谢解答,但为什么结果分别是b'0'和'0'呢?它们的位置又为何是span=(48, 49),而且都是span=(48, 49)呢?

isdkz 发表于 2022-4-25 23:08:02

lzb1001 发表于 2022-4-25 23:01
感谢解答,但为什么结果分别是b'0'和'0'呢?它们的位置又为何是span=(48, 49),而且都是span=(48, 49)呢 ...

search找到一个即止,\d 匹配数字,b'0' 和 '0' 分别是字节串和字符串中出现的第一个数字,

找到的匹配就是在 48 开始,49结束(不包括49)这个位置
页: [1]
查看完整版本: 对返回的结果不理解