Python memoryview & bytearray 的用法

一个账号 · 发表于 2020-3-16 15:43:32

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由一个账号于 2020-3-16 18:13 编辑

Python memoryview & bytearray 的用法

bytearray 是可变 (mutable) 的字节序列，相对于 Python2 中的 str，但 str 是不可变 (immutable) 的。

在 Python3 中由于 str 默认是 unicode 编码，所以只有通过 bytearray 才能按字节访问。

memoryview 为支持 buffer protocol[1,2] 的对象提供了按字节的内存访问接口，好处是不会有内存拷贝。

默认 str 和 bytearray 支持 buffer procotol。

下面两种行为的对比：

简单点就是，str 和 bytearray 的切片操作会产生新的切片 str 和 bytearry 并拷贝数据，使用 memoryview 之后不会。

不使用 memoryview

>> a = 'aaaaaa'
>> b = a[:2] # 会产生新的字符串
>> a = bytearray('aaaaaa')
>> b = a[:2] # 会产生新的 bytearray
>> b[:2] = 'bb' # 对b的改动不影响 a
>> a
bytearray(b'aaaaaa')
>> b
bytearray(b'bb')

复制代码

使用 memoryview

>> a = 'aaaaaa'
>> ma = memoryview(a)
>> ma.readonly # 只读的 memoryview
True
>> mb = ma[:2] # 不会产生新的字符串
>> a = bytearray('aaaaaa')
>> ma = memoryview(a)
>> ma.readonly # 可写的memoryview
False
>> mb = ma[:2] # 不会会产生新的 bytearray
>> mb[:2] = 'bb' # 对 mb 的改动就是对 ma 的改动
>> mb.tobytes()
'bb'
>> ma.tobytes()
'bbaaaa'

复制代码

我的使用场景是网络程序中 socket 接收和接收数据的解析：

使用 memoryview 之前的 sock 接收代码简化如下

def read(size):
ret = ''
remain = size
while True:
data = sock.recv(remain)
ret += data # 这里不断会有新的 str 对象产生
if len(data) == remain:
break
remain -= len(data)
return ret

复制代码

使用 meoryview 之后，避免了不断的字符串拼接和新对象的产生

def read(size):
ret = memoryview(bytearray(size))
remain = size
while True:
data = sock.recv(remain)
length = len(data)
ret[size - remain: size - remain + length] = data
if len(data) == remain:
break
remain -= len(data)
return ret

复制代码

返回 memoryview 还有一个优点，在使用 struct 进行 unpack 解析时可以直接接收 memoryview 对象，非常高效（避免大的 str 进行分段解析时大量的切片操作）。

例如：

mv = memoryview('\x00\x01\x02\x00\x00\xff...')
type, len = struct.unpack('!BI', mv[:5])
...

复制代码

hrp · 发表于 2020-3-16 18:12:20

标题是不是少了个字母，memoryview

一个账号 · 发表于 2020-3-16 18:13:03

hrp 发表于 2020-3-16 18:12
标题是不是少了个字母，memoryview

感谢提醒！

账号		自动登录	找回密码
密码			立即注册

[技术交流] Python memoryview & bytearray 的用法

马上注册，结交更多好友，享用更多功能^_^

评分

浏览过的版块