马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 一个账号 于 2020-3-16 18:13 编辑
Python memoryview & bytearray 的用法
bytearray 是可变 (mutable) 的字节序列,相对于 Python2 中的 str,但 str 是不可变 (immutable) 的。
在 Python3 中由于 str 默认是 unicode 编码,所以只有通过 bytearray 才能按字节访问。
memoryview 为支持 buffer protocol[1,2] 的对象提供了按字节的内存访问接口,好处是不会有内存拷贝。
默认 str 和 bytearray 支持 buffer procotol。
下面两种行为的对比:
简单点就是,str 和 bytearray 的切片操作会产生新的切片 str 和 bytearry 并拷贝数据,使用 memoryview 之后不会。
不使用 memoryview
- >> a = 'aaaaaa'
- >> b = a[:2] # 会产生新的字符串
- >> a = bytearray('aaaaaa')
- >> b = a[:2] # 会产生新的 bytearray
- >> b[:2] = 'bb' # 对b的改动不影响 a
- >> a
- bytearray(b'aaaaaa')
- >> b
- bytearray(b'bb')
复制代码
使用 memoryview
- >> a = 'aaaaaa'
- >> ma = memoryview(a)
- >> ma.readonly # 只读的 memoryview
- True
- >> mb = ma[:2] # 不会产生新的字符串
- >> a = bytearray('aaaaaa')
- >> ma = memoryview(a)
- >> ma.readonly # 可写的memoryview
- False
- >> mb = ma[:2] # 不会会产生新的 bytearray
- >> mb[:2] = 'bb' # 对 mb 的改动就是对 ma 的改动
- >> mb.tobytes()
- 'bb'
- >> ma.tobytes()
- 'bbaaaa'
复制代码
我的使用场景是网络程序中 socket 接收和接收数据的解析:
使用 memoryview 之前的 sock 接收代码简化如下
- def read(size):
- ret = ''
- remain = size
- while True:
- data = sock.recv(remain)
- ret += data # 这里不断会有新的 str 对象产生
- if len(data) == remain:
- break
- remain -= len(data)
- return ret
复制代码
使用 meoryview 之后,避免了不断的字符串拼接和新对象的产生
- def read(size):
- ret = memoryview(bytearray(size))
- remain = size
- while True:
- data = sock.recv(remain)
- length = len(data)
- ret[size - remain: size - remain + length] = data
- if len(data) == remain:
- break
- remain -= len(data)
- return ret
复制代码
返回 memoryview 还有一个优点,在使用 struct 进行 unpack 解析时可以直接接收 memoryview 对象,非常高效(避免大的 str 进行分段解析时大量的切片操作)。
例如:
- mv = memoryview('\x00\x01\x02\x00\x00\xff...')
- type, len = struct.unpack('!BI', mv[:5])
- ...
复制代码 |