[已解决]请问如何优化多次循环

snowzkr · 发表于 2020-2-4 09:17:21

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

对比2个列表内字典里的元素把相同ID的情报赋予第一个里
dictList = [{‘ID’:1, ‘sex’: m}, ........{‘ID’:1000000, ‘sex’: m}]
tempList =  [{‘ID’:1, ‘info’: xxxx}, ........{‘ID’:1000000, ‘info’: xxxx}]
2列表长度不等，tempList有100万条完整数据，dictList内可能大概有95万条用以下代码循环大概需要10分钟左右才能得出结果请问有什么改善的方式吗？

for i in dictList：
for k in tempList：
      if i[‘ID’] == k[‘ID’]:
         i[‘info’] = k[‘info’]
         tempList.remove(k)
         break

最佳答案

月排行榜 / 总排行榜

Croper

2020-2-4 10:34:07

双指针法：

def merge(dstlist:list,srclist:list):
dstlist.sort(key=lambda x:x['id'])
srclist.sort(key=lambda x:x['id'])
i=j=0
while i<len(dstlist) and j<len(srclist):
dst_id,src_id=dstlist[i]['id'],srclist[j]['id']
if dst_id<src_id:
j+=1
elif dst_id>src_id:
i+=1
else:
dstlist[i].update(srclist[j])
i+=1
j+=1

复制代码

跳转到最佳答案楼层

wp231957 · 发表于 2020-2-4 09:37:43

sex info是怎么个意思，不一致？？
核心思想就是长列表覆盖短列表？？？

snowzkr · 发表于 2020-2-4 09:42:33

wp231957 发表于 2020-2-4 09:37
sex info是怎么个意思，不一致？？
核心思想就是长列表覆盖短列表？？？

从2个地方取的值把id相同的dictList里填上另一个列表里的info情报短列表取长列表里相同Id的info的值
dictList最后成为这样结果即可 [{‘ID’:1, ‘sex’: xx, ‘info’: xxx}.....]

wp231957 · 发表于 2020-2-4 10:15:05

snowzkr 发表于 2020-2-4 09:42
从2个地方取的值把id相同的dictList里填上另一个列表里的info情报短列表取长列表里相同Id的info的值
...

给出点部分例子啊自己构造太麻烦

ll104567 · 发表于 2020-2-4 10:31:03

最好的办法就是更换一种数据结构。
这个列表里套字典的形式有点类似于json，推荐用pandas试一下
这里可以给你一个示例代码，当然也就额外需要去学一下pandas的Datarame的基本知识

In [146]: a
Out[146]: [{'id': 1, 'sex': 'm'}, {'id': 2, 'sex': 'f'}]
In [147]: b
Out[147]: [{'id': 1, 'info': 'xxxx'}]
In [148]: x = pd.DataFrame(a)
In [149]: y = pd.DataFrame(b)
In [150]: x
Out[150]:
id sex
0 1 m
1 2 f
In [151]: y
Out[151]:
id info
0 1 xxxx
In [152]: z = pd.merge(x,y,how='outer',on='id')
In [153]: z
Out[153]:
id sex info
0 1 m xxxx
1 2 f NaN

复制代码

当然你也可以强行再转回字典，只是比较费劲

In [154]: z.T.to_dict()
Out[154]:
{0: {'id': 1, 'sex': 'm', 'info': 'xxxx'},
1: {'id': 2, 'sex': 'f', 'info': nan}}

复制代码

其中的nan表示空数据的意思， np.nan

Croper · 发表于 2020-2-4 10:34:07

这个最佳答案由 Croper 给出，感谢 Croper 的回答。

单击隐藏图章

双指针法：

def merge(dstlist:list,srclist:list):
dstlist.sort(key=lambda x:x['id'])
srclist.sort(key=lambda x:x['id'])
i=j=0
while i<len(dstlist) and j<len(srclist):
dst_id,src_id=dstlist[i]['id'],srclist[j]['id']
if dst_id<src_id:
j+=1
elif dst_id>src_id:
i+=1
else:
dstlist[i].update(srclist[j])
i+=1
j+=1

复制代码

snowzkr · 发表于 2020-2-4 12:18:30

本帖最后由 snowzkr 于 2020-2-4 12:38 编辑

先谢谢各位了.
用pandas那个方法速度提升了很多. 目前采用这种办法处理.
双指针也是过了速度很快但是有很多数据匹配不到…
※ 双指针if和elif里的i和j对调后匹配上了…速度比pandas更快...

账号		自动登录	找回密码
密码			立即注册