鱼C论坛

 找回密码
 立即注册
查看: 13067|回复: 7

[已解决]list.append()运行到后面越来越慢?

[复制链接]
发表于 2018-6-25 09:46:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
代码如下
  1. bf = pysam.AlignmentFile(sys.argv[1], 'rb')
  2. results = pysam.AlignmentFile("deduplex.bam","wb",template=bf)
  3. readed = []
  4. for r in bf:
  5.     name = r.query_name.split('|')[1]
  6.     UMI1 = re.findall(r'.{8}', name)[0]
  7.     UMI2 = re.findall(r'.{8}', name)[1]
  8.     tag1 = UMI1,UMI2,r.pos,r.pnext
  9.     tag2 = UMI2,UMI1,r.pos,r.pnext
  10.     if tag1 not in readed and tag2 not in readed:
  11.         results.write(r)
  12.         readed.append(tag1)
  13.     else:
  14.         continue
  15. results.close()
  16. bf.close()
复制代码


数据比较大,运行之后发现这个代码跑得特别慢,想了一下会不会问题出在append这一步?网上查了一下,append越到后面运行速度会变慢?有人说extend效率会高点,但是试了一下,用extend连接达不到我的目的
用append,列表是[(),()]这种格式
用extend,就全部连在一起了
请问一下有没有什么方法可以提高运行效率啊?
最佳答案
2018-6-26 12:39:26
colinshi 发表于 2018-6-25 15:09
我实测下来list是最快的,比set和dict都快。

set必须有重复的才快,如果没有重复的情况下list最快。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-6-25 10:21:39 | 显示全部楼层
数据量大考虑用numpy
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-6-25 12:31:50 | 显示全部楼层
python的 . 函数是占用资源的,如果是大批量的循环append会非常耗资源,可以考虑把append赋值,再循环:
  1. add=readed.append
  2. for i in ...:
  3.     add(i)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-6-25 15:04:04 | 显示全部楼层
冷小漠 发表于 2018-6-25 12:31
python的 . 函数是占用资源的,如果是大批量的循环append会非常耗资源,可以考虑把append赋值,再循环:

我把list改成了set,再用set.add,好像速度快了不少
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-6-25 15:09:46 | 显示全部楼层
本帖最后由 colinshi 于 2018-6-25 15:25 编辑

我实测下来list是最快的,比set和dict都快。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-6-25 17:43:05 | 显示全部楼层
colinshi 发表于 2018-6-25 15:09
我实测下来list是最快的,比set和dict都快。

啊,但是我跑下来,set比list快得多
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-6-26 11:01:19 | 显示全部楼层
不知道唉 目前得代码数据量还小  map reduce 了解一下?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-6-26 12:39:26 | 显示全部楼层    本楼为最佳答案   
colinshi 发表于 2018-6-25 15:09
我实测下来list是最快的,比set和dict都快。

set必须有重复的才快,如果没有重复的情况下list最快。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-7-6 13:02

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表