xiaoxiaonao 发表于 2018-4-24 17:13:14

哪位大神知道如何将两个文件中根据相同序列ID将序列合并

我有A、B两个文件,序列ID按照顺序都一致,现在想将两个文件按照相同的ID将序列以换行符合并,求哪位大神指导
A文件
>1_CHROMOSOME3780765_3785720
tgttgaaagttaaacttgattttgaatcaagtttaattattggatcaattatccaataat
taattatggccaaatccaagttctagagttttctctagaaatatcatcatttccacctcc
>1_CHROMOSOME5691759_5696703
taaatacctaaccggtttgttccgggttaattaggttagatagggaaagtgtatataatg
tcttgtattcactctttaataagataacagaaacattttccactttcggctccttacatt
B文件
>1_CHROMOSOME3780765_3785720
tgttgaaagttaaacttgattttgaatcaagtttaattattggatcaattatccaataat
taatta
>1_CHROMOSOME5691759_5696703
ttgttaatacctaaccggtttgttccgggttaattaggttagatagagaaaatgtatata
atgtcttgtattca
我想得到C文件如下
>1_CHROMOSOME3780765_3785720
tgttgaaagttaaacttgattttgaatcaagtttaattattggatcaattatccaataat
taattatggccaaatccaagttctagagttttctctagaaatatcatcatttccacctcc
tgttgaaagttaaacttgattttgaatcaagtttaattattggatcaattatccaataat
taatta
>1_CHROMOSOME5691759_5696703
taaatacctaaccggtttgttccgggttaattaggttagatagggaaagtgtatataatg
tcttgtattcactctttaataagataacagaaacattttccactttcggctccttacatt
ttgttaatacctaaccggtttgttccgggttaattaggttagatagagaaaatgtatata
atgtcttgtattca
就是以换行符将相同序列ID的序列合并了,求大神指导

ba21 发表于 2018-4-24 18:48:20

#把文件转换成字典
def get_dict(file):
    t_dict = {}
    with open(file, "r") as f:
      txt = f.read()
      txt_list = txt.split('>')
      for item in txt_list:
            if item != '':
                item_list=item.splitlines()
                temp_txt = ''
                for i in range(len(item_list)):
                  if i == 0:
                        id_txt= '<' + item_list + '\n'
                  else:
                        temp_txt += item_list + '\n'
                t_dict = temp_txt
    return t_dict
            
#获取2两文件的内容,转换成字典保存
a_dict = get_dict("a.txt")
b_dict = get_dict("b.txt")

#把b_dict中的值合并到a_dict中
for k, v in b_dict.items():
    if k in a_dict.keys():
      a_dict += v

#把合并后的内容写入文件         
with open("c.txt", "w") as f:
    for k, v in a_dict.items():
      f.writelines(k)
      f.writelines(v)
页: [1]
查看完整版本: 哪位大神知道如何将两个文件中根据相同序列ID将序列合并