|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 Bio_Wolf 于 2017-4-20 14:32 编辑
有三个文本,
abs.txt 只有一列,就是关键字的列,比如:
T2G2
R3G5
Y7T6
U7T8.1
symobl.txt 含有十万行,20列左右,就是需要提取的文件,比如:
id TCGA1 TCGA2 TCGA3
T2G2
R3G5
Y7T6
U7T8.1
T2G2
R3G5
Y7T6.1
U7T8.1.1
T2G2
R3G5
Y7T6.1.1
U7T8.1
(说明:symbol.txt需要提取的是第一列的数据,完全匹配就选出,后面还有几十列是数据)
get.txt 需要得到的文件,和symbol.txt的表头和列一样,行是含有key.txt里面所有关键字的行
我写了一个get.py
代码:
f1=open('symbol.txt','r')
f2=open('abs.txt','r')
f3=open('get.txt','w')
keysList=f2.readlines()
for line in f1:
for key in keysList:
if key.strip() in line:
f3.write(line)
break
f3.close()
这样可以得到结果,但是结果里面有如U7T8.1.1这样的行,提取太多不相关的行,我需要提取U7T8.1却同时把U7T8.1.1也提取了
如何解决这个问题,请小甲鱼大神帮忙解答,谢谢
在线等大家回复 |
|