[已解决]用已建立好的词典找目标文件中的匹配项小报错，望解答给您鱼币谢谢

Amgalang · 发表于 2020-2-14 22:30:24

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

大家过年好！！！
      我建立了一个词典1.txt，其内容大致是：
Y_A,Fb11
Y_E,Fb11
VY_A,Fb11
0Y_A,Fb11
UY_E,Fb11
（Key是逗号前的（词缀），Value是逗号后的内容（词缀标记））

然后我想在我的目标文件2.txt中找到匹配项目，匹配的要求是，再2.txt文件中以词的后面开始匹配，因为1.txt是词缀文件。我的2.txt大致内容：
YABVY_A
AAAUY_E
VVVVY_A
SA0Y_A

最终想要得到 YABV/Y_A(Fb11),AAA/UY_E(Fb11)这样的以“/”区分并标注的文件。谢谢您了。我的鱼币不多，希望给新手解答。

以下是我做的词典的代码尝试：
dicFile = open('1.txt', 'r')  # 打开数据
print('开始装载数据...')
txtDict = {}  # 建立字典
while True:
line = dicFile.readline()
if line == '':
      break
index = line.find(',')  # 以“，”键为分割
key = line[:index]
value = line[index:]
txtDict[key] = value  # 加入字典
dicFile.close()

最佳答案

月排行榜 / 总排行榜

shangjiecat

2020-2-15 00:37:30

本帖最后由 shangjiecat 于 2020-2-15 15:43 编辑

#1.txt字典建立部分
print('开始装载数据...')
with open('1.txt', 'r') as dicFile:
txtDict = {} # 建立字典
for line in dicFile:
li = line.split(',')
txtDict[li[0]] = li[1].strip("\n") # 加入字典
#匹配部分
search = open('2.txt', 'r')
for line in search: #对2.txt的每一行单独查找
line = line.strip("\n") #去掉换行号
part = '' #初始化判断条件
x = 0
for key in txtDict: #从字典里遍历键
length = len(key) #获取字典键长
if key in line: #如果一行的字符串里有key值，把key变成0(如YABVY_A变成YAB0)
nline = line.replace(key,'0')
else: #没有则查找下一个键
continue
if nline[-1] == '0' and x < length: #如果末尾有0，说明替换成功，判断新后缀长度与已存后缀哪个长
nline = nline.replace('0',key,line.count(key)-1) #增加防止VY_AVY_AVY_A类的出现，因此反替换
#（最后一个不替换，保留）
x = length #因为被替换，把该后缀长度存入x，用于判断是否有更长的后缀
part = nline[:-1] +"/"+ key + "(%s)"%txtDict[key] #输出需要的格式字符串
inf = line if part == '' else part #如果没有则直接输出该行的判断
print(inf,end = ',')
search.close()

复制代码

输出如下

开始装载数据...
YAB/VY_A(Fb11),AAA/UY_E(Fb11),VVV/VY_A(Fb11),SA/0Y_A(Fb11),SSSO_E, #最后一个是不存在的情况，应该是这个意思吧？

复制代码

考虑如果楼主是初学者原因，语句没有难理解的那种，然后就得用到很多循环，代码显得层层叠叠，不知道会不会有更好的想法，也不知道能不能满足楼主需求，如有疑问或要改进，欢迎回复！

跳转到最佳答案楼层

shangjiecat · 发表于 2020-2-15 00:37:30

这个最佳答案由 shangjiecat 给出，感谢 shangjiecat 的回答。

单击隐藏图章

本帖最后由 shangjiecat 于 2020-2-15 15:43 编辑

#1.txt字典建立部分
print('开始装载数据...')
with open('1.txt', 'r') as dicFile:
txtDict = {} # 建立字典
for line in dicFile:
li = line.split(',')
txtDict[li[0]] = li[1].strip("\n") # 加入字典
#匹配部分
search = open('2.txt', 'r')
for line in search: #对2.txt的每一行单独查找
line = line.strip("\n") #去掉换行号
part = '' #初始化判断条件
x = 0
for key in txtDict: #从字典里遍历键
length = len(key) #获取字典键长
if key in line: #如果一行的字符串里有key值，把key变成0(如YABVY_A变成YAB0)
nline = line.replace(key,'0')
else: #没有则查找下一个键
continue
if nline[-1] == '0' and x < length: #如果末尾有0，说明替换成功，判断新后缀长度与已存后缀哪个长
nline = nline.replace('0',key,line.count(key)-1) #增加防止VY_AVY_AVY_A类的出现，因此反替换
#（最后一个不替换，保留）
x = length #因为被替换，把该后缀长度存入x，用于判断是否有更长的后缀
part = nline[:-1] +"/"+ key + "(%s)"%txtDict[key] #输出需要的格式字符串
inf = line if part == '' else part #如果没有则直接输出该行的判断
print(inf,end = ',')
search.close()

复制代码

输出如下

开始装载数据...
YAB/VY_A(Fb11),AAA/UY_E(Fb11),VVV/VY_A(Fb11),SA/0Y_A(Fb11),SSSO_E, #最后一个是不存在的情况，应该是这个意思吧？

复制代码

考虑如果楼主是初学者原因，语句没有难理解的那种，然后就得用到很多循环，代码显得层层叠叠，不知道会不会有更好的想法，也不知道能不能满足楼主需求，如有疑问或要改进，欢迎回复！

txxcat · 发表于 2020-2-15 01:10:36

楼主的规则不明，第一条结果是：YABV/Y_A(Fb11)而不是YAB/VY_A(Fb11)，为什么和Y_A匹配而不是VY_A匹配？不说明这点，后半部的匹配工作是无法完成的。

Amgalang · 发表于 2020-2-15 11:21:32

shangjiecat 发表于 2020-2-15 00:37
输出如下

考虑如果楼主是初学者原因，语句没有难理解的那种，然后就得用到很多循环，代码显得层层叠叠 ...

1.您好，真心谢谢您，看了您的回复后我又尝试了很多，最终得到了终极的语法规则。其语法规则是，从一个词的后面，也就是反向匹配，匹配时需要最大匹配，最大匹配的意思是，不要从一个词的后面-1的匹配。哈哈哈，因为是新手说的可能不是标准，我尽量表达清楚。
2.用例子说的话：AAAVY_A这个词，如果每次从后面去掉一个字母（-1）的原则匹配的话最终是能匹配到Y_A这个词缀，但是词缀词典里有VY_A这个词缀。所以我想从反向的去最大匹配。这样就能解决怎么匹配的问题了。
3.考虑到一个词可能有多个词缀，所以最终我想加一个循环，从一个词的后面开始多次最大匹配标记。是否能解决呢？真心谢谢，大神您就当练练手吧哈哈哈，谢谢，谢谢

Amgalang · 发表于 2020-2-15 11:25:51

txxcat 发表于 2020-2-15 01:10
楼主的规则不明，第一条结果是：YABV/Y_A(Fb11)而不是YAB/VY_A(Fb11)，为什么和Y_A匹配而不是VY_A匹配？不 ...

1.您好，谢谢您的回复，您的回复点醒了我，经过多次尝试，我确定的最终的语法规则，其语法规则是从每个词的后面，也就是反面的匹配，匹配是需要最大匹配，最大匹配的意思是，不要从一个词的后面-1的匹配。哈哈哈，因为是新手说的可能不是标准，我尽量表达清楚。
2.用例子说的话：AAAVY_A这个词，如果每次从后面去掉一个字母（-1）的原则匹配的话最终是能匹配到Y_A这个词缀，但是词缀词典里有VY_A这个词缀。所以我想从反向的去最大匹配。这样就能解决怎么匹配的问题了。
3.考虑到一个词可能有多个词缀，所以最终我想加一个循环，从一个词的后面开始多次最大匹配标记。是否能解决呢？真心谢谢，大神您就当练练手吧哈哈哈，谢谢，谢谢

shangjiecat · 发表于 2020-2-15 12:41:59

本帖最后由 shangjiecat 于 2020-2-15 12:51 编辑

Amgalang 发表于 2020-2-15 11:21
1.您好，真心谢谢您，看了您的回复后我又尝试了很多，最终得到了终极的语法规则。其语法规则是，从一 ...

我的代码已经实现最大匹配了，
x < length的条件就是寻找最长的词缀，如果找到了就会把短词缀替换，不信你试试（如果你觉得代码符合条件了，希望在代码那给个最佳答案哦

）
（PS：在代码那加了个with打开文件，写了这个文件会不用时自动关闭）

Amgalang · 发表于 2020-2-15 14:38:35

shangjiecat 发表于 2020-2-15 12:41
我的代码已经实现最大匹配了，
x < length的条件就是寻找最长的词缀，如果找到了就会把短词缀替换，不 ...

1.谢谢，已给予最佳答案，正在学习代码中，因为是初学者，想请教两个问题，这个代码是反向匹配的吗？希望您有空时写个详细注释，哈哈哈。
2.目前代码运行起来后，9000个数据的文件跑起来，越来越慢了。效果是：《$00BIN/G(Fi3),未找到匹配项,未找到匹配项,未找到匹配项,未找到匹配项,$0BT0R/0GAD(Fi3),$/0G(Fi3)》......这个样子，能否把“未找到匹配项去掉，把未找到匹配项的词原封不动的显示出来呢”。这是最后一问了，谢谢谢谢

shangjiecat · 发表于 2020-2-15 15:22:23

本帖最后由 shangjiecat 于 2020-2-15 16:36 编辑

Amgalang 发表于 2020-2-15 14:38
1.谢谢，已给予最佳答案，正在学习代码中，因为是初学者，想请教两个问题，这个代码是反向匹配的吗？希望 ...

注释已经写了，你可以再研究研究，你要的原样输出也改了，还有刚刚的代码value输出有错误，已改正
另外，字典部分若你的文档无更改，为了避免重复运行，可以把字典先存到一个文件，避免重复存储，在匹配板块再打开存储文件读取加载

Amgalang · 发表于 2020-2-15 20:26:18

shangjiecat 发表于 2020-2-15 15:22
注释已经写了，你可以再研究研究，你要的原样输出也改了，还有刚刚的代码value输出有错误，已改正
另 ...

1.您好，我想认识下您，我是一名在读自然语言处理博士生，我更加侧重语言学，所以计算机方面弱，如若可以以后咱们一起做项目。我的微信号：M1556434735。

2.不好意思，我厚着脸皮在请教您一个问题，见谅见谅，希望满足一个初学者，哈哈哈。刚刚我发现了一个重要缺陷，就是，如果不能在一个词内重复匹配，那就无意义了。意识就是说，如：YAB0VY_AY_A一词，期望的分析是YAB0/VY_A/Y_A(Fb11,Fb11)一个词可以多次分析直到无匹配项。这样就真的很完美了，我自己在乱查百度，希望您有空指点代码，谢谢谢谢谢谢

Amgalang · 发表于 2020-2-15 20:37:57

shangjiecat 发表于 2020-2-15 15:22
注释已经写了，你可以再研究研究，你要的原样输出也改了，还有刚刚的代码value输出有错误，已改正
另 ...

不好意思，不好意思，您先别考虑我回复您的《2.》我的语法有误。不好意思。

shangjiecat · 发表于 2020-2-16 12:44:22

search = open('2.txt', 'r')
def parting(s):
global d_li
part = '' #初始化判断条件
x = 0
y = len(s)-1
for key in txtDict: #从字典里查找键与值
length = len(key) #获取字典键长
if key in s and key != s:
if s.count(key) == 1:
nline = s.replace(key,'*')
else:
nline = s.replace(key,'*',s.count(key)-1)
l_index = nline.index('*')
else:
continue
if y > l_index and x < length: #判断新后缀长度与已存后缀哪个长
x = length #因为被替换，把该后缀长度存入x，用于判断是否有更长的后缀
y = l_index
z = len(nline)-1
if y == z:
part = nline[:-1] +"/"+ key #输出需要的格式字符串
elif y != 0:
part = nline[:y] +'/' +key +'%'
else:
part = key +'%'
n_key = key
n_line = nline[nline.index('*')+1:]
if '/' in part or '%' in part:
d_li.append(txtDict[n_key])
if '%' in part:
partx = parting(n_line)
if partx == '':
part += n_line
else:
part += partx
if '%' in part:
part = part.replace('%','/')
return part
for line in search: #对2.txt的每一行单独查找
line = line.strip("\n") #去掉换行号
d_li = []
part = parting(line)
part += str(tuple(d_li))
inf = line if '/' not in part else part
print(inf,end = ',')
search.close()

复制代码

匹配部分修改

aironeng · 发表于 2020-12-16 08:59:05

学习一下

账号		自动登录	找回密码
密码			立即注册

[已解决]用已建立好的词典找目标文件中的匹配项 小报错，望解答 给您鱼币 谢谢

马上注册，结交更多好友，享用更多功能^_^

[已解决]用已建立好的词典找目标文件中的匹配项小报错，望解答给您鱼币谢谢