[已解决]提取指定字符前后内容的代码需要小改进，谢谢

Amgalang · 发表于 2021-11-19 16:29:27

待被提取文件B.txt内容如下：
AAA#BBB.
CCC#DDDD.
A&A:Yn#B&B:Yn.
C&C:Yn#D&D:Yn-YIN T0BCI NEREIDUL.
B&B:Yn#F&F:Yn.
G&G:Yn#①H&H:Yn②DDDDDDD.
其中符号“#”前是词，后面内容是其释义。

最终目标是：我想提取带有"&"符号词的释义内容中一些指定的词。具体实现时有几个小要求：

具体要求是：

1.我想代码读取我指定一个文件A.txt里的带有“&”符号的词做提取，这个A.txt里每一个词一行的格式。例如，A.txt内容是
A&A:Yn
C&C:Yn；那么代码就找这几个词在B.txt里的释义内容。A.txt中的词不在B.txt话需要全部另成一个“未登录词”集锦的txt。

2.提取时释义内容时不全提取，需要提取某些字符串前或后的带有符号“&”的词。具体而言：

2.1：B.txt内容中第三行数据的A&A:Yn词需要提取其B&B:Yn释义。因为它俩直接对应，释义内容中也没别的干扰词。若有则跳转下一个提取模式。
2.2：提取的数据中有重合关系，想分开提取。具体而言：原始文件中，”A&A:Yn“提取到了{A&A:Yn#B&B:Yn}，”B&B:Yn“也可以提取到{B&B:Yn#F&F:Yn}，那么意思是，A=B，B=C 所以A=C；我想得到：{A&A:Yn#B&B:Yn}，{B&B:Yn#F&F:Yn}这样的一列排序。能实现吗？
2.3：像原始文件里第六行所示，一些词与指定数字后面的词有关系，我想提取它。例如，第六行提取结果是{G&G:Yn#①H&H:Yn}，不提取②后面的词，因为其没有符号”&“。

目前实现的代码是（论坛友帮助的）：

def get(data):
if "&" not in data or "#" not in data:
      return
k, v = data.split("#")
if " " not in v:
      res = {k.strip():v.strip()}
elif "-YIN T0BCI NEREIDUL" in v:
      res = {k.strip():v[:v.find("-YIN T0BCI NEREIDUL")].strip()}
elif "-GI LABLAJV UJE" in v:
      res = {k.strip():v[:v.find("-GI LABLAJV UJE")].strip()}
elif "-UN HUNDUDHEL" in v:
      res = {k.strip():v[:v.find("-UN HUNDUDHEL")].strip()}
elif "UGEI" in v:
      res = {k.strip():v[v.find("UGEI")+4:].strip()}
elif "BVSV" in v:
      res = {k.strip():v[v.find("BVSV")+4:].strip()}
else:
      return
return res

if __name__ == "__main__":
text = """AAA#BBB.
CCC#DDDD.
A&A:Yn#B&B:Yn.
C&C:Yn#D&D:Yn-YIN T0BCI NEREIDUL.
B&B:Yn#F&F:Yn.
G&G:Yn#①H&H:Yn②DDDDDDD."""
for i in text.splitlines():
      if get(i):
         print(get(i))

需要添加上述具体要求1，2的内容，需要大家的支持，谢谢哒，期待您的回信。

最佳答案

月排行榜 / 总排行榜

lightninng

2021-11-19 16:29:28

本帖最后由 lightninng 于 2021-11-20 04:54 编辑

Amgalang 发表于 2021-11-20 00:41
正在学习当中，但是目前在赶一个小作业，做不出来了，若您能实现就太好了，期待回复。

按个人理解的意思写了出来，感觉不如意，但是凑合用吧。
注：代码里面
dictionary={key.strip():[item.strip(".") for item in re.split("[①②]",value.strip()) if item] for key,value in [line.split("#") for line in string.splitlines()]}
这一句中的"[①②]"这个字符串要把多个释义的所有出现过的数字标号都放进去，你给的里面只出现了①②,所以我只加了①②

你需要的输出在output字典里面，大概这样

{'A&A:Yn': ['A&A:Yn#B&B:Yn', 'B&B:Yn#F&F:Yn'],
'C&C:Yn': ['C&C:Yn#D&D:Yn-YIN T0BCI NEREIDUL'],
'G&G:Yn': ['G&G:Yn#H&H:Yn'],
'd&d': []}

复制代码

未登录词在missing_word列表里面，大概这样

['d&d']

复制代码

只能帮你到这里了~~
代码如下：

import time
import re
def get_dictionary(string):
#函数用于从字典文本中获取词和对应的释义
if "&" not in string or "#" not in string:
return {}
dictionary={key.strip():[item.strip(".") for item in re.split("[①②]",value.strip()) if item] for key,value in [line.split("#") for line in string.splitlines()]}
return dictionary
def get_interpretation(word,dictionary,result):
#函数用于在dictionary中查询word的释义，结果添加到result列表中
interpre_list = dictionary.get(word,[])
if not interpre_list:
return []
for item in interpre_list:
if "&" in item:
result.append(f"{word}#{item}")
get_interpretation(item,dictionary,result)
if __name__ == "__main__":
#textA为A.txt内容，textB同理
textA="""A&A:Yn
C&C:Yn
G&G:Yn
d&d"""
textB = """AAA#BBB.
CCC#DDDD.
A&A:Yn#B&B:Yn.
C&C:Yn#D&D:Yn-YIN T0BCI NEREIDUL.
B&B:Yn#F&F:Yn.
G&G:Yn#①H&H:Yn②DDDDDDD."""
#从字符串中获kye为词和value其对应的所有释义的列表的字典
dictionary=get_dictionary(textB)
#控制台打印获取到的字典内容
print("字典内容为：")
for k,v in dictionary.items():
print(f"{k}:{v}")
#获取释义
output={}#存放查询结果：key为查询的词，value为查询到的所有释义（包含等价词义）
for word in textA.splitlines():
if "&" in word:
output[word]=[]
get_interpretation(word,dictionary,output[word])
#控制台打印输出结果
missing_word =[] #存放未登录词
print("查询结果为：")
for key,value in output.items():
if not value:
missing_word.append(key) #满足需求1
else:
print(f"{key}释义：{str(value)}")
#控制台打印输出未登录词
print(f"未登录词条：\n{missing_word}")

复制代码

运行后控制台结果：

字典内容为：
AAA:['BBB']
CCC:['DDDD']
A&A:Yn:['B&B:Yn']
C&C:Yn:['D&D:Yn-YIN T0BCI NEREIDUL']
B&B:Yn:['F&F:Yn']
G&G:Yn:['H&H:Yn', 'DDDDDDD']
查询结果为：
A&A:Yn释义：['A&A:Yn#B&B:Yn', 'B&B:Yn#F&F:Yn']
C&C:Yn释义：['C&C:Yn#D&D:Yn-YIN T0BCI NEREIDUL']
G&G:Yn释义：['G&G:Yn#H&H:Yn']
未登录词条：
['d&d']

复制代码

跳转到最佳答案楼层

lightninng · 发表于 2021-11-19 16:29:28

这个最佳答案由 lightninng 给出，感谢 lightninng 的回答。

单击隐藏图章

本帖最后由 lightninng 于 2021-11-20 04:54 编辑

Amgalang 发表于 2021-11-20 00:41
正在学习当中，但是目前在赶一个小作业，做不出来了，若您能实现就太好了，期待回复。

按个人理解的意思写了出来，感觉不如意，但是凑合用吧。
注：代码里面
dictionary={key.strip():[item.strip(".") for item in re.split("[①②]",value.strip()) if item] for key,value in [line.split("#") for line in string.splitlines()]}
这一句中的"[①②]"这个字符串要把多个释义的所有出现过的数字标号都放进去，你给的里面只出现了①②,所以我只加了①②

你需要的输出在output字典里面，大概这样

{'A&A:Yn': ['A&A:Yn#B&B:Yn', 'B&B:Yn#F&F:Yn'],
'C&C:Yn': ['C&C:Yn#D&D:Yn-YIN T0BCI NEREIDUL'],
'G&G:Yn': ['G&G:Yn#H&H:Yn'],
'd&d': []}

复制代码

未登录词在missing_word列表里面，大概这样

['d&d']

复制代码

只能帮你到这里了~~
代码如下：

import time
import re
def get_dictionary(string):
#函数用于从字典文本中获取词和对应的释义
if "&" not in string or "#" not in string:
return {}
dictionary={key.strip():[item.strip(".") for item in re.split("[①②]",value.strip()) if item] for key,value in [line.split("#") for line in string.splitlines()]}
return dictionary
def get_interpretation(word,dictionary,result):
#函数用于在dictionary中查询word的释义，结果添加到result列表中
interpre_list = dictionary.get(word,[])
if not interpre_list:
return []
for item in interpre_list:
if "&" in item:
result.append(f"{word}#{item}")
get_interpretation(item,dictionary,result)
if __name__ == "__main__":
#textA为A.txt内容，textB同理
textA="""A&A:Yn
C&C:Yn
G&G:Yn
d&d"""
textB = """AAA#BBB.
CCC#DDDD.
A&A:Yn#B&B:Yn.
C&C:Yn#D&D:Yn-YIN T0BCI NEREIDUL.
B&B:Yn#F&F:Yn.
G&G:Yn#①H&H:Yn②DDDDDDD."""
#从字符串中获kye为词和value其对应的所有释义的列表的字典
dictionary=get_dictionary(textB)
#控制台打印获取到的字典内容
print("字典内容为：")
for k,v in dictionary.items():
print(f"{k}:{v}")
#获取释义
output={}#存放查询结果：key为查询的词，value为查询到的所有释义（包含等价词义）
for word in textA.splitlines():
if "&" in word:
output[word]=[]
get_interpretation(word,dictionary,output[word])
#控制台打印输出结果
missing_word =[] #存放未登录词
print("查询结果为：")
for key,value in output.items():
if not value:
missing_word.append(key) #满足需求1
else:
print(f"{key}释义：{str(value)}")
#控制台打印输出未登录词
print(f"未登录词条：\n{missing_word}")

复制代码

运行后控制台结果：

字典内容为：
AAA:['BBB']
CCC:['DDDD']
A&A:Yn:['B&B:Yn']
C&C:Yn:['D&D:Yn-YIN T0BCI NEREIDUL']
B&B:Yn:['F&F:Yn']
G&G:Yn:['H&H:Yn', 'DDDDDDD']
查询结果为：
A&A:Yn释义：['A&A:Yn#B&B:Yn', 'B&B:Yn#F&F:Yn']
C&C:Yn释义：['C&C:Yn#D&D:Yn-YIN T0BCI NEREIDUL']
G&G:Yn释义：['G&G:Yn#H&H:Yn']
未登录词条：
['d&d']

复制代码

Amgalang · 发表于 2021-11-19 16:33:49

因为等级关系，最多只能悬赏10鱼币，所以大家见谅，谢谢

lightninng · 发表于 2021-11-19 23:27:39

Amgalang 发表于 2021-11-19 16:33
因为等级关系，最多只能悬赏10鱼币，所以大家见谅，谢谢

建议楼主上真实场景里面的文件内容，你这个文本感觉像是自己编的，让人摸不着头脑，提的需求，也不是说看不懂，大多数人的感觉是太长不看吧。想办法用最少的语言把事情说清楚，仅个人建议，如有冒犯，多包涵~~~

Amgalang · 发表于 2021-11-20 00:12:21

lightninng 发表于 2021-11-19 23:27
建议楼主上真实场景里面的文件内容，你这个文本感觉像是自己编的，让人摸不着头脑，提的需求，也不是说看 ...

谢谢您的回复，真实场景里的语料因为不是汉语的所以写出来字符会更长且相对较乱，所以我编了这个语料。您说到点儿上了，确实内容有点多，我会努力修改的，也希望您有空时帮改进下谢谢哒。

lightninng · 发表于 2021-11-20 00:31:18

Amgalang 发表于 2021-11-20 00:12
谢谢您的回复，真实场景里的语料因为不是汉语的所以写出来字符会更长且相对较乱，所以我编了这个语料。您 ...

字符串查找问题的终极工具就是正则表达式，虽然没太看明白你的意思，但是感觉上你说的问题应该可以用正则表达式来处理，百度学习一下没有坏处，因为平时 Python中字符串相关处理是一个非常常见的场景，如果能活用正则表达式，这类问题很容，可能就是一两句代码的事情

Amgalang · 发表于 2021-11-20 00:41:47

lightninng 发表于 2021-11-20 00:31
字符串查找问题的终极工具就是正则表达式，虽然没太看明白你的意思，但是感觉上你说的问题应该可以用正 ...

正在学习当中，但是目前在赶一个小作业，做不出来了，若您能实现就太好了，期待回复。

lightninng · 发表于 2021-11-20 00:51:11

Amgalang 发表于 2021-11-20 00:41
正在学习当中，但是目前在赶一个小作业，做不出来了，若您能实现就太好了，期待回复。

想要解决实际问题，还是上实际的B.txt内容吧

kaohsing · 发表于 2021-11-20 06:51:47

因为有360行，或者更多行业，
一个人也就熟悉或者接触一两个行业，其他的就隔着山。
即时你说破天，别人还是不懂。
最简单之法就是列出各种情况，标出在各种情况之下所需数据。
最后上点真是数据。

qq1151985918 · 发表于 2021-11-20 06:57:31

class Solution:
def __init__(self):
self.res = []
def refresh(self):
ks, vs = [], []
for r in self.res:
ks += r.keys()
vs += r.values()
while True:
for v in vs:
if v in ks:
for r in self.res:
if v in r.keys() and len(r) == 1:
d = r.copy()
self.res.remove(r)
break
for r in self.res:
if v in r.values():
r.update(d)
break
ks.remove(v)
break
else:
break
def get(self, data):
for i in data:
if "&" not in i or "#" not in i:
continue
k, v = i.replace(".", "").split("#")
if "①" in v:
v = v.replace("①", "**").replace("②", "**").replace("③", "**").replace("④", "**").replace("⑤", "**")
v = [i for i in v.split("**") if "&" in i][0]
if " " not in v:
r = {k.strip():v.strip()}
elif "-YIN T0BCI NEREIDUL" in v:
r = {k.strip():v[:v.find("-YIN T0BCI NEREIDUL")].strip()}
elif "-GI LABLAJV UJE" in v:
r = {k.strip():v[:v.find("-GI LABLAJV UJE")].strip()}
elif "-UN HUNDUDHEL" in v:
r = {k.strip():v[:v.find("-UN HUNDUDHEL")].strip()}
elif "UGEI" in v:
r = {k.strip():v[v.find("UGEI")+4:].strip()}
elif "BVSV" in v:
r = {k.strip():v[v.find("BVSV")+4:].strip()}
else:
continue
if r not in self.res:
self.res.append(r)
self.refresh()
return self.res
if __name__ == "__main__":
text1 = """AAA#BBB.
CCC#DDDD.
CINGGIS&HAGAN:Yn#GAR-VN&USUG:Yn.
SINJI&CINAR:Yn#AGVLA-YIN&0R0I:Yn-YIN T0BCI NEREIDUL.
OL&H0G0LA:Yn#EMEGE&EJI:Yn-GI LABLAJV UJE.
BVSIGV&TURGEN:Yn#CAGAN&IDEGE:Yn-UN HUNDUDHEL.
LABDAGVN&T0GTAGVN:Ya#CAGAN UGEI GALTV&AGVLA:Yn.
G0Y0&SAYIHAN:Ya#JUI BVSV NEYIGEM&JIRVMTV:Ya.
AAA&AA:Yn#BBB&BB:Yn.
BBB&BB:Yn#CCC&CC:Yn.
CCC&CC:Yn#DDD&DD:Yn."""
s = Solution()
result1 = s.get(text1.splitlines())
print(result1)
print("-----选择文件-----")
f = open("test.txt", "r", encoding="utf-8")
text2 = f.readlines()
f.close()
s = Solution()
result2 = s.get(text2)
print(result2)

复制代码

qq1151985918 · 发表于 2021-11-20 07:01:30

我刚刚回复了，应该就是你想要的结果，好像在审核。

Amgalang · 发表于 2021-11-20 07:31:11

lightninng 发表于 2021-11-20 01:41
按个人理解的意思写了出来，感觉不如意，但是凑合用吧。
注：代码里面
dictionary={key.strip():",valu ...

早上好，跟您不仅学到了代码也学到了一股认真，细致的态度，收到您的代码了，正在实验，真心感谢您，wish you have a nice day

Amgalang · 发表于 2021-11-20 07:32:48

kaohsing 发表于 2021-11-20 06:51
因为有360行，或者更多行业，
一个人也就熟悉或者接触一两个行业，其他的就隔着山。
即时你说破天，别人 ...

就是呢，我通过这两次提问学到了，以后会按您说的办，这样会省很多时间，谢谢指点和帮助，wish you have a nice day

Amgalang · 发表于 2021-11-20 07:33:58

qq1151985918 发表于 2021-11-20 07:01
我刚刚回复了，应该就是你想要的结果，好像在审核。

哈哈哈，还以为您不继续帮了，期待您发的内容，wish you have a nice day

qq1151985918 · 发表于 2021-11-20 17:56:48

Amgalang 发表于 2021-11-20 07:33
哈哈哈，还以为您不继续帮了，期待您发的内容，wish you have a nice day

没怎么在线，这几天工作也比较忙。审核已经过了，自己看看吧

账号		自动登录	找回密码
密码			立即注册

[已解决]提取指定字符前后内容的代码需要小改进，谢谢

最佳答案

浏览过的版块