[已解决]特定词汇在B.txt中出现时标记的实现求助谢谢

Amgalang · 发表于 2021-12-10 21:24:30

我有两个"utf-8"的文件分别是A.txt和B.txt，A里面有几百个词，一词一行的格式；B里是数字与词的文本，每个词后面都有“空格+.(英文句号）"一行可能有多个这样的词集。

想实现A.txt中的词若出现在B.txt那么给该词后面加个":Yn"的标注。示例如下：

A.txt:
AA
CC
DF

B.txt
1#2#3#:AA . CC . BB .
3# 4#5#DF . AA . 1#2#3#:AA . CC .

期望得到的结果：
1#2#3#:AA:Yn . CC:Yn . BB .
3# 4#5#DF:Yn . AA:Yn . 1#2#3#:AA:Yn . CC:Yn .

因为还是个小白，所以需要大佬的帮助，希望您练个手实现一下谢谢哒，我张候目前的等级有限只能发 10个鱼币，请谅解。谢谢。

最佳答案

月排行榜 / 总排行榜

疾风怪盗

2021-12-10 21:24:31

with open('A.txt',encoding='utf-8',mode='r') as f:
data_a=[n.replace('\n','') for n in f.readlines()]
print(data_a)
with open('B.txt',encoding='utf-8',mode='r') as f:
data_b=[n.replace('\n','') for n in f.readlines()]
data_b='******'.join(data_b)
print(data_b)
import re
new_data=[]
temp_b=data_b
for temp_a in data_a:
#print(temp_a)
repl=temp_a+':Yn'
temp_b=re.sub(f'({temp_a}).*?',repl,temp_b)
#print(data_b)
new_data=temp_b.split('******')
print(new_data)

复制代码

跳转到最佳答案楼层

疾风怪盗 · 发表于 2021-12-10 21:24:31

with open('A.txt',encoding='utf-8',mode='r') as f:
data_a=[n.replace('\n','') for n in f.readlines()]
print(data_a)
with open('B.txt',encoding='utf-8',mode='r') as f:
data_b=[n.replace('\n','') for n in f.readlines()]
data_b='******'.join(data_b)
print(data_b)
import re
new_data=[]
temp_b=data_b
for temp_a in data_a:
#print(temp_a)
repl=temp_a+':Yn'
temp_b=re.sub(f'({temp_a}).*?',repl,temp_b)
#print(data_b)
new_data=temp_b.split('******')
print(new_data)

复制代码

lightninng · 发表于 2021-12-10 22:36:22

提供一个可能的思路，直接把B.txt里面的所有内容用read方法读取成一个字符串string_b，然后用A.txt里面的所有词依次作为分隔符，用split方法把string_b切片，比如A.txt的第一个词是AA，

split_list=string_b.split("AA")

复制代码

当split_list只有一项时，表示B.txt中没有AA这个词，否则split_list就会有多项，比如你的例子中split_list的值就应该是["1#2#3#:"," . CC . BB .\n3# 4#5#DF . "," . 1#2#3#:AA . CC ."]三项，然后用join方法以"AA:Yn"作为连接符把他们连接起来就行了，

"AA:Yn".join(split_list)

复制代码

只提供一个思路，具体的实现，楼主最近应该一直在做这个项目吧，相信完整的实现对你来说不是难事

阿奇_o · 发表于 2021-12-10 23:16:18

with open('A.txt') as f:
words = [l[:-1] if l[-1]=='\n' else l for l in f]
# print(words)
with open('B.txt') as f:
bStr = ''.join(f.readlines())
# print(bStr, '\n-----------------')
for word in words:
# print(word)
if word in bStr:
bStr = bStr.replace(word, word + ":Yn")
print(bStr) # 结果

复制代码

Amgalang · 发表于 2021-12-10 23:47:25

lightninng 发表于 2021-12-10 22:36
提供一个可能的思路，直接把B.txt里面的所有内容用read方法读取成一个字符串string_b，然后用A.txt里面的所 ...

感谢您的关注和给予的思路，不过我是个文科生，确实这方面的知识欠缺，也没多实践，最近就是在写个小论文，在查些例子，哈哈哈谢谢哒

Amgalang · 发表于 2021-12-10 23:57:32

阿奇_o 发表于 2021-12-10 23:16

感谢您的回复，代码跑完后确实能得到我的结果，但是我在别的文档上跑后发现问题了，具体而言：

新的A.txt内容是两个词用“=”号链接的词组，一词一行的模式，如下图A.txt所示。目前出现的情况是代码跑完后如notepad++所示：
代码把A.txt中一个词的=号前面的也当作了关键词，然后在B.txt里标注了，所以在B.txt里很多词都标注在中间了，且因为关键词不是“整体的词”在查找，所以在B.txt里出现了好多无效标注。

希望您能稍改下代码，谢谢哒。

阿奇_o · 发表于 2021-12-11 03:13:32

Amgalang 发表于 2021-12-10 23:57
感谢您的回复，代码跑完后确实能得到我的结果，但是我在别的文档上跑后发现问题了，具体而言：

新的A ...

词组？关键词不是"整体的词"？。。
你的意思是，相当于是把像"东张西望"和"东倒西歪"里的 "西"字做标记，而且还要区分是前者还是后者？
——不能全部替换，只允许标记（替换）特定意思的 词组里的某部分字符？。。

那，那你这像自然语言处理属于是了，暂时爱莫能助。

ps: 或许我理解有误，还不太理解你的问题描述~ 自然语言，的确就是既强大又苍白~

Amgalang · 发表于 2021-12-11 08:29:02

阿奇_o 发表于 2021-12-11 03:13
词组？关键词不是"整体的词"？。。
你的意思是，相当于是把像"东张西望"和"东倒西歪"里的 "西"字做 ...

可能是我说的没明白，不是的你想的那样，想复杂了，我的想法是整词整词的匹配，但是目前代码跑完后显示的是 “一半词”的匹配，未能整词匹配。我的整词是一行一个词的模式在保存，中间有“=”号在做连接。例如:

A.txt
东=张=西=望（一行可能有多个=符号，也可能没有）

B.txt
4#5#DF . AA . 1#2#3#:AA . CC . 东=张=西=望 .

希望得到的结果是：
4#5#DF . AA . 1#2#3#:AA . CC . 东=张=西=望:Yn .

而目前代码·跑完后显示是：
4#5#DF . AA . 1#2#3#:AA . CC . 东:Yn张:Yn西:Yn望:Yn .（这种类型）

您看一看，谢谢期待回复。

阿奇_o · 发表于 2021-12-11 15:34:26

Amgalang 发表于 2021-12-11 08:29
可能是我说的没明白，不是的你想的那样，想复杂了，我的想法是整词整词的匹配，但是目前代码跑完后显示 ...

我原来的代码就是按行分割出"一行一个词"呀。。你这里跑出来的怎么是按"="来分割？。。

——你自己折腾吧，搞不清楚你到底要什么样的效果。。

先自己搞清楚文本读取的各种操作吧，然后你想要什么效果，自己试验看看能不能实现。
实在不行，再把完整代码和文本数据，以及自己的需求和思路，都发上来。
或直接在身边找熟悉python的朋友来指导指导。

疾风怪盗 · 发表于 2021-12-11 15:43:00

试试正则来匹配吧

Amgalang · 发表于 2021-12-11 17:30:06

阿奇_o 发表于 2021-12-11 15:34
我原来的代码就是按行分割出"一行一个词"呀。。你这里跑出来的怎么是按"="来分割？。。

——你自己折 ...

刚试成功了，代码没错误，原来是A.txt包含了一些不需要标注的词，让我误以为分割的不对，哈哈哈以后得好好看文件了，再次感谢。

Amgalang · 发表于 2021-12-11 17:31:01

疾风怪盗发表于 2021-12-11 16:17

谢谢老哥的回复，成功了，原来我的A.txt有问题来着，再次感谢哒

tomok · 发表于 2021-12-11 17:46:28

来学习了

lightninng · 发表于 2021-12-11 21:45:08

抱歉，认错人了，之前有个鱼油，问的和你这非常类似的问题，我前后回复过他两个帖子，我以为又是他~~~

Amgalang · 发表于 2021-12-12 08:00:49

lightninng 发表于 2021-12-11 21:45
抱歉，认错人了，之前有个鱼油，问的和你这非常类似的问题，我前后回复过他两个帖子，我以为又是他~~~

哈哈哈，早上好

账号		自动登录	找回密码
密码			立即注册

[已解决]特定词汇在B.txt中出现时标记的实现 求助 谢谢

最佳答案

浏览过的版块

[已解决]特定词汇在B.txt中出现时标记的实现求助谢谢