求 A文件中词汇的 B文件语料中出现的词频统计,Python交流,编程语言专区,鱼C论坛

Amgalang 发表于 2020-9-29 10:26:50

求 A文件中词汇的 B文件语料中出现的词频统计

上午好，各位鱼友，

我有了一个小需求，求A文件中的每个词在另一个B语料中的词频统计，但是我的循环有些报错，希望大家练练手给新手一个代码，谢谢。

1.模拟A文件中的内容（一词一行）：
AAA
BBB
CCC

2.模拟B文件语料中的内容（以空格隔开词汇，以英文句号隔开句子，但有些停用词，停用词和词汇连在一起（停用词怎么处理？可以忽略？还是删除？））：
AAA BBB FFF GGG HHH JJJ KKK. LLL? TTT UUU <EEE> 123 890 OOO CCC AAA VVV BBB.

3.希望得到的新文件统计结果格式：
词汇,词频
AAA,2
BBB,2
CCC,1

谢谢大家，祝大家拥有美好的一天。

城中城 发表于 2020-9-29 10:26:51

本帖最后由城中城于 2020-9-29 12:06 编辑

def find_text(each_keyword, keyword, i = 0, num = 0):
if each_keyword.find(keyword, i) > -1:                #判断查找的字符串中是否有想要的子字符串
   i = each_keyword.find(keyword, i) + 1             #运用的是find(sub[, start[, end]])检测 sub 是否包含在字符串中，如果有则返回索引值，否则返回 -1，start 和 end 参数表示范围，可选。
   num += 1                                        #出现的子字符串+1
   return find_text(each_keyword, keyword, i, num) #再次进入函数循环进行判断，该字符串后面是否有再出现想要的子字符串
else:
   return num                                        #盖字符串没有想要查找的子字符串的时候跳出循环

def query_path(key_file, target_file):
key_name = {}

with open(key_file, encoding = 'UTF-8') as fp:
   for each_line in fp:
         temp = each_line.rstrip()                   #去除/n
         key_name = 0                            #把想查询的每一个子字符串添加到字典中

with open(target_file, encoding = 'UTF-8') as fp:
   for each_line in fp:
         for key in key_name:                         #
            num = find_text(each_line, key)          #返回该行出现子字符串的次数
            key_name += num                      #子字符串的次数进行添加
print(key_name)

print('将该文件放入你要搜索的文件中')
key_file = input("请输入你的关键字文件(txt):")
target_file = input("请输入你的目标文件(txt):")
query_path(key_file, target_file)

城中城 发表于 2020-9-29 10:30:42

本帖最后由城中城于 2020-9-29 10:32 编辑

partition(sub)
找到子字符串 sub，把字符串分成一个 3 元组 (pre_sub, sub, fol_sub)，如果字符串中不包含 sub 则返回 ('原字符串', '', '')

wzdr 发表于 2020-9-29 10:39:37

{:10_256:}{:10_256:}

Amgalang 发表于 2020-9-29 10:41:46

城中城发表于 2020-9-29 10:30
partition(sub)
找到子字符串 sub，把字符串分成一个 3 元组 (pre_sub, sub, fol_sub)，如果字符串中不包 ...

不好意思，我需要代码哈哈哈

Amgalang 发表于 2020-9-29 10:43:04

wzdr 发表于 2020-9-29 10:39

哈哈哈，又在帮我上墙，谢谢{:10_311:}

疾风怪盗 发表于 2020-9-29 11:08:45

最简单的循环：
with open('A.txt', 'r', encoding='utf-8') as f1:
a = f1.readlines()
with open('B.txt', 'r', encoding='utf-8') as f1:
b = f1.read().split(' ')
print(a)
print(b)
count = dict()
for i in a:
i = i.replace('\n', '')
count = 0
for j in b:
if j.find(i) == 0:
count += 1
print(count)

城中城 发表于 2020-9-29 11:37:29

将该文件放入你要搜索的文件中
请输入你的关键字文件(txt):2.txt
请输入你的目标文件(txt):1.txt
{'AAA': 4, 'BBB': 4, 'CCC': 2}

城中城 发表于 2020-9-29 11:41:59

疾风怪盗发表于 2020-9-29 11:08
最简单的循环：

老哥你这里没做一个处理就是一行可能出现多个AAA
但是你只是一行中只要出现AAA就+1

疾风怪盗 发表于 2020-9-29 11:51:39

本帖最后由疾风怪盗于 2020-9-29 11:53 编辑

城中城发表于 2020-9-29 11:41
老哥你这里没做一个处理就是一行可能出现多个AAA
但是你只是一行中只要出现AAA就+1

楼主说的是以空格隔开词汇
我做了个处理，直接空格切片，切出来每个元素都是一个词汇，不会出现两个AAA在一个词汇吧

['AAA\n', 'BBB\n', 'CCC']
['', 'AAA', 'BBB', 'FFF', 'GGG', 'HHH', 'JJJ', 'KKK.', 'LLL?', 'TTT', 'UUU', '<EEE>', '123', '890', 'OOO', 'CCC', 'AAA', 'VVV', 'BBB.']
{'AAA': 2, 'BBB': 2, 'CCC': 1}

和你的结果一样的
将该文件放入你要搜索的文件中
请输入你的关键字文件(txt):A.txt
请输入你的目标文件(txt):B.txt
{'AAA': 2, 'BBB': 2, 'CCC': 1}

Amgalang 发表于 2020-9-29 11:54:51

城中城发表于 2020-9-29 11:35

哇，大佬哥厉害了，哈哈哈谢谢已完美解决，正在学习您的代码中，您能给到注释那就更好了，再次谢谢。{:10_275:}

Amgalang 发表于 2020-9-29 11:56:06

疾风怪盗发表于 2020-9-29 11:08
最简单的循环：

谢谢您的代码，正在学习代码中，谢谢。

城中城 发表于 2020-9-29 11:59:26

疾风怪盗发表于 2020-9-29 11:51
楼主说的是以空格隔开词汇
我做了个处理，直接空格切片，切出来每个元素都是一个词汇，不会出现两个AA ...

哦有道理这我看太仔细

疾风怪盗 发表于 2020-9-29 12:02:15

城中城发表于 2020-9-29 11:59
哦有道理这我看太仔细

如果就按楼主说的情况
你这写的太复杂了，不需要这么多代码的，就简单的循环匹配就行了，当然如果数据量大了，就效率低了

城中城 发表于 2020-9-29 12:07:26

Amgalang 发表于 2020-9-29 11:56
谢谢您的代码，正在学习代码中，谢谢。

注释写完了

城中城 发表于 2020-9-29 12:08:04

疾风怪盗发表于 2020-9-29 12:02
如果就按楼主说的情况
你这写的太复杂了，不需要这么多代码的，就简单的循环匹配就行了，当然如果数据量 ...

为了最佳答案不择手段的我{:5_91:}

Amgalang 发表于 2020-9-29 14:27:40

疾风怪盗发表于 2020-9-29 12:02
如果就按楼主说的情况
你这写的太复杂了，不需要这么多代码的，就简单的循环匹配就行了，当然如果数据量 ...

真心谢谢您的高效且易懂的回答，心中的大佬和最佳答案献给您，再次感谢{:10_275:}{:10_275:}{:10_275:}

Amgalang 发表于 2020-9-29 14:29:25

疾风怪盗发表于 2020-9-29 11:08
最简单的循环：

刚发现，原来是老哥您阿，没记好您的论坛用名，哈哈哈哈哈，记住了难怪代码这么6 哈哈哈谢谢老哥

页: [1]

鱼C论坛's Archiver

求 A文件中词汇的 B文件语料中出现的词频统计