鱼C论坛

 找回密码
 立即注册
查看: 1657|回复: 17

[已解决]求 A文件中词汇的 B文件语料中出现的词频统计

[复制链接]
发表于 2020-9-29 10:26:50 | 显示全部楼层 |阅读模式
3鱼币
上午好,各位鱼友,

我有了一个小需求,求A文件中的每个词  在另一个B语料中的词频统计,但是 我的循环有些报错,希望大家练练手 给新手一个代码,谢谢。

1.模拟A文件中的内容(一词一行):
        AAA
        BBB
        CCC

2.模拟B文件语料中的内容(以空格隔开词汇,以英文句号隔开句子,但有些停用词,停用词和词汇连在一起(停用词怎么处理?可以忽略?还是删除?)):
        AAA BBB FFF GGG HHH JJJ KKK. LLL? TTT UUU <EEE> 123 890 OOO CCC AAA VVV BBB.

3.希望得到的新文件统计结果格式:
        词汇,词频
        AAA,2
        BBB,2
        CCC,1

谢谢大家,祝大家拥有美好的一天。
最佳答案
2020-9-29 10:26:51
本帖最后由 城中城 于 2020-9-29 12:06 编辑
def find_text(each_keyword, keyword, i = 0, num = 0):
    if each_keyword.find(keyword, i) > -1:                  #判断查找的字符串中是否有想要的子字符串
        i = each_keyword.find(keyword, i) + 1               #运用的是find(sub[, start[, end]])检测 sub 是否包含在字符串中,如果有则返回索引值,否则返回 -1,start 和 end 参数表示范围,可选。
        num += 1                                            #出现的子字符串+1
        return find_text(each_keyword, keyword, i, num)     #再次进入函数循环进行判断, 该字符串后面是否有再出现想要的子字符串
    else:
        return num                                          #盖字符串没有想要查找的子字符串的时候跳出循环

def query_path(key_file, target_file):
    key_name = {}

    with open(key_file, encoding = 'UTF-8') as fp:
        for each_line in fp:
            temp = each_line.rstrip()                       #去除/n
            key_name[temp] = 0                              #把想查询的每一个子字符串添加到字典中

    with open(target_file, encoding = 'UTF-8') as fp:
        for each_line in fp:                                
            for key in key_name:                            #
                num = find_text(each_line, key)             #返回该行出现子字符串的次数
                key_name[key] += num                        #子字符串的次数进行添加
    print(key_name)

print('将该文件放入你要搜索的文件中')
key_file = input("请输入你的关键字文件(txt):")
target_file = input("请输入你的目标文件(txt):")
query_path(key_file, target_file)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 10:26:51 | 显示全部楼层    本楼为最佳答案   
本帖最后由 城中城 于 2020-9-29 12:06 编辑
def find_text(each_keyword, keyword, i = 0, num = 0):
    if each_keyword.find(keyword, i) > -1:                  #判断查找的字符串中是否有想要的子字符串
        i = each_keyword.find(keyword, i) + 1               #运用的是find(sub[, start[, end]])检测 sub 是否包含在字符串中,如果有则返回索引值,否则返回 -1,start 和 end 参数表示范围,可选。
        num += 1                                            #出现的子字符串+1
        return find_text(each_keyword, keyword, i, num)     #再次进入函数循环进行判断, 该字符串后面是否有再出现想要的子字符串
    else:
        return num                                          #盖字符串没有想要查找的子字符串的时候跳出循环

def query_path(key_file, target_file):
    key_name = {}

    with open(key_file, encoding = 'UTF-8') as fp:
        for each_line in fp:
            temp = each_line.rstrip()                       #去除/n
            key_name[temp] = 0                              #把想查询的每一个子字符串添加到字典中

    with open(target_file, encoding = 'UTF-8') as fp:
        for each_line in fp:                                
            for key in key_name:                            #
                num = find_text(each_line, key)             #返回该行出现子字符串的次数
                key_name[key] += num                        #子字符串的次数进行添加
    print(key_name)

print('将该文件放入你要搜索的文件中')
key_file = input("请输入你的关键字文件(txt):")
target_file = input("请输入你的目标文件(txt):")
query_path(key_file, target_file)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 10:30:42 | 显示全部楼层
本帖最后由 城中城 于 2020-9-29 10:32 编辑

partition(sub)
找到子字符串 sub,把字符串分成一个 3 元组 (pre_sub, sub, fol_sub),如果字符串中不包含 sub 则返回 ('原字符串', '', '')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 10:39:37 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-9-29 10:41:46 | 显示全部楼层
城中城 发表于 2020-9-29 10:30
partition(sub)
找到子字符串 sub,把字符串分成一个 3 元组 (pre_sub, sub, fol_sub),如果字符串中不包 ...

不好意思,我需要 代码 哈哈哈
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-9-29 10:43:04 | 显示全部楼层

哈哈哈,又在帮我上墙,谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 11:08:45 | 显示全部楼层
最简单的循环:
with open('A.txt', 'r', encoding='utf-8') as f1:
    a = f1.readlines()
with open('B.txt', 'r', encoding='utf-8') as f1:
    b = f1.read().split(' ')
print(a)
print(b)
count = dict()
for i in a:
    i = i.replace('\n', '')
    count[i] = 0
    for j in b:
        if j.find(i) == 0:
            count[i] += 1
print(count)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 11:37:29 | 显示全部楼层
将该文件放入你要搜索的文件中
请输入你的关键字文件(txt):2.txt
请输入你的目标文件(txt):1.txt
{'AAA': 4, 'BBB': 4, 'CCC': 2}
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 11:41:59 | 显示全部楼层

老哥你这里没做一个处理 就是一行可能出现多个AAA
但是你只是一行中只要出现AAA就+1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 11:51:39 | 显示全部楼层
本帖最后由 疾风怪盗 于 2020-9-29 11:53 编辑
城中城 发表于 2020-9-29 11:41
老哥你这里没做一个处理 就是一行可能出现多个AAA
但是你只是一行中只要出现AAA就+1


楼主说的是以空格隔开词汇
我做了个处理,直接空格切片,切出来每个元素都是一个词汇,不会出现两个AAA在一个词汇吧

['AAA\n', 'BBB\n', 'CCC']
['', 'AAA', 'BBB', 'FFF', 'GGG', 'HHH', 'JJJ', 'KKK.', 'LLL?', 'TTT', 'UUU', '<EEE>', '123', '890', 'OOO', 'CCC', 'AAA', 'VVV', 'BBB.']
{'AAA': 2, 'BBB': 2, 'CCC': 1}

和你的结果一样的
将该文件放入你要搜索的文件中
请输入你的关键字文件(txt):A.txt
请输入你的目标文件(txt):B.txt
{'AAA': 2, 'BBB': 2, 'CCC': 1}
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-9-29 11:54:51 | 显示全部楼层

哇,大佬哥 厉害了,哈哈哈 谢谢 已完美解决,正在学习您的代码中,您能给到注释 那就更好了,再次谢谢。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-9-29 11:56:06 | 显示全部楼层

谢谢您的代码,正在学习代码中,谢谢。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 11:59:26 | 显示全部楼层
疾风怪盗 发表于 2020-9-29 11:51
楼主说的是以空格隔开词汇
我做了个处理,直接空格切片,切出来每个元素都是一个词汇,不会出现两个AA ...

哦  有道理这我看太仔细
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 12:02:15 | 显示全部楼层
城中城 发表于 2020-9-29 11:59
哦  有道理这我看太仔细

如果就按楼主说的情况
你这写的太复杂了,不需要这么多代码的,就简单的循环匹配就行了,当然如果数据量大了,就效率低了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 12:07:26 | 显示全部楼层
Amgalang 发表于 2020-9-29 11:56
谢谢您的代码,正在学习代码中,谢谢。

注释写完了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-29 12:08:04 | 显示全部楼层
疾风怪盗 发表于 2020-9-29 12:02
如果就按楼主说的情况
你这写的太复杂了,不需要这么多代码的,就简单的循环匹配就行了,当然如果数据量 ...

为了最佳答案不择手段的我
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-9-29 14:27:40 | 显示全部楼层
疾风怪盗 发表于 2020-9-29 12:02
如果就按楼主说的情况
你这写的太复杂了,不需要这么多代码的,就简单的循环匹配就行了,当然如果数据量 ...

真心谢谢您的高效且易懂的回答,心中的大佬和最佳答案献给您,再次感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-9-29 14:29:25 | 显示全部楼层

刚发现,原来是老哥您阿,没记好您的论坛用名,哈哈哈哈哈,记住了 难怪 代码这么6 哈哈哈 谢谢老哥
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-18 11:53

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表