鱼C论坛

 找回密码
 立即注册
查看: 3485|回复: 3

A文件的词语在B文件内的词频统计,谢谢

[复制链接]
发表于 2020-12-19 15:56:51 | 显示全部楼层 |阅读模式
6鱼币
各位鱼友大家下午好,
        有个词频统计希望大家帮帮忙,谢谢。
        我有两个文件分别是A.txt和B.txt,里面的内容是:
        A.txt
        词汇,编码
        边缘,02339602N
        边缘,03963610N
        边缘,02693940N
        边缘,02621337N
        边缘,03992861N
        ....
        B.txt
        编码
        02339602N
        02339602N
        03963610N
        ....
希望查看A文件中的编码在B文件内的词频,获得C.txt:
        词汇,编码,词频
        边缘,02339602N,2
        边缘,03963610N,1
希望大家帮助,因为等级原因只能发小许鱼币奖励希望海涵。

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-12-19 16:17:44 | 显示全部楼层
大家好,
已经解决了,谢谢大家
编码是:
fa , fb = open('A.txt') , open('B.txt')
da , db = list(fa) , list(fb)
fa . close() ; fb . close()
dc = []
for ax in range(1 , len(da)):
    dc . append(0)
    for bx in range(1 , len(db)):
        if db[bx] . strip() in da[ax] . strip() . split(','):
            dc[ax - 1] += 1
with open('C.txt' , 'a+') as fc:
    fc . write('词汇,编码,词频\n')
    for ax in range(1 , len(da)):
        fc . write(da[ax] . strip() + ',' + str(dc[ax - 1]) + '\n')
我给忘了,谢谢大家
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-12-19 16:18:27 | 显示全部楼层
统计B文件的编码相同的次数,采用hash存储,例如字典!
根据A文件的编码,查找hash出现的次数,保存为C文件
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-12-21 21:50:54 | 显示全部楼层
Stubborn 发表于 2020-12-19 16:18
统计B文件的编码相同的次数,采用hash存储,例如字典!
根据A文件的编码,查找hash出现的次数,保存为C文 ...

好的,谢谢您的思路,谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-17 00:10

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表