Amgalang 发表于 2020-12-19 15:56:51

A文件的词语在B文件内的词频统计,谢谢

各位鱼友大家下午好,
        有个词频统计希望大家帮帮忙,谢谢。
        我有两个文件分别是A.txt和B.txt,里面的内容是:
      A.txt
        词汇,编码
        边缘,02339602N
        边缘,03963610N
        边缘,02693940N
        边缘,02621337N
        边缘,03992861N
        ....
      B.txt
        编码
        02339602N
        02339602N
        03963610N
        ....
希望查看A文件中的编码在B文件内的词频,获得C.txt:
        词汇,编码,词频
        边缘,02339602N,2
        边缘,03963610N,1
希望大家帮助,因为等级原因只能发小许鱼币奖励希望海涵。

Amgalang 发表于 2020-12-19 16:17:44

大家好,
已经解决了,谢谢大家
编码是:
fa , fb = open('A.txt') , open('B.txt')
da , db = list(fa) , list(fb)
fa . close() ; fb . close()
dc = []
for ax in range(1 , len(da)):
    dc . append(0)
    for bx in range(1 , len(db)):
      if db . strip() in da . strip() . split(','):
            dc += 1
with open('C.txt' , 'a+') as fc:
    fc . write('词汇,编码,词频\n')
    for ax in range(1 , len(da)):
      fc . write(da . strip() + ',' + str(dc) + '\n')
我给忘了,谢谢大家

Stubborn 发表于 2020-12-19 16:18:27

统计B文件的编码相同的次数,采用hash存储,例如字典!
根据A文件的编码,查找hash出现的次数,保存为C文件

Amgalang 发表于 2020-12-21 21:50:54

Stubborn 发表于 2020-12-19 16:18
统计B文件的编码相同的次数,采用hash存储,例如字典!
根据A文件的编码,查找hash出现的次数,保存为C文 ...

好的,谢谢您的思路,谢谢{:10_275:}
页: [1]
查看完整版本: A文件的词语在B文件内的词频统计,谢谢