鱼C论坛

 找回密码
 立即注册
查看: 2244|回复: 5

[已解决]获取自定义词表的词频

[复制链接]
发表于 2023-7-4 17:41:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
有一个自定义的英文词组txt文件A,请问如何获取A文件中每个英文词组在txt文件B中的词频。
最佳答案
2023-7-4 17:41:58
要获取自定义词表A中每个英文词组在文件B中的词频,可以按照以下步骤进行:

1. 读取文件A和文件B的内容。
2. 将文件A中的每个词组作为关键词,遍历文件B中的每个单词,并统计每个关键词在文件B中出现的次数。
3. 将每个关键词及其对应的词频保存起来,可以使用字典(dictionary)来存储。
4. 输出每个关键词及其对应的词频。

下面是一个示例代码,演示如何实现上述步骤:
  1. def get_word_frequency(fileA, fileB):
  2.     # 读取文件A和文件B的内容
  3.     with open(fileA, 'r') as f:
  4.         keywords = f.read().splitlines()
  5.     with open(fileB, 'r') as f:
  6.         content = f.read()
  7.     # 统计每个关键词在文件B中出现的次数
  8.     word_frequency = {}
  9.     for keyword in keywords:
  10.         count = content.count(keyword)
  11.         word_frequency[keyword] = count
  12.     # 输出每个关键词及其对应的词频
  13.     for keyword, count in word_frequency.items():
  14.         print(f"{keyword}: {count}")
  15.     return word_frequency
  16. # 示例用法
  17. fileA = 'path/to/fileA.txt'
  18. fileB = 'path/to/fileB.txt'
  19. word_frequency = get_word_frequency(fileA, fileB)
复制代码

请确保将 fileA 和 fileB 替换为实际的文件路径。运行上述代码后,将会输出每个关键词及其在文件B中的词频。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2023-7-4 17:41:55 | 显示全部楼层
要获取自定义词表的词频,你可以按照以下步骤进行操作:

1. 读取自定义词表文件A和目标文本文件B。
2. 将文件B中的文本内容按照单词进行拆分,得到一个包含所有单词的列表。
3. 创建一个空字典,用于存储词频信息。
4. 遍历自定义词表文件A中的每个词组,在列表中查找并统计出现的次数,并将词组和对应的词频添加到字典中。
5. 得到自定义词表文件A中每个词组在文件B中的词频统计结果。

下面是一个示例的Python代码实现:
  1. python
  2. [size=6][b]读取自定义词表文件A[/b][/size]
  3. with open('file_A.txt', 'r') as file_a:
  4.     custom_words = file_a.read().splitlines()
  5. [size=6][b]读取目标文本文件B[/b][/size]
  6. with open('file_B.txt', 'r') as file_b:
  7.     text = file_b.read()
  8. [size=6][b]拆分文本内容为单词列表[/b][/size]
  9. words = text.split()
  10. [size=6][b]统计词频[/b][/size]
  11. word_freq = {}
  12. for word in custom_words:
  13.     freq = words.count(word)
  14.     word_freq[word] = freq
  15. [size=6][b]打印词频结果[/b][/size]
  16. for word, freq in word_freq.items():
  17.     print(f"词组 '{word}' 在文本B中出现的词频为: {freq}")
复制代码

请确保将实际的自定义词表文件名以及目标文本文件名替换为你实际使用的文件名。运行上述代码后,将会输出自定义词表中每个词组在文本B中的词频信息。

注意:上述代码针对英文单词的词频统计。如果你的英文词组包含空格以外的其他标点符号,请提前进行处理或相应地调整代码逻辑。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-4 17:41:58 | 显示全部楼层    本楼为最佳答案   
要获取自定义词表A中每个英文词组在文件B中的词频,可以按照以下步骤进行:

1. 读取文件A和文件B的内容。
2. 将文件A中的每个词组作为关键词,遍历文件B中的每个单词,并统计每个关键词在文件B中出现的次数。
3. 将每个关键词及其对应的词频保存起来,可以使用字典(dictionary)来存储。
4. 输出每个关键词及其对应的词频。

下面是一个示例代码,演示如何实现上述步骤:
  1. def get_word_frequency(fileA, fileB):
  2.     # 读取文件A和文件B的内容
  3.     with open(fileA, 'r') as f:
  4.         keywords = f.read().splitlines()
  5.     with open(fileB, 'r') as f:
  6.         content = f.read()
  7.     # 统计每个关键词在文件B中出现的次数
  8.     word_frequency = {}
  9.     for keyword in keywords:
  10.         count = content.count(keyword)
  11.         word_frequency[keyword] = count
  12.     # 输出每个关键词及其对应的词频
  13.     for keyword, count in word_frequency.items():
  14.         print(f"{keyword}: {count}")
  15.     return word_frequency
  16. # 示例用法
  17. fileA = 'path/to/fileA.txt'
  18. fileB = 'path/to/fileB.txt'
  19. word_frequency = get_word_frequency(fileA, fileB)
复制代码

请确保将 fileA 和 fileB 替换为实际的文件路径。运行上述代码后,将会输出每个关键词及其在文件B中的词频。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-4 17:43:12 | 显示全部楼层
陶远航 发表于 2023-7-4 17:41
要获取自定义词表的词频,你可以按照以下步骤进行操作:

1. 读取自定义词表文件A和目标文本文件B。

笑死,你是不是对编程追风梦动了什么手脚
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-4 17:44:21 | 显示全部楼层
isdkz 发表于 2023-7-4 17:43
笑死,你是不是对编程追风梦动了什么手脚

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-4 18:40:56 | 显示全部楼层
isdkz 发表于 2023-7-4 17:43
笑死,你是不是对编程追风梦动了什么手脚

就是因为这个,我把他在梦想论坛给禁言了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-23 13:14

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表