2830680393 发表于 2023-7-4 17:41:38

获取自定义词表的词频

有一个自定义的英文词组txt文件A,请问如何获取A文件中每个英文词组在txt文件B中的词频。

陶远航 发表于 2023-7-4 17:41:55

要获取自定义词表的词频,你可以按照以下步骤进行操作:

1. 读取自定义词表文件A和目标文本文件B。
2. 将文件B中的文本内容按照单词进行拆分,得到一个包含所有单词的列表。
3. 创建一个空字典,用于存储词频信息。
4. 遍历自定义词表文件A中的每个词组,在列表中查找并统计出现的次数,并将词组和对应的词频添加到字典中。
5. 得到自定义词表文件A中每个词组在文件B中的词频统计结果。

下面是一个示例的Python代码实现:

python
读取自定义词表文件A
with open('file_A.txt', 'r') as file_a:
    custom_words = file_a.read().splitlines()

读取目标文本文件B
with open('file_B.txt', 'r') as file_b:
    text = file_b.read()

拆分文本内容为单词列表
words = text.split()

统计词频
word_freq = {}
for word in custom_words:
    freq = words.count(word)
    word_freq = freq

打印词频结果
for word, freq in word_freq.items():
    print(f"词组 '{word}' 在文本B中出现的词频为: {freq}")


请确保将实际的自定义词表文件名以及目标文本文件名替换为你实际使用的文件名。运行上述代码后,将会输出自定义词表中每个词组在文本B中的词频信息。

注意:上述代码针对英文单词的词频统计。如果你的英文词组包含空格以外的其他标点符号,请提前进行处理或相应地调整代码逻辑。

isdkz 发表于 2023-7-4 17:41:58

要获取自定义词表A中每个英文词组在文件B中的词频,可以按照以下步骤进行:

1. 读取文件A和文件B的内容。
2. 将文件A中的每个词组作为关键词,遍历文件B中的每个单词,并统计每个关键词在文件B中出现的次数。
3. 将每个关键词及其对应的词频保存起来,可以使用字典(dictionary)来存储。
4. 输出每个关键词及其对应的词频。

下面是一个示例代码,演示如何实现上述步骤:

def get_word_frequency(fileA, fileB):
    # 读取文件A和文件B的内容
    with open(fileA, 'r') as f:
      keywords = f.read().splitlines()

    with open(fileB, 'r') as f:
      content = f.read()

    # 统计每个关键词在文件B中出现的次数
    word_frequency = {}
    for keyword in keywords:
      count = content.count(keyword)
      word_frequency = count

    # 输出每个关键词及其对应的词频
    for keyword, count in word_frequency.items():
      print(f"{keyword}: {count}")

    return word_frequency

# 示例用法
fileA = 'path/to/fileA.txt'
fileB = 'path/to/fileB.txt'
word_frequency = get_word_frequency(fileA, fileB)


请确保将 fileA 和 fileB 替换为实际的文件路径。运行上述代码后,将会输出每个关键词及其在文件B中的词频。

isdkz 发表于 2023-7-4 17:43:12

陶远航 发表于 2023-7-4 17:41
要获取自定义词表的词频,你可以按照以下步骤进行操作:

1. 读取自定义词表文件A和目标文本文件B。

笑死{:10_250:},你是不是对编程追风梦动了什么手脚{:10_256:}

陶远航 发表于 2023-7-4 17:44:21

isdkz 发表于 2023-7-4 17:43
笑死,你是不是对编程追风梦动了什么手脚

{:10_256:}

编程追风梦 发表于 2023-7-4 18:40:56

isdkz 发表于 2023-7-4 17:43
笑死,你是不是对编程追风梦动了什么手脚

就是因为这个,我把他在梦想论坛给禁言了
页: [1]
查看完整版本: 获取自定义词表的词频