`CountVectorizer` 将文本数据转换为词频矩阵,这个矩阵的每一行代表一个文档,每一列代表一个词汇表中的词。矩阵中的值表示该词在该文档中出现的次数。
假设我们有以下简单的语料库:
["I love programming", "I love coding", "Programming is fun"]
使用 `CountVectorizer` 处理这个语料库后,词汇表可能是这样的:
['coding', 'fun', 'is', 'love', 'programming']
对应的词频矩阵如下:
[[0, 0, 0, 1, 1],
[1, 0, 0, 1, 0],
[0, 1, 1, 0, 1]]
解释:
- 第一行 `[0, 0, 0, 1, 1]` 表示第一个文档 "I love programming" 中,"love" 和 "programming" 各出现一次。
- 第二行 `[1, 0, 0, 1, 0]` 表示第二个文档 "I love coding" 中,"coding" 和 "love" 各出现一次。
- 第三行 `[0, 1, 1, 0, 1]` 表示第三个文档 "Programming is fun" 中,"fun"、"is" 和 "programming" 各出现一次。
这样,`CountVectorizer` 就将文本数据转换成了一个可以用于机器学习模型的数值矩阵。
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 |