TF/IDF用以评估字词对于一个文件集其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加
随着它在语料库中出现的频率下载
词频词语在文件中出现的次数,一般进行归一化,防止长文件数字过大
逆向文件频率是词语普通重要性的度量。总文件数除以包括该词语文件数,在将得到的商取对数。
结论:在某特定文件内的高频率词语,但是该词语在整个文件集合中在较少的文件中出现,TF-IDF值较高
应用举例
1.关键词提取
2.句子相似度计算
3.其他算法的前置算法
TF-IDF文章相似度计算流程
A.使用TF-IDF算法,分别找出两篇文章的关键词
B,分别取每篇文章TF/IDF值top15,的词,合并成一个集合,计算该集合下,每篇文章关键词的相对词频
C.分别生成两篇文章的词频向量
D.计算两个向量的余弦相似度,值越大就表示越相似。