DAY

15.TF-IDF算法介绍以及应用

已有 125 次阅读2019-7-24 11:34 |个人分类:自然语言

TF/IDF用以评估字词对于一个文件集其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加

随着它在语料库中出现的频率下载

词频词语在文件中出现的次数，一般进行归一化，防止长文件数字过大

逆向文件频率是词语普通重要性的度量。总文件数除以包括该词语文件数，在将得到的商取对数。

结论：在某特定文件内的高频率词语，但是该词语在整个文件集合中在较少的文件中出现，TF-IDF值较高

应用举例

1.关键词提取

2.句子相似度计算

3.其他算法的前置算法

TF-IDF文章相似度计算流程

A.使用TF-IDF算法，分别找出两篇文章的关键词

B，分别取每篇文章TF/IDF值top15，的词，合并成一个集合，计算该集合下，每篇文章关键词的相对词频

C.分别生成两篇文章的词频向量

D.计算两个向量的余弦相似度，值越大就表示越相似。

账号		自动登录	找回密码
密码			立即注册