鱼C论坛

 找回密码
 立即注册

15.TF-IDF算法介绍以及应用

已有 125 次阅读2019-7-24 11:34 |个人分类:自然语言



    TF/IDF用以评估字词对于一个文件集其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加
    随着它在语料库中出现的频率下载

    词频词语在文件中出现的次数,一般进行归一化,防止长文件数字过大

    逆向文件频率是词语普通重要性的度量。总文件数除以包括该词语文件数,在将得到的商取对数。

    结论:在某特定文件内的高频率词语,但是该词语在整个文件集合中在较少的文件中出现,TF-IDF值较高

    应用举例
        1.关键词提取
        2.句子相似度计算
        3.其他算法的前置算法

    TF-IDF文章相似度计算流程
        A.使用TF-IDF算法,分别找出两篇文章的关键词
        B,分别取每篇文章TF/IDF值top15,的词,合并成一个集合,计算该集合下,每篇文章关键词的相对词频
        C.分别生成两篇文章的词频向量
        D.计算两个向量的余弦相似度,值越大就表示越相似。

路过

鸡蛋

鲜花

握手

雷人

全部作者的其他最新日志

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-19 03:34

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部