机器学习_TF-IDF

来源:互联网 发布:雷神电脑怎么样 知乎 编辑:程序博客网 时间:2024/06/07 18:58

【1】本算法的目的是从文档中找出主题词,来对文档进行分类。见大数据书P6。

【2】有点像文档的特征选取,选出文档中最具有代表性的词

【3】理解:第一:主题词确实会在文档中重复出现,但并不是最频繁的。(语气词、停顿词最频繁)

                    第二:一篇文档的主题词在其他文档中几乎不会出现

【4】所以挑选主题词,对词语在一篇文档的打分的公式为: 

                                                             (词在一篇文档中出现的频率)*(词出现文档的文档数越少,值越大的函数)

【5】启示:如果一件事情由两个标准构成,那么可以使这两个标准相乘。

原创粉丝点击