NLP知识笔记

来源：互联网发布：ubuntu 聊天工具编辑：程序博客网时间：2024/05/20 23:40

标签/关键词提取：

业界常用抽取文本关键词的无监督学习方法主要是TF-IDF，TextRank，左右信息熵。

TextRank算法主要是基于某一窗口内的词共现关系，构造无向图关系，通过Ranking方法计算词的权重，被其他词关联Ranking权重越高的词就是越关键的核心词。算法详述见参考文献[4]，在Fundan NLP， jieba分词等工具中有该算法的实现。

左右信息熵算法主要是计算文档中每个词左右出现的词的变化频率，即计算每个词的左右信息熵，左右信息熵越高，说明该词在文档中越重要。在张华平博士的分词工具ICTCLAS（即NLPIR）中有该算法的实现

TextRank，左右信息熵，以上两种方法，在某些场景下有效，但是在短文本分析等场景中，对比TFIDF并没有明显的优势。而TFIDF适用的场景更广，更容易做优化，计算效率更高，在业界的使用更加广泛。

其他还有聚类，Topic Model等方法抽取关键词，实际应用中比较少。

阅读全文

0 0