NLP知识笔记
来源:互联网 发布:ubuntu 聊天工具 编辑:程序博客网 时间:2024/05/20 23:40
标签/关键词提取:
业界常用抽取文本关键词的无监督学习方法主要是TF-IDF,TextRank,左右信息熵。
TextRank算法主要是基于某一窗口内的词共现关系,构造无向图关系,通过Ranking方法计算词的权重,被其他词关联Ranking权重越高的词就是越关键的核心词。算法详述见参考文献[4], 在Fundan NLP, jieba分词等工具中有该算法的实现。
左右信息熵算法主要是计算文档中每个词左右出现的词的变化频率,即计算每个词的左右信息熵,左右信息熵越高,说明该词在文档中越重要。在张华平博士的分词工具ICTCLAS(即NLPIR)中有该算法的实现
TextRank,左右信息熵,以上两种方法,在某些场景下有效,但是在短文本分析等场景中,对比TFIDF并没有明显的优势。而TFIDF适用的场景更广,更容易做优化,计算效率更高,在业界的使用更加广泛。
其他还有聚类,Topic Model等方法抽取关键词,实际应用中比较少。
阅读全文
0 0
- NLP知识笔记
- NLP笔记
- NLP概念和知识体系
- NLP, 知识图谱参考资源
- [NLP]CS224n学习笔记一:NLP介绍
- NLP 学习笔记 01
- NLP学习笔记
- NLP学习笔记1
- NLP 课程笔记
- NLP学习笔记01
- NLP summary tool 笔记
- NLP笔记(一)
- NLP笔记(二)
- NLP学习笔记
- NLP with python 笔记 前言
- [nlp笔记]最大熵模型
- stanford-NLP-CLASS1课堂笔记
- NLP
- CodeVs1039[数的划分]
- 创建podsepc
- Volley的简单使用
- poj 3233 Matrix Power Series(矩阵里面的元素也是矩阵)
- 小程序之初识心得
- NLP知识笔记
- 在html页面嵌入applet异常处理办法
- 存储过程被锁住不能编译
- python扒静态网页图片
- Java基础回顾1-4
- 利用递归方法求5!。
- linux网络编程之多线程多进程服务器与进程线程池
- 二.python 面试题装饰器
- Spring中基于Java的配置@Configuration和@Bean用法