lingo算法学习

来源:互联网 发布:eclipse mac 图标小 编辑:程序博客网 时间:2024/06/05 11:47

层次聚类算法,首先要有好的分类效果,同时提取类别标签更为重要

lingo算法利用后缀数组聚类

lingo算法分析:

1:文本预处理

过滤文档中的HTML标签、实体,去除非字母字符,提取词干,去除停止词

2:关键词提取

利用奇异值分解方法发现抽象概念,奇异值分解概念理解需要有线性代数和统计等知识

3:类标签提取

4:文档分配

5:形成最终聚类