布朗聚类

来源:互联网 发布:电脑编程用什么软件 编辑:程序博客网 时间:2024/04/27 18:02

算法

布朗聚类是一种自底层向上的层次聚类算法,基于n-gram模型和马尔科夫链模型。布朗聚类是一种硬聚类,每一个词都在切只在唯一的一个类中。

布朗聚类的输入是一个语料库,这个语料库是一个词序列,输出是一个二叉树,树的叶子节点是一个个词,树的中间节点是类别(中间节点作为根节点的子树上的所有叶子为类中的词)。

初始的时候,将每一个词独立分成一类,然后,将两个类合并,使得合并之后评价函数最大,然后不断重复上述过程,达到想要的类别数量为止。

评价函数:对于n个连续的词(W)序列能否组成一句话的概率的对数的归一化结果。于是,得到评价函数:

其中:n是文本长度,w是词

0 0
原创粉丝点击