TW-k-means 算法初步了解

来源:互联网 发布:java读取dat文件内容 编辑:程序博客网 时间:2024/05/18 06:44

一.相关名词

1.TW-k-means

2.Multi-view data

3.Multi-view clustering

4.variable weighting clustering;


二.粗略概述

对multi-view 数据进行clustering 主要需要考虑不同视图(view)的影响及不同变量的影响。因此需要考虑的两种参数的类型主要是:不同视图的权重(view weights)以及不同变量的权重(variable weights)


1.TW-k-means 的算法实现目的:

investigate the properties of 2 types of weights(illustrate weight distributions)

2.承上:

(1)multi-view clustering=>multi-view learning

                                        =>1)centralized(to discover hidden patterns)

                                        =>2)distributed(single-view algorithm and combine the individual clustering results)

(2)variable weighting clustering

                             --->W-k-means(给不同variables 设置了不同的权限)

                             --->E-k-means(在W-k-means的基础上添加了熵(entropy)的优化算法)

(3)variable weighting multi-view clustering

由(1)+(2)=>(3).

3.TW-k-means 算法实现思想

(1)优化模型(the optimization model)

其中,

  • U is a n×k partition matrix whose elements Ui,l are binary where Ui,l=1 indicates that object i is allocated to cluster l;
  • Z={Z1,Z2,...,Zk}is a set of k vectors representing the centers of the k clusters;
  • W={w1,w2,...,wT}are T weights for T views;
  • V={v1,v2,...,vm}are m weights for m variables;
  • λ, ηare two given parameters;
  • d(Xi,j ,Zl,j) is a distance or dissimilarity measure on the j-th variable between the i-th object and the center of the l-th cluster.


(2)大概的思想

  • 控制变量法(每次保证U,V,Z,W其中之一的值不变,其中有涉及拉格朗日乘数法);
  • 距离(距离k个中心的距离,也可以理解为是偏差吧);
  • 权重(两种类型,view 的和variable的);
  • 迭代思想(每一次通过计算距离来更新权重);
  • 熵(通过熵最小的原则进一步优化模型)。





后记:初学数据挖掘,这是读的第一篇论文,文章内容浅陋。本意是自己当总结看的。望偶然看到的人们不要见怪了。

原创粉丝点击