机器学习之问题描述——聚类Clustering

来源:互联网 发布:java分布式开发是什么 编辑:程序博客网 时间:2024/06/11 14:07

聚类是无监督学习。定义:
给定一组实例X,实例间的“距离”为

D(x,y)=D(y,x),x,yX.
那么聚类问题需要得到一个划分PD(x),满足在实例x和y属于同一类的时候有
PD(x)=PD(y).
划分应该使得类内差距最小,类间差距最大。对于“类内差距最小,类间差距最大”只可意会不可言传。

上述定义中需要说明的是实例之间的“距离”D(x,y)只是用来衡量实例之间的相似性,并不一定满足距离的定义,比如可以不满足三角不等式。

可以想一下最简单的划分P是什么?
dada,所有的实例都属于同一个类:

PD(x)=1,xX

每个实例自成一类:
PD(x)=x,xX

可以看出上面的聚类问题的定义是非常宽泛的。其实,聚类问题本来就没有一致的定义,基本上可以说每一个聚类算法都有自己要解决的聚类问题。

0 0
原创粉丝点击