程序博客网 > linux vi强制退出命令

机器学习算法与Python实践之（五）k均值聚类（k-means）

来源：互联网发布：linux vi强制退出命令编辑：程序博客网时间：2024/05/16 05:32

一、k-means算法

通常，人们根据样本间的某种距离或者相似性来定义聚类，即把相似的（或距离近的）样本聚为同一类，而把不相似的（或距离远的）样本归在其他类。

我们以一个二维的例子来说明下聚类的目的。如下图左所示，假设我们的n个样本点分布在图中所示的二维空间。从数据点的大致形状可以看出它们大致聚为三个cluster，其中两个紧凑一些，剩下那个松散一些。我们的目的是为这些数据分组，以便能区分出属于不同的簇的数据，如果按照分组给它们标上不同的颜色，就是像下图右边的图那样：

如果人可以看到像上图那样的数据分布，就可以轻松进行聚类。但我们怎么教会计算机按照我们的思维去做同样的事情呢？这里就介绍个集简单和经典于一身的k-means算法。

k-means算法是一种很常见的聚类算法，它的基本思想是：通过迭代寻找k个聚类的一种划分方案，使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。

k-means算法的基础是最小误差平方和准则。其代价函数是：

式中，μ_c(i)表示第i个聚类的均值。我们希望代价函数最小，直观的来说，各类内的样本越相似，其与该类均值间的误差平方越小，对所有类所得到的误差平方求和，即可验证分为k类时，各聚类是否是最优的。

上式的代价函数无法用解析的方法最小化，只能有迭代的方法。k-means算法是将样本聚类成 k个簇（cluster），其中k是用户给定的，其求解过程非常直观简单，具体算法描述如下：

1、随机选取 k个聚类质心点

2、重复下面过程直到收敛 {

对于每一个样例 i，计算其应该属于的类：

对于每一个类 j，重新计算该类的质心：

}

下图展示了对n个样本点进行K-means聚类的效果，这里k取2。

其伪代码如下：

********************************************************************

创建k个点作为初始的质心点（随机选择）

当任意一个点的簇分配结果发生改变时

对数据集中的每一个数据点

对每一个质心

计算质心与数据点的距离

将数据点分配到距离最近的簇

对每一个簇，计算簇中所有点的均值，并将均值作为质心

阅读全文

0 0

linux vi强制退出命令

linux vi强制退出命令

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子仿一淘网一淘论坛二酉山三清首徒李白清平调三首洪荒之三清首徒滴滴清退三类司机三清道长系统三清三拆三清阁超清黏土三清境5个隐藏任务清境桃源黄境清清境农场莱茵清境清境酒店三清境寻仙手游三清境探索点寻仙手游三清境隐藏任务寻仙手游三清境探索清境天星度假山庄清溪自悠然木天道境以其境过清的以是什么意思无境之兽在线超清清宫谋全三册免费阅读三个月引产需要清宫吗清宫和人流区别清宫之生死恋华清宫门票多少钱清宫往事三清山旅游攻略三清山在哪里三清山旅游江西三清山三清山门票三清山风景区三清山风景三清山海拔上饶到三清山江西三清山风景区