kmeans理解

来源：互联网发布：Java开发工程师招聘编辑：程序博客网时间：2024/06/18 09:00

一：总述

k-means作为数据挖掘技术中的一种分析信息的技术，它是一种无监督方式机制，因为在这种机制下，不需要提前了解数据集的相关特征。k-means作为一种聚类算法，其核心思想就是在数据集中找到K个聚类中心，然后根据距离公式，计算距离，将到各个聚类中心距离最小的加到一个类中，然后反复迭代，直到满足最小方差，并输出聚类结果。

二：相关步骤

（1）给出数据集D，事先对数据集D做处理，可以根据规格化函数等方法进行处理。

（2）在处理后的数据集中选择K个聚类中心，并计算距离，可以找到距离最大的几个点，作为孤立点

（3）通过距离函数计算到每个聚类中心的距离，并将其加入到距离近的聚类中心

（4）计算各个类的方差

（5）反复（3）、（4）步骤，直到满足最小方差，保证每个类中相似度最大，各类之间相似度最小

（6）输出各个类

0 0