程序博客网 > 窗帘款式设计软件

K-Means聚类算法

来源：互联网发布：窗帘款式设计软件编辑：程序博客网时间：2024/04/29 06:05

K-Means聚类算法

K-Means聚类算法是典型的基于距离的非层次聚类算法，在最小化误差的函数的基础上将数据划分为预设的类数K，采用距离作为相似性的评价标准，即认为两个对象的距离越近，其相似度就越大。

1.算法过程：

从N个样本数据中随机选取K个对象作为初始的聚类中心。
分别计算每个样本到各个聚类中心的距离，将对象分配到距离最近的聚类中。
所有对象分配完成之后，重新计算K个聚类的中心。
与前一次计算得到的K个聚类中心相比较，如果聚类中心发生了变化，则执行步骤2。否则就转步骤5。
当聚类中心不发生变化的时停止并输出聚类的结果。

在所有的对象分配完成后，重新计算K个聚类中心的时候，对于连续数据，聚类中心选择该簇的均值，但是当样本的一些属性是离散（分类变量）时，均值是无定义的，可以使用K-众数方法。

2距离的计算

距离的种类，有三种：
1）样本与样本。
2）样本与簇（样本与簇中心）。
3）簇与簇（簇中心和簇中心）。
连续属性：
欧几里得距离; 曼哈吨距离; 闵可夫斯基距离;
欧几里得距离：这里写图片描述
曼哈吨距离：
闵可夫斯基距离：

文档数据（以每个单词作为属性，次数为值，组成一个向量）。
余弦相似性度量：
这里写图片描述
其中a，b为两个向量。

3目标函数

使用的是平方和SSE作为聚类质量的目标函数，对于两种不同的聚类结果，选择误差平方和最小的分类结果。

连续属性的SSE计算公式为：
这里写图片描述
文本数据的SSE计算公式为：

下面对上面公式的符号进行说明:
Ci:簇i的聚类中心
K：聚类的簇数
迭代符下的Ci是第i簇
x：样本

阅读全文

0 0

窗帘款式设计软件

窗帘款式设计软件

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子 excel出现乱码怎么办美容月卡季卡年卡怎么办气泡机没气了怎么办如果微信转错账号怎么办电脑玩炫舞很卡怎么办笔记本按键冲突怎么办音乐宇宙打不开怎么办节奏大师进不去怎么办不想更新ios11怎么办扣扣充值不到账怎么办运营商查询上限怎么办验血不敢扎针怎么办鼠标标志不见了怎么办铭文不够怎么办劲舞派对过不去怎么办 mavcr71丢失怎么办孩子节奏感不好怎么办想换个代理上级怎么办 appbeta版过期怎么办华为触屏坏了怎么办小米finddevice怎么办取消进网证以后怎么办电力入网许可证怎么办香港过关首饰盒怎么办香港数据网络怎么办小米录屏没声音怎么办耳麦接触不良怎么办插头接触不良怎么办耳机孔里有异物怎么办华为耳机外放怎么办 iphone8没有耳机怎么办耳机线容易断怎么办耳机接口松动怎么办荣耀忘记密码怎么办华为wlan打不开怎么办华为手机打不开怎么办 ipad无法关机怎么办耳机不好用怎么办 oppor11没有声音怎么办孔大了怎么办手机耳机音量小怎么办