聚类 - 1 - 聚类介绍
来源:互联网 发布:2选1数据选择器原理图 编辑:程序博客网 时间:2024/05/21 22:11
本总结是是个人为防止遗忘而作,不得转载和商用。
很多算法,比如“线性回归、Logistics/softmax回归、SVM”等都是给出了样本xi和样本的类别yi,但是如果只给出样本xi,但是没有给出该样本的类别呢?聚类就是处理这类问题的,它的原理就是根据某种方式的相似性,把一些样本做一个归类。
PS:聚类是无监督的学习方式,刚才提到的线性回归、Logistics/softmax回归、SVM是有监督的学习方式。
如果用矩阵说明的话就是:将m*n这么一个矩阵降维成m*k的矩阵,k<n,所以你直接说矩阵就是降维也可以。
聚类的定义
聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使
类别内的数据相似度较大而类别间的数据相似度较小。
聚类是个非常典型的无监督学习。
相似度/距离计算方法总结
既然聚类思路的核心是度量样本间的内在相似性,那相似度/距离的计算方法是什么呢?
首先先给出个汇总图,然后在解释,汇总图如下:
解释:
闵可夫斯基距离/欧氏距离:
对于两个点(x1,y1),(x2,y2),他们的距离是((x2-x1)2 + (y2-y1)2)1/2
为了拓展为n维,就定义向量x=(x1,y1, z1, ...),不过为了方便举例就用3维来说明吧:
两个三维的点x=(x1,x2, x3),y=(y1, y2, y3)
于是它们的距离就是((x1-y1)2+ (x2-y2)2 + (x3-y3)2)1/2
PS:这就是二范式||x -y||2 ,即:里面都是平方,外面都是平方根。
那如果里面都是3次方,外面是3次方根呢?或者里面都是p次方,外面是p次方根呢?也可以吧,反正就是度量度量两点间的距离。
于是把上面的汇总下就是:闵可夫斯基距离/欧氏距离的公式。
PS:如果p=2时是欧氏距离,p为某一个值时是闵可夫斯基距离,p为∞时是切比雪夫距离。
杰卡德相似系数:
有时有这样的情况:A和B是两个集合。
比如:A喜欢看某些电影,B喜欢看某些电影。我们想度量A和B之间的相似度。
这时就用杰卡德相似系数了。
推荐系统可考虑选择这个。
余弦相似度:
如下图所示:
有些时候会用A和B之间张成的的角的大小来度量两者的相似性
文本相似度可考虑选择这个。
Pearson相似系数:
就是求两个随机变量的相关系数,即:协方差除上标准差。
因为相关系数的绝对值小于等于1,cov(X, Y)可以认为是标准化的协方差,而协方差又是线性关系的一种度量。所以这个可以度量两者的相似性。
相对熵(K||L距离/散度):
这个在最大熵模型中已经解释了,不懂的看我的总结。
Hellinger距离:
令α= 0的话,就有下面的推导
令α= ±1时,这个就是K-L散度。
余弦相似度与Pearson相似系数:
首先,余弦相似度可以做如下变换:
这时,如果令Pearson中的μx和μy都等于0的话,那Pearson相似系数的公式就是余弦相似度的公式。
所以Pearson相关系数即将x、y坐标向量各自平移到原点后的夹角余弦!
这即解释了为何文档间求距离使用夹角余弦——因为这一物理量表征了文档去均值化后的随机向量间相关系数。
最后:
在实际应用中,根据情况选择一种距离求出后,对距离取分之一,就是相似度,即:距离和相似度互为倒数。
聚类的基本思想
给定一个有N个对象的数据集,构造数据的k个簇,k≤n。满足下列条件:
每一个簇至少包含一个对象
每一个对象属于且仅属于一个簇
将满足上述条件的k个簇称作一个合理划分
基本思想:对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属
关系,使得每一次改进之后的划分方案都较前一次好。
有了这个思想后就立马得到了的K-means算法,K-means算法的总结见下一篇。
- 聚类 - 1 - 聚类介绍
- 实用类介绍1
- 百度聚类算法介绍
- 数据挖掘--聚类介绍
- 文本聚类算法介绍
- 层次聚类的介绍
- 聚类算法理论介绍
- TcpConnection类介绍[4-1]
- TcpClient类介绍[3-1]
- python类的介绍1
- 1-介绍
- 1 介绍
- 1 介绍
- #1 介绍
- #1 介绍
- 文本聚类算法简要介绍
- k-modes聚类算法介绍
- Painter画笔介绍(33类)(1)
- 获取非客户区消息
- 关于APK瘦身值得分享的一些经验
- 如何将PDF转为可编辑的Word文档
- 把EXCEL用程序导入到ORACLE中(SpringMVC+MyBatis)
- poj 2251 Dungeon Master 简单队列与BFS
- 聚类 - 1 - 聚类介绍
- Java内存区域与内存溢出
- Win7 64Bit + VS2012 + openBLAS0.2.18
- Oracle学习记录整理笔记1-数据备份
- 关于对数组和指针的测试与分析OC
- hdu 5723 (最小生成树 + 树上的期望)
- 使用JMeter3.0实战之分布式并发测试以及web API接口测试
- OPENCV 3.0.0 win10 vs2013 配置
- Winform--文件上传到服务器