均值,中位数,正态分布和Kmeans
来源:互联网 发布:邓肯生涯最高数据 编辑:程序博客网 时间:2024/04/29 23:53
均值:
就是最普通的算术平均值,我们在使用该统计量对分布进行描述的时候是需要数据分布满足正态性的,因为只有满足正态性的时候均值才有意义,辅助理解这个原因,可以想一下为啥mean+/-3std 的区域包含99%以上的样本点就好了。
中位数:
即中间位置的数,当我们的分布中有少部分极端值会拉大整体的均值的值的时候,我们可以尝试使用中位数来表示整个数据的分布状态。
Kmeans:
聚类算法,具体过程如下(CS229-leture-note7a):
第一步是找寻最靠近当前聚类中心的所有样本点,计算方式欧式距离衡量。
第二步是求取属于当前簇的样本点的新的聚类中心,计算方法是当前簇的样本的均值就是新的聚类中心。
注意这里是均值,那么这说明了什么呢?这说明属于某个簇的样本点的集合我们是假设这个集合是服从正态分布的。
那么该集合所对应的各个属性也是需要符合正态分布的,这意味着什么呢?这意味着用Kmeans聚类的特征需要满足正态分布。
不满足的时候,我们需要将其正态化。常用的正态化方法有cox-box方法:
推荐两篇介绍正态化的文章:
http://mp.weixin.qq.com/s?__biz=MzAxMDA4NjU3OA==&mid=2652548058&idx=1&sn=35f73ef5a627b20c1fd29e3eb3ed8b33&scene=21#wechat_redirect
http://health.sohu.com/20160423/n445811944.shtml
0 0
- 均值,中位数,正态分布和Kmeans
- 中位数和均值
- 中位数、众数和均值的关系
- kMeans--正态分布数据分组
- K均值(KMeans)
- Kmeans(K均值)与Kmeans++和KNN(K近邻)算法比较
- Kmeans(K均值)与Kmeans++和KNN(K近邻)算法比较
- 均值与中位数随想
- 均值、中位数、众数
- K均值(kmeans)分类
- Kmeans和kmeans++
- 聚类算法1-------K-均值(KMeans)算法原理和Python实现
- Matlab矩阵处理小结(2)-读数据求均值和中位数 绘制errorbar图
- 概率统计基础(1)均值、中位数、众数、极差和中程数
- Matlab函数kmeans:K-均值聚类
- Kmeans K均值聚类,OpenCV实现
- opencv K均值法代码 kmeans()
- K均值聚类(Kmeans)
- Supervised data compression via LDA
- 数论——基础概念
- 4.12
- try catch finally语句中含有return语句的执行情况
- servlet 入门demo
- 均值,中位数,正态分布和Kmeans
- gulp的使用
- Android异步任务机制之 AsyncTask
- c++虚函数实现机制及内存模型
- 1083. List Grades (25)[结构体排序]
- 使用python-aiohttp搭建微信公众平台
- LeetCode58 Length of Last Word
- Android自定义view-图片选色器
- String类和StringBuffer类的常用操作