正态分布具有很多好的性质,很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办?
来源:互联网 发布:java应用知乎 编辑:程序博客网 时间:2024/05/01 17:06
数据整体服从正态分布,那样本均值和方差则相互独立。正太分布具有很多好的性质,很多模型假设数据服从正态分布。例如线性回归(linear regression),它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数,就是所有训练集样本出现的条件概率,最大化这个条件概率就是LR要最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。
ML中很多model都假设数据或参数服从正态分布,但是如果数据不服从正态分布怎么办?搜罗到这篇文章:http://udel.edu/~mcdonald/stattransform.html,是关于处理生物领域数据的handbook,很不错,里面用data transformations 方式来解决数据分布的这个问题。这里列举两种,有兴趣的可以看链接文章或继续搜索文章来研究。(希望哪个网友搜罗到好文章也给俺分享下)
data transformations步骤如下,
(1)首先根据数据样本画出均值和方差曲线
(2)如果均值和方差不相关,则不需要转换
(3)如果方差正比于均值,则进行square root transformation转换
(4)如果标准差正比于均值,则进行logarithmic transformation转换
ML中很多model都假设数据或参数服从正态分布,但是如果数据不服从正态分布怎么办?搜罗到这篇文章:http://udel.edu/~mcdonald/stattransform.html,是关于处理生物领域数据的handbook,很不错,里面用data transformations 方式来解决数据分布的这个问题。这里列举两种,有兴趣的可以看链接文章或继续搜索文章来研究。(希望哪个网友搜罗到好文章也给俺分享下)
data transformations步骤如下,
(1)首先根据数据样本画出均值和方差曲线
(2)如果均值和方差不相关,则不需要转换
(3)如果方差正比于均值,则进行square root transformation转换
(4)如果标准差正比于均值,则进行logarithmic transformation转换
检验数据正态性的方法有几大类,其中最为直观计算量也最小的就是图示法,里面有QQ图(分位数图)(@敲代码的张洋 说这个是最屌丝的方法,哈哈)、PP图(百分位数图)、SP图(稳定化概率图)。先不深入研究了,用到了再好好研究下吧。
0 0
- 正态分布具有很多好的性质,很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办?
- 正态分布具有很多好的性质,很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办?
- 正态分布具有很多好的性质,很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办?
- 对服从正态分布的数据进行狄利克雷聚类
- 生成服从正态分布的随机数
- 正态分布
- 正态分布
- 正态分布
- 正态分布
- 正态分布
- 正态分布
- 正态分布
- 如何用minitab检测一组数据是否服从正态分布
- R_数据正态分布检验
- kMeans--正态分布数据分组
- 生成服从二维正态分布的随机数
- MATLAB解决正态分布数据的大致方法
- 同步直播(5):数据的正态分布
- 各种PDF转换问题(三).将AutoCAD图纸转为PDF文档
- 剑指offer——圆圈中最后剩下的数字
- linux高级技巧:redhat下的openstack搭建及应用
- BSP编程模型(以NMF为例,试验基于消息传递的模型BSP过程)
- POJ 1260-Pearls(DP)
- 正态分布具有很多好的性质,很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办?
- 堆排序
- STL在排序算法中的应用小例
- 随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比
- NMF(非负矩阵分解)的SGD(随机梯度下降)实现
- 大小写区分问题
- wikioi3258 梭哈游戏 模拟
- Python 多版本管理工具
- 成佩涛-wifi隐藏模式钓鱼