Kernel density estimation 核密度估计
来源:互联网 发布:软件测试班 编辑:程序博客网 时间:2024/05/16 17:10
kernel density estimation是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。
可以参考 http://www.mvstat.net/tduong/research/seminars/seminar-2001-05/
https://chemicalstatistician.wordpress.com/2013/06/09/exploratory-data-analysis-kernel-density-estimation-in-r-on-ozone-pollution-data-in-new-york-and-ozonopolis/
核密度估计 ,主要是根据密度函数来计算 集合中个项的分布情况。其中密度函数是以各个数值为中心进行计算。
下面从一维数据来介绍 核密度估计。
如下图1左图所示,有12个数据点,分布在横轴坐标上,现在以箱子(直方图中的小正方块)来对数据点分布情况进行描述,每个箱子的宽度为0.5 (对应 binwidth =0.5) ,图中纵轴表示在横轴区域中出现点的数目。
当以同样的宽度,将最右边的箱子往右移动0.25,那么箱子的堆积方式变为图1右图所示。
图1
从对比图1中左右两直方图,我们可以发现,这些用这些箱子来表示这些点的分布情况存在以下三点缺陷:
① 分布不够平滑
②分布依赖与最后一个箱子的位置
③分布依赖箱子的宽度
而 核心密度估计,引入核心的概念,即将箱子放到每个点上,使得点集中心为箱子的中心,箱子高度为1/6,宽度为0.25,上述点分布变为如下图2所示。
图2
上图2就是 我们所说的 box kernel density estimate 然而,这样做可以解决上述一个问题,
① 不平滑
②不依赖箱子的最后位置
③依赖箱子宽度
为了解决平滑的问题,我们需要选择一个合适的宽度 width ,太小(如下图undersmoothed)或者太大(如下图 oversmoothed )都不合适。
那么如何选择合适的 width 宽度呢?常见的方法是 渐进的积分方差(AMISE = Asymptotic Mean Integrated Squared Error)
bandwidth = min(AMISE) 最优的bandwidth为AMISE最小值
然而,AMISE还是依赖数据的真实的密度,但是这样渐进的到的最小值可以保持平滑,并且能包含数据的分布特征。
上述例子的最优 bandwidth = 0.25, 如下图所示
到此,我们对核心密度函数有了初步的了解,然而,这只是针对一维数据,还有针对二维,多维的情况。
- 核密度估计 Kernel density estimation
- kernel density estimation-核密度估计
- 核密度估计(Kernel density estimation)
- Kernel density estimation 核密度估计
- 核密度估计 Kernel Density Estimation(KDE)
- 核密度估计(kernel density estimation)【zz】
- 核密度估计(kernel density estimation,KDE)
- 核密度估计-Kernel density estimation--精华汇总
- ML之01-核密度估计Kernel Density Estimation(KDE)
- 多变量的核密度估计(multivariate kernel density estimation)
- 核密度估计介绍(An introduction to kernel density estimation)
- Kernel density estimation
- 人群密度估计-Crowd Density
- 人群密度估计--CNN-based Cascaded Multi-task Learning of High-level Prior and Density Estimation for Crowd
- kde- Kernel Density Estimation算法matlab源码
- Kernel Density Estimation Toolbox for MATLAB---问题记录
- scikit-learn学习笔记:Simple 1D Kernel Density Estimation
- 核密度估计原理
- poj Prime Distance 2689 (素数二次打表找最近与最远素数) 好题
- UI学习第一天UIView 和UILabel
- ASI与AFNetworking对区别
- [TwistedFate]UIView UILabel
- intent.addFlag()的Flag的类型介绍
- Kernel density estimation 核密度估计
- MongoDb 安装服务 以及 安全配置
- OnTouchEvent方法:简单应用
- 直接插入排序
- nyoj 找球号(一) 86 (Hash表)
- crc校验,和校验
- [kuangbin带你飞]专题一 简单搜索K - 迷宫问题(POJ 3984)
- 关于cocos2d-x3.0和2.0之间的区别
- hdu4540 威威猫系列故事——打地鼠 (动态规划)