【数据挖掘知识点一】数据分布特征的描述
来源:互联网 发布:外链网盘系统源码 编辑:程序博客网 时间:2024/06/01 20:34
知识点:数据分布特征的描述
1、变量集中趋势的测定
变量在不同个体或不同时间条件下具体表现出来的数据是不同的,不过众多个体的数据常常会呈现出在一定范围内围绕某个中心而波动的分布特征。
衡量数据集中趋势的指标有两类:一类是数值平均数,包括算数平均数、调和平均数、几何平均数;另一类是位置代表值,根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。
测定集中趋势指标的作用主要是:1)反映变量分布的集中趋势和一般水平;2)可用来比较同一现象在不同空间或不同阶段的发展水平;3)可用来分析现象之间的依存关系。
1)数值平均数
a、算术平均数(arithmeticmean),即均值(mean):将一组数据的总和除以这组数据的项数所得的结果。
2)位置平均数
a、众数(mode)是一组数据中出现频数最多、频率最高的变量值。众数代表的是最常见的、最普遍的状况,是对现象集中趋势的度量。众数既可度量定量变量(数值型数据)的集中趋势,也可用来测度定性变量(非数值型数据)的集中趋势。
b、中位数(median)是将数据从小到大排序后位置居中的数值,奇数取中间,偶数取中间两个数值的平均数。
总结:算术平均数是数值平均数,和中位数一样在任何一组数据中都存在且是唯一的。算术平均数受数据中极端值的影响,而众数和中位数则不受极端值的影响。算术平均和众数、中位数三者之间的数量关系取决于数据分布的偏斜(非对称)程度:对于呈现单峰分布特征的数据,如果分布是对称,则三者相等;如分布是左偏(负偏),数据中的极小值会使算术平均数偏向较小的一方,极小值大小不影响中位数,但其所占项数会影响数据的中间位置从而略使中位数偏小,众数则完全不受极小值大小和位置的影响,所以是众数大于中位数大于算术平均数;如果分布式右偏(正偏),则反之。
参考:http://blog.csdn.net/fjssharpsword/article/details/54135918
2、变量离散程度的测定
数据的集中趋势和离散程度是数据分布最基本的两大特征。集中趋势反映了数据聚集的中心所在,数据的离散程度说明数据之间差异程度的大小。测量离散程度的指标叫变异指标,其主要作用是描述数据的离散程度,反映变量的的稳定性、均衡性;也可以衡量平均数的代表性,数据分布越分散、离散程度越大,平均数的代表性就越小。
变异指标主要有两类:一类是用绝对数或平均数表示的,主要有极差、四分位差、平均差、标准差等,这类变异指标的计量单位与数据的计量单位相同;另一类是用相对数表示,主要有离散系统、异众比率等,是没有量纲(物理量的基本属性)的比率。
1)极差、四分位差和平均差
a、极差(range):是一组数据的最大值和最小值之差,R=xmax-xmin。
b、四分位差(quartiledeviation):为克服极差受极端值影响的局限性,去到部分尾端数值后,再来测度中间数据的差异程度,四分位差即是。四分位差是第3四分位差与第1四分位差之差。四分位差实质是两段各去掉四分之一的数据以后的极差,表示占全部数据一半的中间数据的离散程度。四分位差依据数据顺序计算,是一种顺序统计量。- 【数据挖掘知识点一】数据分布特征的描述
- 常见的机器学习与数据挖掘知识点之常见分布
- 数据挖掘2-数据描述
- 数据挖掘模型的两种特征
- 数据挖掘里面的特征工程
- 常用的机器学习&数据挖掘知识点
- 常用的机器学习&数据挖掘知识点
- 常用的数据挖掘&机器学习知识点
- 常见的机器学习&数据挖掘知识点
- 常见的机器学习&数据挖掘知识点
- 常见的机器学习&数据挖掘知识点
- 常见的机器学习&数据挖掘知识点
- 数据挖掘中的概念描述
- 数据挖掘--分类--决策树--特征
- 数据挖掘之特征选择
- 数据挖掘之特征选择
- 数据挖掘之特征选择
- 数据挖掘基础:描述性数据汇总
- Android 图片
- 第三方登录
- 尺度空间理论
- android APP中启动第三方地图
- Activity的创建(从Activity的角度理解IWindowSession)
- 【数据挖掘知识点一】数据分布特征的描述
- 提示音标签使用
- 判断是否已经序列化 php
- 第一周
- Educational Codeforces Round 23 E. Choosing The Commander(01Trie)
- Java基础-----集合Arraylist
- hdu 2844 多重背包
- HttpClient使用详解
- 【js工具类方法】截取地址栏参数