【数据挖掘知识点一】数据分布特征的描述

来源：互联网发布：外链网盘系统源码编辑：程序博客网时间：2024/06/01 20:34

知识点：数据分布特征的描述

1、变量集中趋势的测定

变量在不同个体或不同时间条件下具体表现出来的数据是不同的，不过众多个体的数据常常会呈现出在一定范围内围绕某个中心而波动的分布特征。

衡量数据集中趋势的指标有两类：一类是数值平均数，包括算数平均数、调和平均数、几何平均数；另一类是位置代表值，根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值，主要有众数和中位数。

测定集中趋势指标的作用主要是：1）反映变量分布的集中趋势和一般水平；2）可用来比较同一现象在不同空间或不同阶段的发展水平；3）可用来分析现象之间的依存关系。

1）数值平均数

a、算术平均数(arithmeticmean)，即均值(mean)：将一组数据的总和除以这组数据的项数所得的结果。

2）位置平均数

a、众数(mode)是一组数据中出现频数最多、频率最高的变量值。众数代表的是最常见的、最普遍的状况，是对现象集中趋势的度量。众数既可度量定量变量（数值型数据）的集中趋势，也可用来测度定性变量（非数值型数据）的集中趋势。

b、中位数(median)是将数据从小到大排序后位置居中的数值，奇数取中间，偶数取中间两个数值的平均数。

总结：算术平均数是数值平均数，和中位数一样在任何一组数据中都存在且是唯一的。算术平均数受数据中极端值的影响，而众数和中位数则不受极端值的影响。算术平均和众数、中位数三者之间的数量关系取决于数据分布的偏斜（非对称）程度：对于呈现单峰分布特征的数据，如果分布是对称，则三者相等；如分布是左偏（负偏），数据中的极小值会使算术平均数偏向较小的一方，极小值大小不影响中位数，但其所占项数会影响数据的中间位置从而略使中位数偏小，众数则完全不受极小值大小和位置的影响，所以是众数大于中位数大于算术平均数；如果分布式右偏（正偏），则反之。

参考：http://blog.csdn.net/fjssharpsword/article/details/54135918

2、变量离散程度的测定

数据的集中趋势和离散程度是数据分布最基本的两大特征。集中趋势反映了数据聚集的中心所在，数据的离散程度说明数据之间差异程度的大小。测量离散程度的指标叫变异指标，其主要作用是描述数据的离散程度，反映变量的的稳定性、均衡性；也可以衡量平均数的代表性，数据分布越分散、离散程度越大，平均数的代表性就越小。

变异指标主要有两类：一类是用绝对数或平均数表示的，主要有极差、四分位差、平均差、标准差等，这类变异指标的计量单位与数据的计量单位相同；另一类是用相对数表示，主要有离散系统、异众比率等，是没有量纲（物理量的基本属性）的比率。

1）极差、四分位差和平均差

a、极差(range)：是一组数据的最大值和最小值之差，R=x_max-x_min。

b、四分位差(quartiledeviation)：为克服极差受极端值影响的局限性，去到部分尾端数值后，再来测度中间数据的差异程度，四分位差即是。四分位差是第3四分位差与第1四分位差之差。四分位差实质是两段各去掉四分之一的数据以后的极差，表示占全部数据一半的中间数据的离散程度。四分位差依据数据顺序计算，是一种顺序统计量。

阅读全文

0 0