数据科学课程笔记3 --- 数据与数据特征

来源:互联网 发布:知乎 电影推荐 编辑:程序博客网 时间:2024/05/16 10:30

1. 数据的概念

· 数据是用来记录信息的可识别的符号,是信息的具体表现形式

· 现代计算机系统中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量的通称。

· 数据经过加工后就成为信息


2. 数据按性质可分为

· 定位数据,如各种坐标数据

· 定性数据,表示事物属性的数据

· 定量数据,反映事物数量的数据,如长度、面积、体积等几何量或者重量、速度等物理量

· 定时数据,反映事物时间特性的数据,如年月日、时分秒等。


3.数据按产生来源可分为

· 数字数据,如各种统计或者量测数据

· 模拟数据,由连续函数组成,是指在某个区间连续变化的物理量,如声音、图像、温度、压力等


4. 数据按表现形式分类还可以分为图形数据(如点、线、面)、符号数据、文字数据、图像数据、音频数据、视频数据、三维模型数据等等


5. 数据的内容按照不同的方法可以分成不同种的类型,所以数据的内容大体可以包括以下几个方面:

1. 实时数据与历史数据

实时数据仓库是两种食物的组合:实时行为和数据仓库

随着时间的推移和主题的变化,数据仓库系统中的大量细节数据成为历史数据

2. 时态数据 / 事务序列数据

事务数据(Transaction data)是一种特殊类型的记录数据,每个记录是一个项的集合。如顾客一次购物所购买的商品的集合就构成一个事务。

时态数据(Temporal data)又称为时序数据(Sequential data),可以认为是事务数据的扩充,其中每个记录包含一个与之相关联的时间。

序列数据记录各个实体的顺序,如生物序列顺序

三种数据图实例如下:

(事物数据)

(时态数据)

(序列数据)

3. 基于图形的数据

主要包含带有对象之间联系的数据和具有图形对象的数据,如社交网络数据和分子结构数据等。如下



4. 空间数据

空间数据(Spatial data)是用来描述来自于现实的目标,将数据统一化,借以表明空间实体的形状大小以及位置和分布特征。具有空间、时间和专题属性三大特性。

如下图分别是空间数据的矢量数据及栅格数据



5. 流数据

流数据是一种顺序、大量、快速、连续流进和流出的数据序列,可以被视为一个随时间延续而无限增长的 动态数据 集合。流数据具有四个特点:

1. 数据实时到达

2. 数据到达次序独立,不受应用系统所控制

3. 数据规模宏大且不能预知其最大值

4. 数据一经处理,除非特意保存,否则不能再次被取出处理,或者再次提取数据代价昂贵

流数据在网络监控、传感器网络、航空航天、气象测控和金融服务等应用领域广泛出现


6. 数据的属性(特征、维或字段)是指一个数据对象的某方面性质或特性。一个数据对象通过若干个属性来刻画。根据属性的不同性质,可分为以下四种

1. 标称(Nominal)

标称属性是指其属性值只提供足够的信息以区分对象,如颜色、性别、产品编号等

2. 序数(Ordinal)

序数属性是指其属性值提供足够的信息以区分对象的叙述,如成绩等级(优良中及格不及格)、年级等

3. 区间(Interval)

区间属性是指其属性值之间的差是有意义的,如日历日期,摄氏温度等

4. 比率(Ratio)

比率属性是指其属性值之间的差与比率都是有意义的,如长度、时间、速度等


7. 属性可进一步分为两类:

标称属性和序数属性:统称为分类的(Categorical)或者定性的(Qualitative)属性,取值为集合

区间属性和比率属性:统称为数值的(Numeric)或者定量的(Quantitative)属性,取值为区间




7. 属性的数值形式

· 离散数值

离散数据是指其数值只用自然数或者整数单位计算。如企业个数、职工人数、设备台数等。这种数据的数值一般用记数方法取得。

· 连续数值

连续数值是指在一定区间内可以任意取值的数据,其数值是连续不断的,相邻两个数值可以做无限分割,即可取无限个数值。例如人体测量的身高、体重等为连续数据,其数值只能用测量或者计量的方法取得。


8. 数据集

具有相同属性的数据对象的集合,就是数据集。在数据挖掘领域,数据集具有三个重要的特性:维度、稀疏性和分辨率

 · 维度(Dimensionality):是指数据集中的对象具有的属性个数的总和

 · 稀疏性(Sparseness):是指在数据集中,有意义的数据的多少

 · 分辨率(Resolution):可以在不同的分辨率下或者粒度下得到数据,而且在不同的分辨率下对象的数据也不同



-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

数据特征的统计描述


一、集中趋势(Central tendency)

· 一组数据向其中心值靠拢的倾向和程度

· 测度集中趋势就是寻找数据水平的代表值或中心值

· 不同类型的数据用不同的集中趋势测度值

· 低层次数据的测度值适用于高层次数据的测量数据,但高层次数据的测度值并不适用于低层次的测量数据


· 集中趋势的测度方法:1.众数    2.中位数    3.简单均值与加权均值    4.几何平均数    5.众数、中位数和均值的关系    6.众数、中位数和均值的特点和应用    7.数据类型与集中趋势测度值

1. 众数(Mode)

 · 出现次数最多的变量值

 · 不受极端值的影响

 · 一组数据可能没有众数、只有一个众数或者有多个众数(即众数具有不唯一性

· 主要用于分类数据,也可用于顺序数据和数值型数据

2.中位数(Median)

 · 排序后处于中间位置上的值

 · 不受极端值的影响

 · 各变量值与中位数的利差绝对值之和最小,即

 · 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据


    中位数位置的确定: 原始数据中位数位置为(n+1)/ 2,顺序数据中位数位置为 n / 2


3. 简单均值与加权均值

3.1均值(Mean)

· 集中趋势的最常用测度值

· 一组数据的均衡点所在

· 体现了数据的必然性特征

· 易受极端值的影响

· 用于数值型数据,不能用于分类数据和顺序数据

(个人不理解为什么均值能够体现数据的必然性,谷歌了一下大概是说从统计思想上看,均值是一组数据的重心和均衡点所在,是数据误差相互抵消后的必然性结果。比如我们对同一事物进行多次测量,如果所得结果不一致,那可能是由于测量误差所致,也可能是其他因素的偶然影响。利用均值作为其代表值,则可以使误差相互抵消,反映出事物的必然性的数量特征。)


· 均值的数学性质

1. 各变量值与均值的离差之和等于0 即  

2. 各变量值与均值的离差平方和最小,即


3.2 几何平均数(Geometric mean)

· n个变量值乘积的n次方根,即

· 可看作是均值的一种变形, 

· 主要适用于对比率数据的平均

· 主要用于计算平均增长率




小总结:  众数、中位数和均值的特点和应用

1. 众数

· 不受极端值影响

· 具有不唯一性

· 数据分布偏斜程度较大时应用

2. 中位数

· 不受极端值影响

· 数据分布偏斜程度较大时应用

3. 均值

· 易受极端值影响

· 数学性质优良

· 数据对称分布或者接近对称分布时应用




补充:

1.四分位数(Quartile)

        在统计学中,把所有数值由小到大排列成并分成四等份,处于三个分割点位置的数值就是四分位值数

       · 第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。即(n+1)*0.25

       · 第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。即(n+1)*0.5

       · 第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。即(n+1)*0.75

· 第三四分位数与第一四分位数的差距又称为 四分位距(InterQuartile Range,IQR)


2. 调和平均数harmonic mean)

又称倒数平均数。是总体个统计变量倒数的算数平均数的倒数。是平均数的一种,也有简单调和平均数和加权调和平均数两种。

在数学中调和平均数与算数平均数都是独立的自成体系的。计算结果调和平均数恒小于算数平均数。但统计加权调和平均数则是加权算术平均数的变形,附属于算数平均数,不能单独成立体系。且计算结果与加权算术平均数完全相等。主要用来解决在无法掌握总体单位数(频数)的情况下,只有每组的变量值和相应的标量总值,而需要求的平均数的情况下使用的一种数据方法。


二、离散程度

· 离散程度的测度:

    分类数据 ---- 异众比率

    顺序数据 --- 四分位差

    数值型数据 --- 方差及标准差

    相对位置的测量 --- 标准分数

    相对离散程度 --- 离散系数


1.异众比率(variation ratio)

· 对分类数据离散程度的测度

· 非众数组的频数占总频数的比率,公式为

· 用于衡量众数的代表性


2.四分位差(Quartile deviation)

· 对顺序数据离散程度的测度

· 也称为四分间距(inter-quartile range)

· 上四分位数与下四分位数之差

· 反映了中间50%数据的离散程度

· 不受极端值的影响

· 用于衡量中位数的代表性


3. 极差(range)

· 一组数据的最大值与最小值之差

· 离散程度的最简单测度值

· 易受极端值的影响

· 未考虑数据的分布情况,如下图



4. 平均差(mean deviation)

· 各变量值与其均值离差绝对值的平均数

· 能全面反映一组数据的离散程度

· 数学性质较差,在实际中应用较少

· 对于未分组数据,其公式为 

· 对于组距分组数据,去公式为


5. 方差和标准差(Variance and standard deviation)

· 数据离散程度的最常用测度值

· 反映了各变量值与均值的平均差异

· 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差

· 对于未分组数据,方差的计算公式为,标准差的计算公式为

· 对于组距分组数据,方差的计算公式为,标准差的计算公式为


-------

样本方差 ---- 自由度(Degree of freedom)

· 一组数据中可以自由取值的数据的个数

· 当样本数据的个数为 n 时,若样本均值 avr(x) 确定后,只有 n-1 个数据可以自由取值,其中必有一个数据不能自由取值。

        例如,样本有3个数值,x1 = 2 , x2 = 4 , x3 = 9,则 avr(x) = 5,当 avr(x) = 5 确定后,x1 , x2 和 x3 有两个数据可以自由取值,而另一个则不能自由取值,比如取 x1 = 6,x2 = 7,那么 x3 则必然取 2,而不能取其他值

· 样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度来看,在抽样估计中,当用样本方差 S^2 去估计总体方差 σ^2 时,S^2 是 σ^2 的无偏估计量

(无偏估计量:数学期望等于被估计的量,其目的是确定一个估计量的好坏。对于待估参数而言,不同的样本值会得到不同的估计值。要确定一个估计量的好坏,就不能仅仅依据某次抽样结果来衡量,必须由大量抽样的结果来衡量。对此,一个自然而基本的衡量标准是要求估量无系统偏差。也就是说,尽管在一次抽样中得到的估计值不一定恰好等于待估参数的真值,但在大量重复抽样时,所得到的估计值平均起来应与待估参数的真值相同。换句话说,希望估计量的均值(数学期望)应等于位置参数的真值,这就是所谓的无偏性的要求)


6. 标准分数(Standard score)

· 也称标准化值

· 对某一个值在一组数据中相对位置的度量,公式为

· 可用于判断一组数据是否有离群点

· 用于对变量的标准化处理


标准分数的性质:

· 均值等于0


· 方差等于1


(z分数只是将原始数据进行了线性变换,并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据的均值变为 0,标准差变为 1)



---------------------------------------

经验法则: 当一组数据呈对称分布时,

约有 68%的数据在平均数加减 1 个标准差的范围之内

约有 95%的数据在平均数加减 2 个标准差的范围之内

约有 99%的数据在平均数加减 3 个标准差的范围之内


切比雪夫不等式(Chebyshev's inequality)

· 如果当一组数据不是对称分布,经验法则就不再适用,此时可以使用切比雪夫不等式,它对于任何分布形状的数据都适用

· 切比雪夫不等式提供的是 ” 下界 “,也就是 “ 所占比例至少和多少 ”

· 对于任意分布形态的数据,根据切比雪夫不等式,至少有 1 - 1 / ( k^2) 的数据落在 k 个标准差之内。其中 k 是大于 1 的任意值,但不一定是整数



对于 k = 2, 3, 4,该不等式的含义是

· 至少有 75% 的数据落在平均数加减 2 个标准差的范围之内

· 至少有 89% 的数据落在平均数加减 3 个标准差的范围之内

· 至少有 94% 的数据落在平均数加减 4 个标准差的范围之内


7. 离散系数(Coefficient of variation)

· 标准差与其相应的均值之比,公式为

· 对数据相对离散程度的测度

· 消除了数据水平高低和计量单位的影响

· 用于对不同组别数据离散程度的比较


小结:


------------------------------------------------------------------------------------------------------------

数据分布特征



1. 偏态(Skewness)

        数据分布偏斜程度的测度

        · 偏态系数 = 0,对称分布

        · 偏态系数 < 0,左偏分布

        · 偏态系数 > 0,右偏分布


偏态系数(Skewness coefficient)

· 按照原始数据计算,其公式为

· 按照分组数据计算,其公式为


------------------------------------------------------------------------------------------

数据的相似性和相异性度量

· 两个对象之间的相似度(Similarity):两个对象相似程度的数值度量。两个对象越相似,它们的相似度就越高

· 两个对象之间的相异度(Dissimilarity):两个对象相异程度的数值度量。两个对象越相似,它们的相异度就越低

· 通常使用变换把相似度转换成相异度或相反,或者把邻近度变换到一个特定区间,如 [ 0 , 1 ]






· 二元数据的相似性度量

设x和y是两个对象,都由n个二元属性组成。这样的两个对象(即两个二元向量)的比较可生成如下四个量(频率):

· f00 = x取0 并且 y取0 的属性个数

· f01 = x取0 并且 y取1 的属性个数

· f10 = x取1 并且 y取0 的属性个数

· f11 = x取1 并且 y取1 的属性个数

· 简单匹配系数(Simple Matching Coefficient,SMC)


· Jaccard系数:常用来处理仅包含非对称的二元属性的对象




· 余弦相似度:文档相似性最常用的度量之一