Data mining基础之认识数据(2)

来源:互联网 发布:2014年中国进出口数据 编辑:程序博客网 时间:2024/06/08 11:56

认识数据(二)之统计描述

不想当项目负责人的技术人员不是好的科研人员

  • 中心趋势度量
  • 度量数据散布
  • 图形显示

一、中心趋势度量

  • 均值
    • 加权算数均值或加权平均:权重反映它们所依附的对应值的意义、重要性或出现的频率
    • 截尾均值:能抵消少数极端值的影响,丢弃高低极端值后的均值,应避免截取太多(如20%)
  • 中位数:对倾斜(非对称)数据,这是更好的度量,是有序数据值的中间值
  • 众数
  • 中列数:最大和最小值的平均值

正倾斜:众数出现在小于中位数的值上
负倾斜:众数出现在大于中位数的值上

二、 度量数据散布

  • 极差:max-min
  • 分位数:数据分布的每隔一定间隔上的点
  • 标称属性被看作是分类的(categorical)
  • 这些值不必具有有意义的序
  • 从计算机科学来看,这些值是枚举的(enumeration)
hair_color=0#头发为黑色hair_color=1#头发为棕色hair_color=2#头发为淡黄色occupation=0#职业为教师occupation=0#职业为牙医occupation=0#职业为程序员
  • 标称属性之上,数学运算没有意义
  • 标称属性值并不具有有意义的序,并且不是定量的
  • 找出其均值或中位数没有意义,有意义的是该属性最常出现的值,称为众数

三、二元属性

  • 二元属性是标称属性的一种,只有两个类别或状态:0或1
  • 0通常表示不出现,1表示出现
  • 二元属性又称作布尔属性,对应于true和false
smoker=0#患者不抽烟smoker=1#患者抽烟
  • 一个二元属性是对称的,即它的两种状态具有同等价值并且携带相同的权重,如性别有男女这两种状态,编码为0或1并无偏好
  • 一个二元属性是非对称的,即其状态结果不是同样重要,如艾滋病病毒(HIV)化验的阳性和阴性结果,这事将用1对重要的结果(通常是稀有的)编码,而另一个用0编码
medical_test=0#HIV阴性medical_test=1#HIV阳性

四 、序数属性

  • 序数属性(ordinal attribute)其可能的值之间具有有意义的序或秩评定(ranking)
  • 相继值之间的差是未知的
#快餐店的饮料量具有——小、中、大volume=0#小杯饮料volume=1#中杯饮料volume=2#大杯饮料#等级评定调查grade=0#很不满意grade=1#不太满意grade=2#中性grade=3#满意grade=4#很满意
  • 序数属性也可通过把数值量的值域划分成有限个有序类别,把数值属性离散化得到
  • 中心趋势可用众数和中位数表示,但不能定义均值

注意:

标称、二元和序数属性都是定性的,只描述对象的特征,不给出实际大小或数量。通常属性值都是代表类别的词。

五 、数值属性

  • 数值属性(numerical attribute)是定量的,即是可度量的量,用整数或实数表示。
  • 数值属性可以是区间标度的或比率标度的

1、区间标度属性(interval-scaled)

  • 区间标度属性用相等的单位尺度度量。
  • 区间属性的值有序,可以为正、0或负
  • 允许比较和定量评估值之间的差,如temperature属性
  • 该数值属性不存在真正的零点,不能说一个温度值是另一个温度值的几倍
  • 可以计算值之间的差,均值、中位数和众数

2、比率标度属性(ratio-scaled)

  • 比率标度属性是具有固定零点的数值属性。
  • 可以说一个温度值是另一个温度值的几倍
  • 可以计算值之间的差,均值、中位数和众数

六、离散属性与连续属性

  • 离散属性具有有限或无限可数个值,可以用或不用整数表示
  • 如果属性不是离散的,则它是连续的