数据挖掘——认识数据

来源:互联网 发布:美非农数据最新信息 编辑:程序博客网 时间:2024/05/16 05:40

1 数据对象和属性类型

1.1 属性

  • 定义:属性是一个数据字段;
    属性、维、特征、变量可以互换的使用;
  • 分类:标称的、二元的、序数的或数值的;

1.2 标称属性

  • 定义:与名称相关的值是一些符号或事物的名称;
    每个值代表每种类别、编码、状态;
    这些值被看做枚举的;
  • 举例1:
    头发的颜色、婚姻状况、职业

1.3 二元属性

  • 定义:是一种标称属性,只有两个状态:0或1,其中0表示属性不出现,1表示出现;
    二元属性又称布尔属性;
  • 举例1:
    化验结果(阴阳)、性别;

1.4 序数属性

  • 定义:其可能的值之间具有有意义的序,但是相互值之间的差是未知的;
    可以用整数代表类别;
  • 举例1:
    饮料量(小、中、大)、职位(教师、副教授)、军阶(列兵、一等兵、专业军士、下士、中士)、满意度;

1.5 数值属性

  • 定义:定量的,可度量的量,用整数或实数值表示;
    数值属性可以是区间标度的或比率标度的;
  • 举例1:区间标度属性
    温度、日历;
  • 举例2:比率标度属性(具有固有零点的数值属性)
    工作年限、字数、重量、高度、速度、货币量

1.6 离散属性与连续属性

  • 定义:机器学习领域开发的分类算法通常把属性分为离散的和连续的;
    离散属性具有有限或无限可数个值,可以用或不用整数表示;
    连续属性一般用浮点表示;
  • 举例1:离散属性
    头发颜色、顾客数量、年龄;

2 数据的基本统计

基本统计描述可以用来识别数据性质,凸显哪些数据应该视为噪声或离群点;

2.1 中心趋势度量:均值、中位数、众数

  • 定义:
    大部分数据落在何处?这反映数据的中心趋势的思想;
    假设我们有薪资如下值(以千美元为单位),按递增次序显示:30,31,47,50,52,52,56,60,63,70,70,110;

  • 举例1:均值
    集合的平均值,对应关系型数据库提供的内置函数average;
    这里写图片描述
    均值:58;

  • 举例2:加权算术均值或加权均值
    每个值可以与一个权重相关联。权重反映它们依附的对应值的意义、重要性、出现的频率;
    这里写图片描述

  • 举例3:截尾均值
    丢弃高低极端值后的均值;
    去掉高端和低端的2%;

  • 举例4:中位数
    对于倾斜(非对称)数据,数据中心的更好度量是中位数;
    中位数是有序数据值的中间值;
    它是把数据较高的一半与较低的一半分开的值;
    假设给定某属性X的N个值按递增序排序,如果N是奇数,则中位数是该有序集的中 间值;如果N是偶数,则中位数不唯一,它是最中间的两个值和它们之间的任意值。 在X是数值属性的情况下,根据约定,中间数取最中间两个值的平均值;
    中位数:(52+56)/2 = 54;

  • 举例5:区间中位数
    当观测的数据很大时,中位数的计算开销很大。然而,对于数值属性,我们可以很容易计算中位数的近似值;
    假定数据根据他们的值分成区间,并且已知每个区间的频率(即每个数据值的个数);
    例如可以根据年薪将人划分到诸如10~20K美元、20~30K美元等区间;
    令包含中位数频率的区间为中位数区间;
    使用如下公司,用插值计算整个数据集的中位数的近似值:
    这里写图片描述
    L(1)是中位数区间的下界;
    N是整个数据集中值的个数;
    freq(l)求和是低于中位数区间的所有区间的频率和;
    freq(median)是中位数区间的频率;
    width是中位数的宽度;

  • 举例3:众数
    数据集的众数是集合中出现最频繁的值;
    可以定性和定量属性确定众数;
    可能最高频率对应多个不同值,导致多个众数;
    具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的、三峰的;
    一般具有两个或更多的众数的数据集是多峰的;
    对于适度倾斜(非对称)的单峰数值数据,有下面经验关系:
    mean - mode 约等于 3*(mean-median)
    mode为众数;
    mean为均值;
    median为中位数;

0 0
原创粉丝点击