数据挖掘——认识数据

来源：互联网发布：美非农数据最新信息编辑：程序博客网时间：2024/05/16 05:40

1 数据对象和属性类型

1.1 属性

定义：属性是一个数据字段；
属性、维、特征、变量可以互换的使用；
分类：标称的、二元的、序数的或数值的；

1.2 标称属性

定义：与名称相关的值是一些符号或事物的名称；
每个值代表每种类别、编码、状态；
这些值被看做枚举的；
举例1：
头发的颜色、婚姻状况、职业

1.3 二元属性

定义：是一种标称属性，只有两个状态：0或1，其中0表示属性不出现，1表示出现；
二元属性又称布尔属性；
举例1：
化验结果（阴阳）、性别；

1.4 序数属性

定义：其可能的值之间具有有意义的序，但是相互值之间的差是未知的；
可以用整数代表类别；
举例1：
饮料量（小、中、大）、职位（教师、副教授）、军阶（列兵、一等兵、专业军士、下士、中士）、满意度；

1.5 数值属性

定义：定量的，可度量的量，用整数或实数值表示；
数值属性可以是区间标度的或比率标度的；
举例1：区间标度属性
温度、日历；
举例2：比率标度属性（具有固有零点的数值属性）
工作年限、字数、重量、高度、速度、货币量

1.6 离散属性与连续属性

定义：机器学习领域开发的分类算法通常把属性分为离散的和连续的；
离散属性具有有限或无限可数个值，可以用或不用整数表示；
连续属性一般用浮点表示；
举例1：离散属性
头发颜色、顾客数量、年龄；

2 数据的基本统计

基本统计描述可以用来识别数据性质，凸显哪些数据应该视为噪声或离群点；

2.1 中心趋势度量：均值、中位数、众数

定义：
大部分数据落在何处？这反映数据的中心趋势的思想；
假设我们有薪资如下值（以千美元为单位），按递增次序显示：30,31,47,50,52,52,56,60,63,70,70,110；
举例1：均值
集合的平均值，对应关系型数据库提供的内置函数average；

均值：58；
举例2：加权算术均值或加权均值
每个值可以与一个权重相关联。权重反映它们依附的对应值的意义、重要性、出现的频率；
举例3：截尾均值
丢弃高低极端值后的均值；
去掉高端和低端的2%；
举例4：中位数
对于倾斜（非对称）数据，数据中心的更好度量是中位数；
中位数是有序数据值的中间值；
它是把数据较高的一半与较低的一半分开的值；
假设给定某属性X的N个值按递增序排序，如果N是奇数，则中位数是该有序集的中间值；如果N是偶数，则中位数不唯一，它是最中间的两个值和它们之间的任意值。在X是数值属性的情况下，根据约定，中间数取最中间两个值的平均值；
中位数：（52+56）/2 = 54;
举例5：区间中位数
当观测的数据很大时，中位数的计算开销很大。然而，对于数值属性，我们可以很容易计算中位数的近似值；
假定数据根据他们的值分成区间，并且已知每个区间的频率（即每个数据值的个数）；
例如可以根据年薪将人划分到诸如10~20K美元、20~30K美元等区间；
令包含中位数频率的区间为中位数区间；
使用如下公司，用插值计算整个数据集的中位数的近似值：

L(1)是中位数区间的下界；
N是整个数据集中值的个数；
freq(l)求和是低于中位数区间的所有区间的频率和；
freq(median)是中位数区间的频率；
width是中位数的宽度；
举例3：众数
数据集的众数是集合中出现最频繁的值；
可以定性和定量属性确定众数；
可能最高频率对应多个不同值，导致多个众数；
具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的、三峰的；
一般具有两个或更多的众数的数据集是多峰的；
对于适度倾斜（非对称）的单峰数值数据，有下面经验关系：
mean - mode 约等于 3*（mean-median）
mode为众数；
mean为均值；
median为中位数；

0 0