数据挖掘——认识数据
来源:互联网 发布:美非农数据最新信息 编辑:程序博客网 时间:2024/05/16 05:40
1 数据对象和属性类型
1.1 属性
- 定义:属性是一个数据字段;
属性、维、特征、变量可以互换的使用; - 分类:标称的、二元的、序数的或数值的;
1.2 标称属性
- 定义:与名称相关的值是一些符号或事物的名称;
每个值代表每种类别、编码、状态;
这些值被看做枚举的; - 举例1:
头发的颜色、婚姻状况、职业
1.3 二元属性
- 定义:是一种标称属性,只有两个状态:0或1,其中0表示属性不出现,1表示出现;
二元属性又称布尔属性; - 举例1:
化验结果(阴阳)、性别;
1.4 序数属性
- 定义:其可能的值之间具有有意义的序,但是相互值之间的差是未知的;
可以用整数代表类别; - 举例1:
饮料量(小、中、大)、职位(教师、副教授)、军阶(列兵、一等兵、专业军士、下士、中士)、满意度;
1.5 数值属性
- 定义:定量的,可度量的量,用整数或实数值表示;
数值属性可以是区间标度的或比率标度的; - 举例1:区间标度属性
温度、日历; - 举例2:比率标度属性(具有固有零点的数值属性)
工作年限、字数、重量、高度、速度、货币量
1.6 离散属性与连续属性
- 定义:机器学习领域开发的分类算法通常把属性分为离散的和连续的;
离散属性具有有限或无限可数个值,可以用或不用整数表示;
连续属性一般用浮点表示; - 举例1:离散属性
头发颜色、顾客数量、年龄;
2 数据的基本统计
基本统计描述可以用来识别数据性质,凸显哪些数据应该视为噪声或离群点;
2.1 中心趋势度量:均值、中位数、众数
定义:
大部分数据落在何处?这反映数据的中心趋势的思想;
假设我们有薪资如下值(以千美元为单位),按递增次序显示:30,31,47,50,52,52,56,60,63,70,70,110;举例1:均值
集合的平均值,对应关系型数据库提供的内置函数average;
均值:58;举例2:加权算术均值或加权均值
每个值可以与一个权重相关联。权重反映它们依附的对应值的意义、重要性、出现的频率;举例3:截尾均值
丢弃高低极端值后的均值;
去掉高端和低端的2%;举例4:中位数
对于倾斜(非对称)数据,数据中心的更好度量是中位数;
中位数是有序数据值的中间值;
它是把数据较高的一半与较低的一半分开的值;
假设给定某属性X的N个值按递增序排序,如果N是奇数,则中位数是该有序集的中 间值;如果N是偶数,则中位数不唯一,它是最中间的两个值和它们之间的任意值。 在X是数值属性的情况下,根据约定,中间数取最中间两个值的平均值;
中位数:(52+56)/2 = 54;举例5:区间中位数
当观测的数据很大时,中位数的计算开销很大。然而,对于数值属性,我们可以很容易计算中位数的近似值;
假定数据根据他们的值分成区间,并且已知每个区间的频率(即每个数据值的个数);
例如可以根据年薪将人划分到诸如10~20K美元、20~30K美元等区间;
令包含中位数频率的区间为中位数区间;
使用如下公司,用插值计算整个数据集的中位数的近似值:
L(1)是中位数区间的下界;
N是整个数据集中值的个数;
freq(l)求和是低于中位数区间的所有区间的频率和;
freq(median)是中位数区间的频率;
width是中位数的宽度;举例3:众数
数据集的众数是集合中出现最频繁的值;
可以定性和定量属性确定众数;
可能最高频率对应多个不同值,导致多个众数;
具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的、三峰的;
一般具有两个或更多的众数的数据集是多峰的;
对于适度倾斜(非对称)的单峰数值数据,有下面经验关系:
mean - mode 约等于 3*(mean-median)
mode为众数;
mean为均值;
median为中位数;
- 数据挖掘——认识数据
- 数据挖掘读书笔记一——数据认识
- 2.数据挖掘概念笔记——认识数据
- 《数据挖掘》学习笔记——认识数据(1)
- 《数据挖掘》学习笔记——认识数据(2)
- 数据挖掘读书笔记-认识数据
- 数据挖掘的认识误区
- 数据挖掘的初步认识
- 我认识的数据挖掘
- 【数据挖掘笔记二】认识数据
- 机器学习和数据挖掘2——来认识Jupyter
- 从整体上认识数据挖掘
- 数据挖掘学习篇——数据挖掘的概念
- 数据挖掘——数据分析挖掘体系
- 数据挖掘学习【02】——数据
- 【数据挖掘导论】——数据质量
- 数据可视化——《数据挖掘》笔记
- 数据挖掘——尝鲜
- vs 标识当前文档
- Pycharm常用快捷键
- vbs启动应用
- GSON,json转换成对象,转换成字符串
- maven war
- 数据挖掘——认识数据
- RecycleView 的 item无法包裹内容,warp_content无效
- Oracle中常用表和视图
- 非常好的架构设计知识
- 20. Valid Parentheses
- opencv调用USB工业相机
- 分数运算
- 分别利用html+js和canvas绘制时钟
- 综合布线实训室解决方案(转载)