Data mining基础之认识数据(2)
来源:互联网 发布:2014年中国进出口数据 编辑:程序博客网 时间:2024/06/08 11:56
认识数据(二)之统计描述
不想当项目负责人的技术人员不是好的科研人员
- 中心趋势度量
- 度量数据散布
- 图形显示
一、中心趋势度量
- 均值
- 加权算数均值或加权平均:权重反映它们所依附的对应值的意义、重要性或出现的频率
- 截尾均值:能抵消少数极端值的影响,丢弃高低极端值后的均值,应避免截取太多(如20%)
- 中位数:对倾斜(非对称)数据,这是更好的度量,是有序数据值的中间值
- 众数
- 中列数:最大和最小值的平均值
正倾斜:众数出现在小于中位数的值上
负倾斜:众数出现在大于中位数的值上
二、 度量数据散布
- 极差:max-min
- 分位数:数据分布的每隔一定间隔上的点
- 标称属性被看作是分类的(categorical)
- 这些值不必具有有意义的序
- 从计算机科学来看,这些值是枚举的(enumeration)
hair_color=0#头发为黑色hair_color=1#头发为棕色hair_color=2#头发为淡黄色occupation=0#职业为教师occupation=0#职业为牙医occupation=0#职业为程序员
- 标称属性之上,数学运算没有意义
- 标称属性值并不具有有意义的序,并且不是定量的
- 找出其均值或中位数没有意义,有意义的是该属性最常出现的值,称为众数
三、二元属性
- 二元属性是标称属性的一种,只有两个类别或状态:0或1
- 0通常表示不出现,1表示出现
- 二元属性又称作布尔属性,对应于true和false
smoker=0#患者不抽烟smoker=1#患者抽烟
- 一个二元属性是对称的,即它的两种状态具有同等价值并且携带相同的权重,如性别有男女这两种状态,编码为0或1并无偏好
- 一个二元属性是非对称的,即其状态结果不是同样重要,如艾滋病病毒(HIV)化验的阳性和阴性结果,这事将用1对重要的结果(通常是稀有的)编码,而另一个用0编码
medical_test=0#HIV阴性medical_test=1#HIV阳性
四 、序数属性
- 序数属性(ordinal attribute)其可能的值之间具有有意义的序或秩评定(ranking)
- 相继值之间的差是未知的
#快餐店的饮料量具有——小、中、大volume=0#小杯饮料volume=1#中杯饮料volume=2#大杯饮料#等级评定调查grade=0#很不满意grade=1#不太满意grade=2#中性grade=3#满意grade=4#很满意
- 序数属性也可通过把数值量的值域划分成有限个有序类别,把数值属性离散化得到
- 中心趋势可用众数和中位数表示,但不能定义均值
注意:
标称、二元和序数属性都是定性的,只描述对象的特征,不给出实际大小或数量。通常属性值都是代表类别的词。
五 、数值属性
- 数值属性(numerical attribute)是定量的,即是可度量的量,用整数或实数表示。
- 数值属性可以是区间标度的或比率标度的
1、区间标度属性(interval-scaled)
- 区间标度属性用相等的单位尺度度量。
- 区间属性的值有序,可以为正、0或负
- 允许比较和定量评估值之间的差,如temperature属性
- 该数值属性不存在真正的零点,不能说一个温度值是另一个温度值的几倍
- 可以计算值之间的差,均值、中位数和众数
2、比率标度属性(ratio-scaled)
- 比率标度属性是具有固定零点的数值属性。
- 可以说一个温度值是另一个温度值的几倍
- 可以计算值之间的差,均值、中位数和众数
六、离散属性与连续属性
- 离散属性具有有限或无限可数个值,可以用或不用整数表示
- 如果属性不是离散的,则它是连续的
阅读全文
0 0
- Data mining基础之认识数据(2)
- 数据挖掘-——Data Mining(2)
- 数据挖掘(Data Mining)
- 数据挖掘(Data Mining)
- data mining:数据预处理
- 数据挖掘 ------Data Mining(1)
- 数据挖掘(Data Mining, uva1591)
- 数据挖掘幽默(Data Mining Humor)
- 网络数据抽取(Web data mining)
- 数据挖掘-——Data Mining(3)
- Data Mining数据分析经典语录汇总
- Data Mining 数据挖掘学习清单
- 轨迹数据挖掘(trajectory data mining)
- 大数据 Big Data & 数据挖掘 Data Mining
- Data Mining
- Data Mining
- Data Mining
- Data Mining
- NGUI之scroll view制作,以及踩的坑总结
- 关键字final
- java中静态方法中调用非静态方法
- Java *.properties 用法
- iOS锁屏踩坑记
- Data mining基础之认识数据(2)
- 深入理解计算机操作系统(2.2.7)
- Hibernate--增删改查
- 用idea运行SSM时无法绑定Mapper.xml( Invalid bound statement (not found))
- 练习16
- oracal存储过程与存储函数
- 【C++】POJ 刷题指南
- 三角剖分算法
- android FragMent使用笔记