数据对象的属性(特征)类型
来源:互联网 发布:地球的圈层结构知梳理 编辑:程序博客网 时间:2024/06/06 23:50
在数据挖掘/机器学习过程中,当我们在对属性进行处理时,分清属性的类型是有必要的,不同类型的属性需要使用不同的处理方法,如在对对象的标识列进行处理时,对该列进行数学运算是没有意义的,因为对象的标识列一般是标称属性,只是起到唯一标识的作用。数据对象的属性类型可以用下图来概括:
从图中可以看出,数据对象的属性类型可以分为标称属性、二元属性、序数属性、数值属性四大类。其中二元属性是标称属性的特例。下面从各种属性类型的特点、可以使用的中心趋势度量、是否可以离散化三个维度来概括。
1 标称属性
标称属性的值是一些符号或事物的名称,但可以用数字表示这些符号或名称,标称属性的值是枚举的。常见的标称属性如姓名、籍贯等。鉴于标称属性的特点,统计它的中位数和均值是没有意义的,但是我可找出某个出现次数最多的值,比如,出现次数最多的姓名,这个就可以用众数来表示。因此,标称属性的中心趋势度量一般是众数。
2 二元属性
二元属性是标称属性的特例,也是一种布尔属性,对应0和1两个状态,分别表示false和true。常见的二元属性如抛一枚硬币是正面朝上还是反面朝上,患者的检查结果为阴性还是阳性。二元属性分为对称的和非对称的,如果属性的状态结果是同等重要的,如抛硬币的结果状态,则该属性是对称的二元属性,反之为非对称二元属性。由于二元属性也是标称属性的一种,因此只能用众数来统计二元属性。
3 序数属性
序数属性的可能值之间存在有意义的序或秩评定,但是相继值之间的差是未知的,常见的序数属性如上衣的尺寸有S、M、L、XL,可以用数字,如1、2、3、4分别对应属性的S、M、L、XL值。由于序数属性是有序的,它的中位数是有意义的,因此序数属性的中心趋势度量可以是众数和中位数。
标称属性、二元属性、序数属性都是定性的,且都是离散的。
4 数值属性
数值属性用整数或实数值表示,常见的数值属性如年龄。数值属性可以是区间标度的或比率标度的。区分区间标度和比率标度属性的原则是该属性是否有固有的零点,如摄氏温度没有固有的零点,比值没意义,所以是区间标度属性,而开式温度有固有的零点,比值是否有意义,所有是比率标度属性。数值属性的平均值是有意义的,如某个城市的平均年龄可以看出这个城市的老龄化情况,因此,数值属性可以用众数、中位数、平均值三个中心趋势度量来统计。
数值属性是定量的,可以是离散的也可以是连续的。
- 数据对象的属性(特征)类型
- JavaScript对象属性的特征
- 业务对象的特征和类型
- javascript对象的属性类型
- 对象类型的属性注入
- JavaScript 对象的属性类型
- Spring(7)注入对象类型的属性
- 关于对象的数据属性
- spring对象类型属性的注入
- Spring注入对象类型的属性
- ACCESS入门教程(五)数据的类型和属性
- 面向对象第三个特征----多态II(类型判断)
- 确定数据对象属性类型长度小数位{转载}
- 什么事数据对象以及属性分为什么类型?
- JSON类型数据转换为对象,并排除指定的属性.JAVA将购物车数据写入到cookie中
- 带*类型的特征
- static 类型属性(局部静态对象)
- js对象属性类型
- 进阶vue全家桶
- 相似图片搜索的原理
- 加速你的gradle构建,添加阿里云镜像
- POJ 2993 Emag eht htiw Em Pleh(模拟)
- Spring Boot常用注解大全
- 数据对象的属性(特征)类型
- caffe配置 一生不可自决
- Hadoop RPC机制的使用(笔记3)
- 带环链表的处理
- 机器学习(一)集成学习
- 74HC595详解
- Object[]数组与String[]数组转换问题
- 获取两个日期之间的所有月份
- Python之Django框架开发博客