数据对象的属性(特征)类型

来源:互联网 发布:地球的圈层结构知梳理 编辑:程序博客网 时间:2024/06/06 23:50

   在数据挖掘/机器学习过程中,当我们在对属性进行处理时,分清属性的类型是有必要的,不同类型的属性需要使用不同的处理方法,如在对对象的标识列进行处理时,对该列进行数学运算是没有意义的,因为对象的标识列一般是标称属性,只是起到唯一标识的作用。数据对象的属性类型可以用下图来概括:

   从图中可以看出,数据对象的属性类型可以分为标称属性、二元属性、序数属性、数值属性四大类。其中二元属性是标称属性的特例。下面从各种属性类型的特点、可以使用的中心趋势度量、是否可以离散化三个维度来概括。

1 标称属性

   标称属性的值是一些符号或事物的名称,但可以用数字表示这些符号或名称,标称属性的值是枚举的。常见的标称属性如姓名、籍贯等。鉴于标称属性的特点,统计它的中位数和均值是没有意义的,但是我可找出某个出现次数最多的值,比如,出现次数最多的姓名,这个就可以用众数来表示。因此,标称属性的中心趋势度量一般是众数。

2 二元属性

   二元属性是标称属性的特例,也是一种布尔属性,对应01两个状态,分别表示falsetrue。常见的二元属性如抛一枚硬币是正面朝上还是反面朝上,患者的检查结果为阴性还是阳性。二元属性分为对称的和非对称的,如果属性的状态结果是同等重要的,如抛硬币的结果状态,则该属性是对称的二元属性,反之为非对称二元属性。由于二元属性也是标称属性的一种,因此只能用众数来统计二元属性。

3 序数属性

   序数属性的可能值之间存在有意义的序或秩评定,但是相继值之间的差是未知的,常见的序数属性如上衣的尺寸有SMLXL,可以用数字,如1234分别对应属性的SMLXL值。由于序数属性是有序的,它的中位数是有意义的,因此序数属性的中心趋势度量可以是众数和中位数。

   标称属性、二元属性、序数属性都是定性的,且都是离散的。

4 数值属性

   数值属性用整数或实数值表示,常见的数值属性如年龄。数值属性可以是区间标度的或比率标度的。区分区间标度和比率标度属性的原则是该属性是否有固有的零点,如摄氏温度没有固有的零点,比值没意义,所以是区间标度属性,而开式温度有固有的零点,比值是否有意义,所有是比率标度属性。数值属性的平均值是有意义的,如某个城市的平均年龄可以看出这个城市的老龄化情况,因此,数值属性可以用众数、中位数、平均值三个中心趋势度量来统计。

   数值属性是定量的,可以是离散的也可以是连续的。


原创粉丝点击