机器学习之旅:数据预处理的对象-数据

来源:互联网 发布:好乐宝软件下载 编辑:程序博客网 时间:2024/05/08 05:01

总是从概念开始

数据挖掘中有一个很重要的步骤,就是数据预处理,只有拿到符合要求的数据,我们才能很好地用算法得到想要的结果。那么,在海量数据中,我们怎么知道哪些数据才是我们需要的呢?所以,我们首先要知道一个很重要的知识,就是数据类型。

数据集:通常指的是数据库,数据集是由数据对象组成。

数据对象:通常指的是数据表中一行数据,一个数据对象代表一个实体,例如会员,订单,商品等。数据对象又称样本,实例,数据点或者对象等。通常数据对象由属性描述,如果属性存放在数据库中,那么属性就对应数据表中的列名。

属性:数据对象特征的表示。在很多资料中,属性又称之为“维度”,“特征”,“变量”等。“维度”一般用在数据仓库中,“特征”一说更多是在机器学习领域中用到,统计学一般使用“变量”一词。而数据挖掘和数据库行业,更多使用“属性”。一个对象的所有描述它的属性,我们可以称之为“属性向量”或者“特征向量”。

属性有哪些类型?

在不同的领域中,对属性的类型定义也不同,不过我们一般根据属性值的来定义属性的类型。据此,我们得到了以下属性类型划分:

标称属性(nominal attribute):顾名思义,标称属性的值一般代表属性的一些名称含义,比如类别,编码,状态等。标称属性类似程序或者数据库中的枚举(enumeration)的概念。

示例:衣服的S,M,L,XL等尺码,订单有未付款,已付款,送货中,已送达,已关闭,退款中等状态。

二元属性(binary attribute):二元属性是一种特殊的标称属性,只有0或者1两种值(又称布尔属性,如果用true或者false来表示的话)

示例:人的性别男和女之分,用户的状态是否审核,是否在线等。

序数属性(ordinal attribute):序数属性是一种特殊的枚举,其可能值明显有排序的意义。

示例:饮料的小,中,大杯。客服的满意度,0-很不满意,1-不太满意,2-一般,3-满意,4-非常满意。

以上的数据对象属性,都是定性的,它们都是描述数据对象的特征,而并不对数据进行度量,比如饮杯的小,中,大杯,只是给了一个容量的描述,而并没有给出具体的数值(小杯到底是多少毫升?)。接下来,我们从定量的角度来识别数据对象属性。

数值属性(numeric attribute):从名字就可以看出来,它是一个准确的,可度量的值。数值属性要么它是区间标度的,要么它是比率标度的。

区间标度属性用相等的单位度量。
比率标度属性是具有固定零点的数值属性。例如人的年龄,摄氏度的绝对零点。这样的话我们就可以计算值的比率。

机器学习领域一般将数据划分为离散的,或者连续的

离散属性:一般等同于标称属性或者序数属性。

连续属性:一般等同于数值属性。

好了,我们已经对数据有了一定的认识。接下来,我们将从统计的角度来描述数据,通过统计度量,我们可以在数据预处理时填补缺失值,光滑噪声,识别离群点等。

原创粉丝点击