机器学习之旅：数据预处理的对象-数据

来源：互联网发布：好乐宝软件下载编辑：程序博客网时间：2024/05/08 05:01

总是从概念开始

数据挖掘中有一个很重要的步骤，就是数据预处理，只有拿到符合要求的数据，我们才能很好地用算法得到想要的结果。那么，在海量数据中，我们怎么知道哪些数据才是我们需要的呢？所以，我们首先要知道一个很重要的知识，就是数据类型。

数据集：通常指的是数据库，数据集是由数据对象组成。

数据对象：通常指的是数据表中一行数据，一个数据对象代表一个实体，例如会员，订单，商品等。数据对象又称样本，实例，数据点或者对象等。通常数据对象由属性描述，如果属性存放在数据库中，那么属性就对应数据表中的列名。

属性：数据对象特征的表示。在很多资料中，属性又称之为“维度”，“特征”，“变量”等。“维度”一般用在数据仓库中，“特征”一说更多是在机器学习领域中用到，统计学一般使用“变量”一词。而数据挖掘和数据库行业，更多使用“属性”。一个对象的所有描述它的属性，我们可以称之为“属性向量”或者“特征向量”。

在不同的领域中，对属性的类型定义也不同，不过我们一般根据属性值的来定义属性的类型。据此，我们得到了以下属性类型划分：

标称属性（nominal attribute）：顾名思义，标称属性的值一般代表属性的一些名称含义，比如类别，编码，状态等。标称属性类似程序或者数据库中的枚举（enumeration）的概念。

示例：衣服的S,M,L,XL等尺码，订单有未付款，已付款，送货中，已送达，已关闭，退款中等状态。

二元属性（binary attribute）：二元属性是一种特殊的标称属性，只有0或者1两种值（又称布尔属性，如果用true或者false来表示的话）

示例：人的性别男和女之分，用户的状态是否审核，是否在线等。

序数属性（ordinal attribute）：序数属性是一种特殊的枚举，其可能值明显有排序的意义。

示例：饮料的小，中，大杯。客服的满意度，0-很不满意，1-不太满意，2-一般，3-满意，4-非常满意。

以上的数据对象属性，都是定性的，它们都是描述数据对象的特征，而并不对数据进行度量，比如饮杯的小，中，大杯，只是给了一个容量的描述，而并没有给出具体的数值（小杯到底是多少毫升？）。接下来，我们从定量的角度来识别数据对象属性。

数值属性（numeric attribute）：从名字就可以看出来，它是一个准确的，可度量的值。数值属性要么它是区间标度的，要么它是比率标度的。

区间标度属性用相等的单位度量。
比率标度属性是具有固定零点的数值属性。例如人的年龄，摄氏度的绝对零点。这样的话我们就可以计算值的比率。

机器学习领域一般将数据划分为离散的，或者连续的

离散属性：一般等同于标称属性或者序数属性。

连续属性：一般等同于数值属性。

好了，我们已经对数据有了一定的认识。接下来，我们将从统计的角度来描述数据，通过统计度量，我们可以在数据预处理时填补缺失值，光滑噪声，识别离群点等。

阅读全文

0 0