机器学习之旅:数据预处理的对象-数据
来源:互联网 发布:好乐宝软件下载 编辑:程序博客网 时间:2024/05/08 05:01
总是从概念开始
数据挖掘中有一个很重要的步骤,就是数据预处理,只有拿到符合要求的数据,我们才能很好地用算法得到想要的结果。那么,在海量数据中,我们怎么知道哪些数据才是我们需要的呢?所以,我们首先要知道一个很重要的知识,就是数据类型。
数据集:通常指的是数据库,数据集是由数据对象组成。
数据对象:通常指的是数据表中一行数据,一个数据对象代表一个实体,例如会员,订单,商品等。数据对象又称样本,实例,数据点或者对象等。通常数据对象由属性描述,如果属性存放在数据库中,那么属性就对应数据表中的列名。
属性:数据对象特征的表示。在很多资料中,属性又称之为“维度”,“特征”,“变量”等。“维度”一般用在数据仓库中,“特征”一说更多是在机器学习领域中用到,统计学一般使用“变量”一词。而数据挖掘和数据库行业,更多使用“属性”。一个对象的所有描述它的属性,我们可以称之为“属性向量”或者“特征向量”。
属性有哪些类型?
在不同的领域中,对属性的类型定义也不同,不过我们一般根据属性值的来定义属性的类型。据此,我们得到了以下属性类型划分:
标称属性(nominal attribute):顾名思义,标称属性的值一般代表属性的一些名称含义,比如类别,编码,状态等。标称属性类似程序或者数据库中的枚举(enumeration)的概念。
示例:衣服的S,M,L,XL等尺码,订单有未付款,已付款,送货中,已送达,已关闭,退款中等状态。
二元属性(binary attribute):二元属性是一种特殊的标称属性,只有0或者1两种值(又称布尔属性,如果用true或者false来表示的话)
示例:人的性别男和女之分,用户的状态是否审核,是否在线等。
序数属性(ordinal attribute):序数属性是一种特殊的枚举,其可能值明显有排序的意义。
示例:饮料的小,中,大杯。客服的满意度,0-很不满意,1-不太满意,2-一般,3-满意,4-非常满意。
以上的数据对象属性,都是定性的,它们都是描述数据对象的特征,而并不对数据进行度量,比如饮杯的小,中,大杯,只是给了一个容量的描述,而并没有给出具体的数值(小杯到底是多少毫升?)。接下来,我们从定量的角度来识别数据对象属性。
数值属性(numeric attribute):从名字就可以看出来,它是一个准确的,可度量的值。数值属性要么它是区间标度的,要么它是比率标度的。
区间标度属性用相等的单位度量。
比率标度属性是具有固定零点的数值属性。例如人的年龄,摄氏度的绝对零点。这样的话我们就可以计算值的比率。
机器学习领域一般将数据划分为离散的,或者连续的
离散属性:一般等同于标称属性或者序数属性。
连续属性:一般等同于数值属性。
好了,我们已经对数据有了一定的认识。接下来,我们将从统计的角度来描述数据,通过统计度量,我们可以在数据预处理时填补缺失值,光滑噪声,识别离群点等。
- 机器学习之旅:数据预处理的对象-数据
- 机器学习数据预处理
- 【机器学习】数据预处理
- 机器学习预处理之数据值缺失
- (二)机器学习笔记之数据预处理
- 数据预处理 | 机器学习之特征工程
- 机器学习之 数据预处理 preprocessing
- 机器学习-常见的数据预处理
- 大话机器学习之数据预处理与数据筛选
- 机器学习数据预处理:数据降维之PCA
- 机器学习数据预处理:数据降维之PCA
- 机器学习实战--数据预处理
- 机器学习-->sklearn数据预处理
- 机器学习算法笔记之6:数据预处理
- 机器学习——特征工程之数据预处理
- 【机器学习 数据预处理】fit_transform()和transform()的区别
- Python下的机器学习工具scikit-learn --数据预处理
- 机器学习sklearn—数据的特征预处理
- 垃圾收集与分配策略——(三)HotSpot的算法实现
- Java注解
- QWT的配置和使用(1)
- java递归浅析合并排序
- 杭电1002 A + B Problem II
- 机器学习之旅:数据预处理的对象-数据
- C++常成员函数和常对象、对象指针和对象引用
- C++11基础-----std::function & std::bind
- 内存中的堆和栈
- java语言基础(98)——定时器和定时任务
- hbase学习教程(三):HBase优化技巧、HBase基本命令、使用Java API对HBase服务器进行操作
- 杭电1003 Max Sum
- NetPerfMeter : A Network Performance Metering Tool Introduction
- 51 nod 1412 AVL树的种类(树形DP)