机器学习

来源：互联网发布：lifeframe摄像头软件编辑：程序博客网时间：2024/04/27 17:39

数据挖掘－实用机器学习技术

【绪论】

【输入：概念、实例和属性】
数据挖掘应用领域四种学习方式：

分类学习classification learning：用一个已分类的样本集来表示学习方案，并希望从这个样本集中学习对未来样本进行分类的方法。分类学习有时又称为有指导(supervised)的学习。
关联分类association learning：寻找任何特性之间的关联，不仅仅是为了预测一个特定的数值。
聚类clustering：寻找能够组合在一起的样本，并依次分组。
数值预测numeric prediction：预测出的结论不是一个离散类而是一个数值量。

概念：被学习的东西
概念描述：由学习方案产生的输出就是概念描述
样本(实例)：机器学习方案的输入是一个实例集合，由机器学习方案进行分类、关联或聚类，更专业的熟语：实例，来表示输入。
属性：实例的特征，四种“测量标准”：名词性值、有序值、区间值、比率值。数据挖掘通常只采用前两种。

输入准备

存储格式－arff格式，与文档类型定义（DTD）类似，但arff中含数据。
稀疏数据：一种表示方法，将非空值属性用它的属性位置和值明确标出。
属性类型：arff文件允许类型名词性值、数量值。
残缺值：未知信息
不正确值：只有深入了解有关的背景知识，发现错误。
了解数据：用显示图形工具直观发现界外值，与领域专家商量解释反常的、残缺的值。数据清理是一个费时费力的过程，却是成功的数据挖掘所绝对必要的人们经常放弃一些大型的数据集，就是因为他们没有可能完全核对数据，取而代之，可以抽取一些实例仔细研究，从中会得到惊人的发现。

Cabena(1998)等认为数据准备的工作量在一个数据挖掘应用中占到60%。

【输出：知识表达】
决策表decision table
决策树decision tree
(to be continue)