机器学习

来源:互联网 发布:lifeframe摄像头软件 编辑:程序博客网 时间:2024/04/27 17:39

数据挖掘-实用机器学习技术

【绪论】

  • 数据挖掘:为找出数据中的模式的过程,这个过程必须是自动的或者(通常)半自动的。
  • 机器学习:从大量的数据中自动或半自动地寻找模式的过程,而且这个模式必须是有用的。
  • 学习:当食物以令其自身在将来表现更好为标准来改变其行为时,它学到了东西,称之为学习。
  • 学习与训练的区别:学习目的是学习者的目的,训练中目的是老师的目的。

【输入:概念、实例和属性】
数据挖掘应用领域四种学习方式:

  • 分类学习classification learning:用一个已分类的样本集来表示学习方案,并希望从这个样本集中学习对未来样本进行分类的方法。分类学习有时又称为有指导(supervised)的学习。
  • 关联分类association learning:寻找任何特性之间的关联,不仅仅是为了预测一个特定的数值。
  • 聚类clustering:寻找能够组合在一起的样本,并依次分组。
  • 数值预测numeric prediction:预测出的结论不是一个离散类而是一个数值量。

概念:被学习的东西
概念描述:由学习方案产生的输出就是概念描述
样本(实例):机器学习方案的输入是一个实例集合,由机器学习方案进行分类、关联或聚类,更专业的熟语:实例,来表示输入。
属性:实例的特征,四种“测量标准”:名词性值、有序值、区间值、比率值。数据挖掘通常只采用前两种。

输入准备

  • 数据收集:收集数据实例集,数据集中-->清理-->整合,一般要花费很长的时间。
    •  数据集中:大型数据整合的思想称为数据仓库(data warehousing)
    •  清理:清理无效或重叠的数据
    • 整合: 按什么标准合并数据,选择正确的数据类型和数据整合的程度通常关系着数据挖掘的成功与否。
  • 存储格式-arff格式,与文档类型定义(DTD)类似,但arff中含数据。
  • 稀疏数据:一种表示方法,将非空值属性用它的属性位置和值明确标出。
  • 属性类型:arff文件允许类型名词性值、数量值。
  • 残缺值:未知信息
  • 不正确值:只有深入了解有关的背景知识,发现错误。
  • 了解数据:用显示图形工具直观发现界外值,与领域专家商量解释反常的、残缺的值。数据清理是一个费时费力的过程,却是成功的数据挖掘所绝对必要的人们经常放弃一些大型的数据集,就是因为他们没有可能完全核对数据,取而代之,可以抽取一些实例仔细研究,从中会得到惊人的发现。

Cabena(1998)等认为数据准备的工作量在一个数据挖掘应用中占到60%。


【输出:知识表达】
决策表decision table
决策树decision tree
(to be continue)