周志华《机器学习》第 1 章 绪论
来源:互联网 发布:问卷录入软件 编辑:程序博客网 时间:2024/06/01 13:19
本文是 周志华《机器学习》系列文章 之一,主要介绍机器学习的基本概念及类别,并简要介绍机器学习的发展历程和应用现状。
第 1 章 绪论
1.1 引言
机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。可以说机器学习是研究关于“学习算法”的学问。
1.2 基本术语
- 数据集相关概念
一组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)或“样本”(sample)。反映事件或对象在某方面的表现或性质的事项,称为“属性”(attribute)或“特征”(feature),属性上的取值称为“属性值”(attribute value),属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”。
由于空间中的每个点对应一个坐标向量,因此也把一个示例称为一个“特征向量”(feature vector)。每个示例由 d 个属性描述,则 d 称为样本的“维数”(dimensionality)。
关于示例结果的信息称为“标记”(label),拥有了标记信息的示例称为“样例”(example),所有标记的集合称为“标记空间”(label space)或“输出空间”。
- 训练集和测试集
从数据中学得模型的过程称为“学习”(learning)或“训练”(training)。训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)。
学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)。
- 分类回归概念
若预测的是离散值,此类学习任务称为“分类”(classification),如“好瓜”,“坏瓜”;若预测的是连续值,此类学习任务称为“回归”(regression),如西瓜成熟度为0.95,0.37等。
对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个为“反类”(negative class);涉及多个类别时,则称为“多分类”(multi-class classification)任务。
可以对训练集做“聚类”(clustering),比如将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster);这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜”,甚至“本地瓜”“外地瓜”。这样的学习过程有助于我们了解数据的内在规律,能为更深入地分析数据建立基础。需要说明的是,在聚类学习中,“浅色瓜”“本地瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。
- 监督学习和无监督学习
根据训练数据是否拥有标记信息,学习任务可大致分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。
学得模型适用于新样本的能力,称为“泛化”(generalization)能力。
1.3 假设空间
归纳(induction)与演绎(deduction)是科学推理的两大基本手段。前者是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。
1.4 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为“偏好”。任何一个有效的机器学习算法必有其归纳偏好。
“奥卡姆剃刀”(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。
在具体问题现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能是相同的,这就是“没有免费的午餐”(No Free Lunch Theorem,简称NFL定理)。NFL 定理有一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要,但实际情形并不是这样。NFL 定理最重要的寓意是让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,要谈论算法的相对优劣,必须要针对具体的学习问题。学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。
1.5 发展历程
机器学习是人工智能(artificial intelligence)研究发展到一定阶段的必然产物。
决策树学习技术由于简单易用,到今天仍是最常用的机器学习技术之一。事实上,BP算法一直被应用得罪广泛的机器学习算法之一。
连接主义学习的最大局限性是其“试错性”,简单地说,其学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工“调参”,夸张一点说,参数调节上失之毫厘,学习结果可能谬以千里。
二十一世纪初,掀起了以“深度学习”为名的热潮,所谓深度学习,狭义地说就是“很多层”的神经网络。以往机器学习技术在应用中取得好性能,对使用者的要求较高;而深度学习技术涉及的模型复杂度非常高,以至于只要下工夫“调参”,把参数调节好,性能往往就好。因此,深度学习虽然缺乏严格的理论基础,但它显著降低了机器学习应用者的门槛,为机器学习技术走向工程实践带来了便利。
深度学习如今火起来的基本原因有两个:数据大了、计算能力强了。深度学习模型拥有大量参数,若数据样本少,则很容易“过拟合”;如此复杂的模型、如此大的数据样本,若缺乏强力计算设备,根本无法求解。
1.6 应用现状
今天,在技术科学的主动分支学科领域中,无论是多媒体、图形学,还是网络通信、软件工程,乃至体系结构、芯片设计都能找到机器学习技术的身影,尤其是在计算机视觉、自然语言处理等“计算机应用技术”领域,机器学习已成为最重要的技术进步源泉之一。
“计算”的目的往往是数据分析,而数据科学的核心也恰是通过分析数据来获得价值。
若要列出目前计算机科学技术中最活跃、最受瞩目的研究分支,那么机器学习必居其中。
美国国家科学基金会在加州大学伯克利分校启动加强计划,强调要深入研究和整合大数据时代的三个关键技术:机器学习、云计算、众包(crowdsourcing)。
收集、存储、传输、管理大数据的目的是为了“利用”大数据,而如果没有机器学习技术分析数据,则“利用”无从谈起。
资源
周志华《机器学习》系列文章:http://blog.csdn.net/u012318074/article/category/6899087
周志华《机器学习》XMind思维导图笔记:http://pan.baidu.com/s/1eS5S95S 密码:oef0
- 周志华《机器学习》第 1 章 绪论
- 周志华《机器学习》笔记:第1章 绪论
- 机器学习 周志华 读书笔记 第1章 绪论
- 周志华《机器学习》笔记:第1章 绪论
- 周志华《机器学习》 第01章 《绪论》 笔记
- 《机器学习》读书笔记 3 第1章 绪论
- 周志华《机器学习》学习笔记1--绪论
- 机器学习(周志华 )-1绪论
- [机器学习 - 周志华] - 第一章 绪论
- 机器学习(1)--绪论
- 【机器学习】(1):绪论
- 机器学习基本概念(1)--绪论
- 第1章 绪论
- 第1章 绪论
- 第1章 绪论
- 第1章 绪论
- 第1章绪论
- 第1章 绪论
- 1127. ZigZagging on a Tree (30)
- 计算机网络之数据链路层(笔记)
- 1
- 删除D盘空目录 、检索大于10M的文件
- 苦恼的window
- 周志华《机器学习》第 1 章 绪论
- 建议7 将0值作为枚举的默认值
- java线程模型
- 建议8 避免给枚举类型的元素提供显式的值
- Spring boot学习(二)页面模板与MySQL交互
- Linux 安裝 Redis 教程
- 英雄黑客:一个试图提高物联网安全性的“义务警员”
- 170504 CentOS搭建
- GBDT(Gradient Boosting Decision Tree)