机器学习（Mitchell）1

来源：互联网发布：折扇淘宝编辑：程序博客网时间：2024/06/01 16:46

Day 1

机器学习所关注的问题是：计算机如何根据经验的累加提升自己的性能？

1.1学习问题的描述：

定义：对于某类任务 T 和性能度量 P，如果一个计算机程序在 T 上以 P 衡量的性能随着经验 E 而自我完善，那么我们称这个计算机程序在从经验 E 学习。

定义一个学习问题：

任务的种类，衡量任务提升的标准，检验的来源。

1.2设计一个学习系统

选取训练经验的类别：训练经验是否能给训练决策提供直接或者间接的反馈。（信用配分：考虑每一次走子对最终的结果的贡献程度。但由于其期间变量太多，不准确。所以一般考虑直接训练反馈。）

学习器可以在多大程度上控制训练样例序列：训练经验是以超乎学习器控制的随机过程提供的；学习器可向施教者提出不同类型的查询；以及学习器通过自动探索环境来搜集训练样例。这些主要是将学习器与施教者之间的相互关系。

训练样例的分布能多好地表示实例分布，而最终系统的性能 P 是通过后者来衡量的：是指由于训练经验与最终测试的的样例分布不同，导致学习效果不好。【举例来说，你学习了一个学期的量子力学，结果期末考试考的全都是量子电动力学，虽然你的学习方法木有问题，学习到的东西也没错，但你的学习目标却没拿到。】

V代表目标函数，其包含一个重要的权衡过程。越有表征力的描述越有更多更明显的数据。

最小均方法（LMS方法）：即通过调整权重，减小训练数据误差。

至此，学习系统的设计就完工了，其包含四个模块：

执行系统（performing system）：用学会的目标函数解决给定的任务。

鉴定器（critic）：以对弈的路线或者历史记录作为输入，输出目标函数的一系列训练样例，每一个训练样例对应路线中的某个棋盘状态和目标函数给这个样例的评估值Vtrain

泛化器（Generalizer），它以训练样例作为输入，输出一个假设，作为它对目标函数的估计。它从特定的训练样例中泛化，猜测一个一般函数，使其能够覆盖这些样例以及样例之外的情形。在我们的例子中，泛化器对应 LMS 算法，输出假设是用学习到的权值 w0 ,..., w6描述的函数Vˆ。
实验生成器（Experiment Generator），它以当前的假设（当前学到的函数）作为输入，输出一个新的问题（例如，最初的棋局）供执行系统去探索。它的角色是挑选新的练习问题，以使整个系统的学习速率最大化。在我们的例子中，实验生成器采用了非常简单的策略：它总是给出一个同样的初始棋局来开始新的一盘棋。更完善的策略可能致力于精心设计棋子位置以探索棋盘空间的特定区域。

自始至终，本书都贯穿着这种把学习问题视为搜索问题的看法，从而通过搜索策略和学习器探索的搜索空间的内在结构来刻画学习方法。

机器学习致力于研究建立能够根据经验自我提高处理性能的计算机程序。本章的要点包括：
•

机器学习算法在很多应用领域被证明有很大的实用价值。它们在以下方面特别有用：（a）数据挖掘问题，即从大量数据中发现可能包含在其中的有价值的规律（例如，从患者数据库中分析治疗的结果，或者从财务数据中得到信用贷款的普遍规则）；（b）在某些困难的领域中，人们可能还不具有开发出高效的算法所需的知识（比如，从图像库中识别出人脸）；（c）计算机程序必须动态地适应变化的领域（例如，在原料供给变化的环境下进行生产过程控制，或适应个人阅读兴趣的变化）。
• 机器学习从不同的学科吸收概念，包括人工智能，概率和统计，计算复杂性，信息论，心理学和神经生物学、控制论、以及哲学。
• 一个完整定义的学习问题需要一个明确界定的任务、性能度量标准以及训练经验的来源。
• 机器学习算法的设计过程中包含许多选择，包括选择训练经验的类型、要学习的目标函数、该目标函数的表示形式、以及从训练样例中学习目标函数的算法。

• 学习的过程即搜索的过程，搜索包含可能假设的空间，使得到的假设最符合已有的训练样例和其他先验的约束或知识。本书的大部分内容围绕着搜索各种假设空间（例如，包含数值函数、神经网络、决策树、符号规则的空间）的不同学习方法，和理论上这些搜索方法在什么条件下会收敛到最佳假设。

*有很多关于机器学习最新研究成果的优秀资源可供阅读。相关的杂志包括《机器学习》（Machine Learning），《神经计算》（Neural Computation），《神经网络》（Neural Networks），《美国统计协会期刊》（Journal of the American Statistical Association）和《IEEE 模式识别和机器智能学报》（IEEE Transactions on Pattern Analysis and Machine Intelligence）。也有大量的年会覆盖了机器学习的各个方面，包括国际机器学习会议(ICML)，神经信息处理系统
(NIPS)，计算学习理论会议(CCLT)，国际遗传算法会议(ICGA)，国际知识发现和数据挖掘会议(ICKDD)，欧洲机器学习会议(ECML)等。

第一章主要是序言，讲了西洋棋学习的算法以及实现。

阅读全文

0 0