读书笔记--机器学习第一章

来源：互联网发布：稳定性最好的单片机编辑：程序博客网时间：2024/05/27 20:52

1.1引言

1.机器学习：研究计算机从数据中产生模型（model）的算法，即“学习算法”。

1.2基本术语

1.记录：可称为示例、样本，是对一个事件或对象（如：一个西瓜）的描述。

2.对象：如：西瓜

3.属性：可称为特征，对象在某方面的表现或特征（如：西瓜的色泽）。

4．属性值：属性上的取值（如：西瓜色泽为“青绿”中的青绿）

5.属性空间：也可称为样本空间、输入空间，属性的取值范围构成的空间。

6.数据集：若干记录的集合。

7.向量：一条记录中的d个属性构成一个d维向量。

8．训练中使用的数据称为“训练数据”，其中每个样本称为“训练样本”，样本组成的集合称为“训练集”。

9.学得模型：学习算法在给定数据和参数空间上的实例化。

10．标记：关于示例结果的信息（如:好瓜）。

11.标记空间：也可称输出空间，标记的集合。

12.若预测的是离散值，此类学习任务称为“分类”；若为连续值，学习任务称为“回归”。

13：二分类：只有正例和反例（如：好瓜、坏瓜）。

14.监督学习：训练数据有标记，分类和回归是其代表。

无监督学习：训练数据无标记，聚类是其代表。

15.聚类：将训练集中的西瓜分成若干组，每组称为一个“簇”，簇是自动形成的，这些簇可能对应一些潜在的概念划分。

16.好的学习模型：该模型具有很强的泛化能力，不仅在训练集在整个样本空间都能工作的很好。

1.3假设空间

1.归纳：从特殊到一般的“泛化”过程，与其对应的是归纳学习。

推理：从一般到特殊。

2.学习过程是一个在所有假设中进行搜索，找到与“训练集”匹配的假设。

3.假设空间：可能的函数构成的空间，确定学习范围。如：西瓜的假设空间为：4*4*4+1=65，其中1为极端情况即，不存在好瓜的概念。

4.版本空间：与训练集一致的“假设集合”，与训练集相对应。

1.4归纳偏好

1.归纳偏好：机器学习过程中对某种类型的假设具有偏好，即，在训练集上多种假设等效时，机器会选择哪个假设版本。

2.归纳偏好的基本原则：在多个假设等效时则选择最简单的那个，并且认为更平滑为更简单。

3.学习算法自身的归纳偏好与问题是否匹配，在大多数情况下会直接决定着算法能否取得好的性能。

4.好的性能：泛化能力更强。

5.NFL(no free lunch theorem):脱离具体问题，空谈哪种学习算法更好毫无意义。

1.5发展历程

1.机器学习研究分为：从样例中学习（广义的归纳学习），在问题求解和规划中学习，通过观察和发现学习。

2.从样例中学习分为：基于逻辑表示的符号主义学习，基于神经网络的连接主义学习。

样例中学习

符号主义学习

(能产生明确的概念)

决策树

以信息论为基础，以信息熵的最小化为目标，模拟人类对概念进行判定的树形流程。

基于逻辑的学习

代表是归纳逻辑程序设计

连接主义学习（“黑箱”模型）

BP算法

基于神经网络

统计学习

支持向量机(SVM)

深度学习

需要调参，模型复杂，对计算机要求高

1.6应用现状

1.数据挖掘：数据库为数据挖掘提供数据管理技术，机器学习和统计学为数据挖掘提供数据分析技术。总之，数据库和机器学习是数据挖掘的两大支撑。

阅读全文

0 0