读书笔记--机器学习第一章

来源:互联网 发布:稳定性最好的单片机 编辑:程序博客网 时间:2024/05/27 20:52

1.1引言

1.机器学习:研究计算机从数据中产生模型(model)的算法,即“学习算法”。

1.2基本术语

1.记录:可称为示例、样本,是对一个事件或对象(如:一个西瓜)的描述。

2.对象:如:西瓜

3.属性:可称为特征,对象在某方面的表现或特征(如:西瓜的色泽)。

4.属性值:属性上的取值(如:西瓜色泽为“青绿”中的青绿)

5.属性空间:也可称为样本空间、输入空间,属性的取值范围构成的空间。

6.数据集:若干记录的集合。

7.向量:一条记录中的d个属性构成一个d维向量。

8.训练中使用的数据称为“训练数据”,其中每个样本称为“训练样本”,样本组成的集合称为“训练集”。

9.学得模型:学习算法在给定数据和参数空间上的实例化。

10.标记:关于示例结果的信息(如:好瓜)。

11.标记空间:也可称输出空间,标记的集合。

12.若预测的是离散值,此类学习任务称为“分类”;若为连续值,学习任务称为“回归”。

13:二分类:只有正例和反例(如:好瓜、坏瓜)。

14.监督学习:训练数据有标记,分类和回归是其代表。

无监督学习:训练数据无标记,聚类是其代表。

15.聚类:将训练集中的西瓜分成若干组,每组称为一个“簇”,簇是自动形成的,这些簇可能对应一些潜在的概念划分。

16.好的学习模型:该模型具有很强的泛化能力,不仅在训练集在整个样本空间都能工作的很好。

1.3假设空间

1.归纳:从特殊到一般的“泛化”过程,与其对应的是归纳学习。

  推理:从一般到特殊。

2.学习过程是一个在所有假设中进行搜索,找到与“训练集”匹配的假设。

3.假设空间:可能的函数构成的空间,确定学习范围。如:西瓜的假设空间为:4*4*4+1=65,其中1为极端情况即,不存在好瓜的概念。

4.版本空间:与训练集一致的“假设集合”,与训练集相对应。

1.4归纳偏好

1.归纳偏好:机器学习过程中对某种类型的假设具有偏好,即,在训练集上多种假设等效时,机器会选择哪个假设版本。

2.归纳偏好的基本原则:在多个假设等效时则选择最简单的那个,并且认为更平滑为更简单。

3.学习算法自身的归纳偏好与问题是否匹配,在大多数情况下会直接决定着算法能否取得好的性能。

4.好的性能:泛化能力更强。

5.NFL(no free lunch theorem):脱离具体问题,空谈哪种学习算法更好毫无意义。

1.5发展历程

1.机器学习研究分为:从样例中学习(广义的归纳学习),在问题求解和规划中学习,通过观察和发现学习。

2.从样例中学习分为:基于逻辑表示的符号主义学习,基于神经网络的连接主义学习。

样例中学习

符号主义学习

(能产生明确的概念)

决策树

以信息论为基础,以信息熵的最小化为目标,模拟人类对概念进行判定的树形流程。

基于逻辑的学习

代表是归纳逻辑程序设计

连接主义学习(“黑箱”模型)

BP算法

基于神经网络

统计学习

支持向量机(SVM)

 

 

深度学习

 

 

需要调参,模型复杂,对计算机要求高

1.6应用现状

1.数据挖掘:数据库为数据挖掘提供数据管理技术,机器学习和统计学为数据挖掘提供数据分析技术。总之,数据库和机器学习是数据挖掘的两大支撑。

原创粉丝点击