机器学习正式更新-NG到西瓜书

来源：互联网发布：淘宝商品无缘无故下架编辑：程序博客网时间：2024/05/22 16:51

首先Andrew-NG的斯坦福课程总算是陆陆续续花了一个半月时间看完了，笔记前前后后整理了前中后篇，但是谈不上有什么理解，基本上也是对照着一位大牛的笔记学习，咩有那份笔记，以我的数学水平怕是很难受。
研究生的数学课程很重要：
数值分析
矩阵理论
随机过程
数理方程
缺一不可，不要像我当年荒废了数学，如今的苦味只有自己去品尝。

在深度学习横行霸道的年代，我们仍然不能浮躁，我很心动，但是还是仍然得一步一个脚印踏过去，就和NG说的一样，建议大家先学机器学习。

今天开始进入西瓜书的学习，NG的视频也会再温习的，不知不觉觉得不听会儿NG的声音很难受，（哈哈，他给人的感觉确实很perfect）

西瓜书买了也快两个月了，今天正式开启学习。
绪论笔记敲开了机器学习博客的大门，以后我会陆续更新。
傍晚小街路面上沁出微雨后的湿润，和煦的细风吹来，抬头看看天边的晚霞，嗯，明天又是一个好天气。走到水果摊旁，挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜，一边满心期待着皮薄肉厚瓤甜的爽落感，一边愉快地想着，这学期狠下了功夫，基础概念弄的清清楚楚，算法作业也是信手拈来，这门课成绩一定差不了

这段话的感觉很美好，然而我已过了那个年龄，仔细品味，你会发现它反映了我们日常生活中随处可见的认知过程，不得不说周老师的这个开篇很有心意。

机器学习正是这样一门学科，它致力于研究如何通过计算的手段,利用经验来改善自身系统的性能。

〖一、知识点归纳〗
学习算法（learning algorithm）：机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，即“学习算法”。
学习算法的作用:
1.基于提供的经验数据产生模型
2.面对新情况时,模型可提供相应的判断

模型(model)：泛指从数据中学得的结果
学习器(learner)：学习算法在给定数据和参数空间上的实例化

基本术语
要进行机器学习，先要有数据。

数据集(data set):一组记录的集合

示例/样本/特征向量(instance/sample/feature vector)：每条记录（关于一个事件或对象的描述）或空间中的每一个点（对应一个坐标向量）。

属性/特征(attribute/feature)：反应事件或对象在某方面的表现或性质的事项。

属性值(attribute value)：属性上的取值。

属性空间/样本空间/输入空间(attribute space/sample sapce)：属性张成的空间。

维数(dimensionality)：属性的个数。

模型需要从数据中学得。

学习/训练(learning/training)：从数据中学得模型的过程。

训练数据(training data)：训练过程中使用的数据。

训练样本(training sample)：每个样本。

训练集(training set)：训练样本组成的集合。

假设(hypothesis)：学习模型对应了关于数据的某种潜在的规律。

真相/真实(ground-truth)：这种潜在规律自身。

学习过程就是为了找出或逼近真相。

获得训练样本的结果信息，才能建立“预测”的模型。

标记(label)：关于示例结果的信息。

样例(example)：拥有了标记信息的示例。

标记空间(label space)：所有标记的集合。

测试(testing)：学得模型后，使用其进行预测的过程。

测试样本(testing sample)：被预测的样本。

聚类(clustering)：将训练集中的训练样本分成若干组。

簇(cluster)：每组称为一个“簇”，这些自动形成的“簇”可能对应一些潜在的概念划分。

根据训练数据是否拥有标记信息，学习任务可大致划分为两类。

监督学习(supervised learning)
无监督学习(unsupervised learning)

机器学习的目标是使学得的模型能更好地适用于“新样本”。

泛化(generalization)：学得模型适用于新样本的能力。

假设空间

归纳学习(inductive learning)
演绎(deduction)
学习过程看作一个在所有假设组成的空间中进行的搜索的过程，搜索目标是找到与训练集“匹配”的假设。

假设空间(hypothsis sapce)：机器学习中可能的函数构成的空间称为“假设空间”。

版本空间(version space)：一个与训练集一致的“假设集合”。

归纳偏好

归纳偏好(inductive bias)：机器学习算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好。

“奥卡姆剃刀”原则：“若有多个假设与观察一致，则选最简单的那个。”

注意：奥卡姆剃刀并非唯一可行的原则；

奥克姆剃刀本身存在不同的诠释。

“没有免费的午餐”定理（NFL定理）：总误差与学习算法无关。

注意： 脱离具体问题，空泛的谈论“什么学习算法更好”，毫无意义。

〖二、难点分析〗

P5 假设空间的规模问题
1.某一属性值无论取什么都合适，我们用通配符“*”来表示。
2. 世界上没有，我们用“∅”来表示。

书中例子为西瓜，为判断西瓜的好坏，其属性有三种，即：色泽、根蒂、敲声。

这三种属性分别有3、3、3种可能取值，但假设空间的规模却是4×4×4+1=65。

这是因为，在假设空间中，属性的“无论取什么属性值都合适”也是一种属性值，而不是作为单一属性的3种可能取值的集合存在。

因为假设空间是机器学习中可能的函数构成的空间，“无论取什么属性值都合适”意味着这个函数与这一属性无关。

例如，如果西瓜的三个属性取值都是“无论取什么属性值都合适”，那么无论什么瓜，都是好瓜。而不是3×3×3=27个种类的瓜的集合，并不需要依次判断，需要的判断仅仅是——它是瓜。

所以其假设空间为：

{青绿，乌黑，浅白，}×{蜷缩，稍蜷，硬挺，}×{浊响，清脆，沉闷，*}+1（没有“好瓜”的定义）=65

关于反复出现的NP 问题 p问题 NPC问题，将在下一篇博客详细介绍。

主要参考博客：https://zhuanlan.zhihu.com/p/27900874

关于之前提到的NG学习笔记：
http://blog.csdn.net/column/details/ml-ng-record.html

吃饭去了，主要是摘录博客1的，做个备忘录。

阅读全文

0 0