机器学习正式更新-NG到西瓜书
来源:互联网 发布:淘宝商品无缘无故下架 编辑:程序博客网 时间:2024/05/22 16:51
首先Andrew-NG的斯坦福课程总算是陆陆续续花了一个半月时间看完了,笔记前前后后整理了前中后篇,但是谈不上有什么理解,基本上也是对照着一位大牛的笔记学习,咩有那份笔记,以我的数学水平怕是很难受。
研究生的数学课程很重要:
数值分析
矩阵理论
随机过程
数理方程
缺一不可,不要像我当年荒废了数学,如今的苦味只有自己去品尝。
在深度学习横行霸道的年代,我们仍然不能浮躁,我很心动,但是还是仍然得一步一个脚印踏过去,就和NG说的一样,建议大家先学机器学习。
今天开始进入西瓜书的学习,NG的视频也会再温习的,不知不觉觉得不听会儿NG的声音很难受,(哈哈,他给人的感觉确实很perfect)
西瓜书买了也快两个月了,今天正式开启学习。
绪论笔记敲开了机器学习博客的大门,以后我会陆续更新。
傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞,嗯,明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,一边满心期待着皮薄肉厚瓤甜的爽落感,一边愉快地想着,这学期狠下了功夫,基础概念弄的清清楚楚,算法作业也是信手拈来,这门课成绩一定差不了
这段话的感觉很美好,然而我已过了那个年龄,仔细品味,你会发现它反映了我们日常生活中随处可见的认知过程,不得不说周老师的这个开篇很有心意。
机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善自身系统的性能。
〖一、知识点归纳〗
学习算法(learning algorithm):机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。
学习算法的作用:
1.基于提供的经验数据产生模型
2.面对新情况时,模型可提供相应的判断
模型(model):泛指从数据中学得的结果
学习器(learner):学习算法在给定数据和参数空间上的实例化
基本术语
要进行机器学习,先要有数据。
数据集(data set):一组记录的集合
示例/样本/特征向量(instance/sample/feature vector):每条记录(关于一个事件或对象的描述)或空间中的每一个点(对应一个坐标向量)。
属性/特征(attribute/feature):反应事件或对象在某方面的表现或性质的事项。
属性值(attribute value):属性上的取值。
属性空间/样本空间/输入空间(attribute space/sample sapce):属性张成的空间。
维数(dimensionality):属性的个数。
模型需要从数据中学得。
学习/训练(learning/training):从数据中学得模型的过程。
训练数据(training data):训练过程中使用的数据。
训练样本(training sample):每个样本。
训练集(training set):训练样本组成的集合。
假设(hypothesis):学习模型对应了关于数据的某种潜在的规律。
真相/真实(ground-truth):这种潜在规律自身。
学习过程就是为了找出或逼近真相。
获得训练样本的结果信息,才能建立“预测”的模型。
标记(label):关于示例结果的信息。
样例(example):拥有了标记信息的示例。
标记空间(label space):所有标记的集合。
测试(testing):学得模型后,使用其进行预测的过程。
测试样本(testing sample):被预测的样本。
聚类(clustering):将训练集中的训练样本分成若干组。
簇(cluster):每组称为一个“簇”,这些自动形成的“簇”可能对应一些潜在的概念划分。
根据训练数据是否拥有标记信息,学习任务可大致划分为两类。
监督学习(supervised learning)
无监督学习(unsupervised learning)
机器学习的目标是使学得的模型能更好地适用于“新样本”。
泛化(generalization):学得模型适用于新样本的能力。
假设空间
归纳学习(inductive learning)
演绎(deduction)
学习过程看作一个在所有假设组成的空间中进行的搜索的过程,搜索目标是找到与训练集“匹配”的假设。
假设空间(hypothsis sapce):机器学习中可能的函数构成的空间称为“假设空间”。
版本空间(version space):一个与训练集一致的“假设集合”。
归纳偏好
归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。
任何一个有效的机器学习算法必有其归纳偏好。
“奥卡姆剃刀”原则:“若有多个假设与观察一致,则选最简单的那个。”
注意: 奥卡姆剃刀并非唯一可行的原则;
奥克姆剃刀本身存在不同的诠释。
“没有免费的午餐”定理(NFL定理):总误差与学习算法无关。
注意: 脱离具体问题,空泛的谈论“什么学习算法更好”,毫无意义。
〖二、难点分析〗
P5 假设空间的规模问题
1.某一属性值无论取什么都合适,我们用通配符“*”来表示。
2. 世界上没有,我们用“∅”来表示。
书中例子为西瓜,为判断西瓜的好坏,其属性有三种,即:色泽、根蒂、敲声。
这三种属性分别有3、3、3种可能取值,但假设空间的规模却是4×4×4+1=65。
这是因为,在假设空间中,属性的“无论取什么属性值都合适”也是一种属性值,而不是作为单一属性的3种可能取值的集合存在。
因为假设空间是机器学习中可能的函数构成的空间,“无论取什么属性值都合适”意味着这个函数与这一属性无关。
例如,如果西瓜的三个属性取值都是“无论取什么属性值都合适”,那么无论什么瓜,都是好瓜。而不是3×3×3=27个种类的瓜的集合,并不需要依次判断,需要的判断仅仅是——它是瓜。
所以其假设空间为:
{青绿,乌黑,浅白,}×{蜷缩,稍蜷,硬挺,}×{浊响,清脆,沉闷,*}+1(没有“好瓜”的定义)=65
关于反复出现的NP 问题 p问题 NPC问题,将在下一篇博客详细介绍。
主要参考博客:https://zhuanlan.zhihu.com/p/27900874
关于之前提到的NG学习笔记:
http://blog.csdn.net/column/details/ml-ng-record.html
吃饭去了,主要是摘录博客1的,做个备忘录。
- 机器学习正式更新-NG到西瓜书
- 《机器学习》(西瓜书) 随笔
- 西瓜书-机器学习《一》
- 机器学习西瓜书-学习笔记1
- [私人笔记]西瓜书/机器学习
- 《西瓜书》笔记01:机器学习绪论
- 西瓜书机器学习总结(一)
- 机器学习入门(西瓜书笔记)
- 买西瓜跟机器学习
- 【机器学习-西瓜书】八、集成学习:Boosting
- 西瓜书《机器学习》课后答案——Chapter1
- 【机器学习-西瓜书】七、贝叶斯分类器
- 【机器学习-西瓜书】七、朴素贝叶斯分类器
- 西瓜书《机器学习》周志华读书笔记和课后习题目录
- 西瓜书《机器学习》课后答案——Chapter2
- 西瓜书《机器学习》课后答案——Chapter3_3.4
- 西瓜书《机器学习》课后答案——Chapter3_3.3
- 西瓜书《机器学习》课后答案——Chapter3_3.5
- telnet
- PAT:B1016. 部分A+B (15)
- update语句起别名写法
- python批量修改文件名
- C语言学习历程(二)自定义数据类型与其本质
- 机器学习正式更新-NG到西瓜书
- IJKPlayer简单实用流程
- 学习了一位前辈写的大数加法实例,由于我是菜鸟一枚,自己修改了备注也更全面一些,大神勿喷
- Android ijkplayer的使用解析
- LNMP分布式的安装
- [docker]一些细节cmd和entrypiont
- 字典(汇编指令 & INT 21H)
- 17.11.16日报
- installing Nginx Core and Modules from Source