吴恩达深度学习笔记(三)week2机器学习策略
来源:互联网 发布:国际数据公司idc 编辑:程序博客网 时间:2024/06/05 15:03
进行误差分析
以一个简单的例子为例,在做一个猫图片的分类器时,若产生了
常用的误差分析是用一个表格做统计,如下图所示,统计每项可能引起系统误差的比例。
清楚标记错误的数据
吴恩达:人工干预,对误差进行分析,加入人对数据的理解在构建实际机器学习系统很有帮助。
由于人工对数据错误标记引起的误差也是根据实际情况来看需不需要处理。简单的说就是若错误标记占总误差的比例很小则不需处理,很大则需要处理。还有一点就是深度学习系统往往对随机误差的鲁棒性很好,而对系统误差的鲁棒性很差(例如总是把白狗分类成猫)
在不同划分上进行训练和测试
当拥有很多数据但是只有一小部分和系统将来要用到的数据符合同一分布,这时对数据集的划分通常把那小部分和实际应用同分布的数据作为开发(验证)集和测试集,那大部分数据作为训练集。这样就导致了数据集的分布不一样,但通常都是这么做的。如下两个例子,其一,猫的数据集中大量图片是从网上下载的高清图片,只有少量是可能和实际应用中相似的图片,通常会把后者全部作为验证集/测试集,这相当于给系统设立了一个目标靶心。
其二,在语音识别的系统开发中,有很多音源但是只有少量是应用场景中的情况。处理方法如上。
不匹配数据划分的偏差和方差
这一节主要是讲对误差的分析。如下图所示,当人类误差几乎为0,训练误差为
处理数据不匹配的问题
上一节讲到了分析误差,当我们发现是由于数据不匹配的问题造成的误差时应该怎么处理。
- 首先分析训练集和开发集/测试集的不同
- 人工合成数据使训练集和开发集/测试集尽可能相似
下图以语音激活后视镜为例,可以通过合成语音(原训练集+汽车噪声)作为新的训练集。
人工合成数据易造成过拟合,如用一小时的汽车噪音去合成1000小时的训练集,对人耳来说可能很难分辨,但是实际却很可能对那一小时噪音造成了过拟合。
另一个例子是下图的汽车都是通过同一辆车合成得到的,以人眼很难分辨,但是训练中却可能对一小部分汽车集造成过拟合。
迁移学习
迁移学习是把在一个任务中学到的网络用于另一个任务,吴恩达给出的解释是:网络的前面的层学到的 一些比较低层次的特征仍然对新的任务有用(虽然不是很理解。。。先mark)课程中举了两个例子,其一是猫识别的系统可以用于放射科图片的系统,其二是语音识别系统,只需把最后的输出层换掉。如下图所示:
什么时候可以用迁移学习?
- 任务A和任务B有相同的输入(如都是图片或语音)
- 任务A比任务B有更多数据
- 任务A中的低层次特征对任务B有用。
多任务学习
当构建一个学习系统的任务有多个时可以考虑多任务学习,如构建一个学习系统同时检测图片中是否有人、车、红绿灯、停车标志时,可以将输出单元设置为四个,同时学习,如下图所示:
- 不同的学习任务之间有相似的低层次特征
- 不同的学习任务之间的数据有很大的相似性
- 训练一个足够大的网络能很好的完成目标任务
端到端的学习
有的任做务可以直接一步学习(端到端),如机器翻译。而有些可以有中间步骤,如根据一张骨骼的图片判断年龄可以通过,学习图片到骨骼,在查表得出年龄。
- 吴恩达深度学习笔记(三)week2机器学习策略
- 吴恩达深度学习笔记(三)week1机器学习策略
- 《深度学习Ng》课程学习笔记03week2——机器学习(ML)策略(2)
- 机器学习笔记week2
- Coursera机器学习笔记(week2)
- 吴恩达深度学习笔记(一)week1~week2
- Stanford 机器学习笔记 Week2
- Coursera机器学习 Week2 笔记
- 吴恩达深度学习笔记(四)week2深度卷积神经网络实例
- 机器学习笔记week2(Andrew NG)
- 吴恩达神经网络和深度学习课程自学笔记(八)之机器学习策略
- datascience机器学习week2
- 机器学习week1-week2
- Coursera上的Andrew Ng《机器学习》学习笔记Week2
- 吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记(3-1)-- 机器学习策略(1)(转)
- 吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记(3-2)-- 机器学习策略(2)(转)
- 吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记(3-1)-- 机器学习策略(1)
- 吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记(3-2)-- 机器学习策略(2)
- Anaconda2 安装过程中出现的ascii编码错误解决方案
- VS报错 error LNK2005: _DllMain@12 已经在 MSVCRTD.lib(dllmain.obj) 中定义 链接报错: 错误 33 error LNK2005: _DllMai
- 电商错误归档
- java8新特性 函数式编程 Lamda
- 基本数据结构:链表(list)
- 吴恩达深度学习笔记(三)week2机器学习策略
- ubuntu 安装ssh服务器
- Linux NFC资料
- Linux企业生产常见问题集合
- 删除系统分区
- java 单例模式的几种实现
- Spring 任务调度
- 饮料换购
- 开通了一个笔记本