AI笔记-1-自编码

来源:互联网 发布:秦朝和罗马知乎 编辑:程序博客网 时间:2024/06/15 13:41

传统机器学习任务很大程度上依赖于好的特征工程,比如对数值型、日期时间型、种类型等特征的提取。特征工程往往是非常耗时耗力的,在图像、语音和视频中提取到有效的特征就更难了,工程师必须在这些领域有非常深入的理解,并且使用专业算法提取这些数据的特征。深度学习则可以解决人工难以提取有效特征的问题,它可以大大缓解机器学习模型对特征工程的依赖。



深度学习在早期一度被认为是一种无监督的特征学习( Unsupervised Feature Leaming),模仿了人脑的对特征逐层抽象提取的过程。这其中有两点很重要:
一是无监督学习,即我们不需要标注数据就可以对数据进行一定程度的学习,这种学习是对数据内容的组织形式的学习,提取的是频繁出现的特征;
二是逐层抽象,特征是需要不断抽象的,就像人总是从简单基础的概念开始学习,再到复杂的概念。学生们要从加减乘除开始学起,再到简单函数,然后到微积分,深度学习也是一样,它从简单的微观的特征开始,不断抽象特征的层级,逐渐往复杂的宏观特征转变。

将一张图片的原始像素慢慢抽象,从像素组成点、线,再将点、线组合成小零件,再将小零件组成车轮、车窗、车身等高阶特别,这便是深度学习在训练过程中所做的特征学习。


先对数据进行无监督的学习,提取到一些有用的特征,将神经网络权重初始化到一个较好的分布,然后再使用有标注的数据进行监督训练,即对权重进行 fine-tune。


現在,无监督式预训练的使用场景比以前少了许多,训练全连接的 MLp或CNN、RNN时,我们都不需要先使用无监督训练提取特征。但是无监督学习乃至AutoEncode依然是非常有用的。现实生活中,大部分的数据都是没有标注信息的,但人脑就很擅长处理这些数据,我们会提取其中的高阶抽象特征,并使用在其他地方。


自编码器作为深度学习在无监督领域的尝试是非常成功的,同时无监督学习也将是深度学习接下来的一个重要发展方向。