关于ELM

来源：互联网发布：导航端口和波特率编辑：程序博客网时间：2024/06/07 22:19

ELM学习记录及其一些想法

最近有幸参与了一些对于Extreme learning machine（超限学习机）的研究，对于ELM学界似乎是有一定的争论的，详情可参阅[1]，大体上其思想就在于对于神经网络问题，对神经元的权重W和b进行随机设定后，就固定不变，并不利用BP算法（也就是梯度下降算法）进行调整，然后将神将网络训练问题转化为一个最小二乘问题，去拟合训练数据。

ELM的一些证明及其想法

ELM具体过程如下：
单隐层前向神经网络示意图，图片来自[2]

对于如图所示激活函数为f(x)的前向神经网络，输出target t 和输入 x 有如下关系：

\sum j = 1 n β j f (w j x j + b j) = t i, j = 1, 2, . . . . ., L

对于以上L个方程组，可写为Hβ=T的形式，这里的H矩阵有如下的形式：

∣ ∣ ∣ ∣ ∣ ∣ ∣ f (w 1 x 1 + b 1) \dots \dots, f (w N x 1 + b N) \dots \dots f (w 1 x L + b 1) \dots \dots, f (w N x L + b N) ∣ ∣ ∣ ∣ ∣ ∣ ∣

对于传统的神经网络BP求解方法，可以看做这样一个过程，就是首先根据具体应用选取一种Loss Function，最常见的如均方误差∥T−Hβ∥2F，然后求解对于Loss Function而言H中的w,b和β的梯度，利用梯度下降方法找到一组对于训练数据x,t的最优解，然而值得注意的是，神经网络的训练是一个非凸优化问题，对于如上所述的BP算法，调整参数w,b和β是一个耗时又耗力的过程（上图的是一个只有两层结构的全连接前向网络，利用简单的BP算法尚能解决，但是对于具有很深深度的神经网络，简单的BP算法并不能解决这一问题，所以才有了利用预训练解决深度神经网络训练的问题，CNN一定程度的成功愚见也是认为CNN这样一种结构比之全连接神经网络而言，一定程度上减少了训练中的参数而取得了成功，扯得有点远，ELM提出是在06年，那时候人们还没有找到很好训练深度神经网络的方法）。

ELM的思想是，随机化w,b，就固定不再变化，即H不再变化，而只根据H,t求解β，这样这一问题就转换为一个众所周知的最小二乘凸优化问题，当然也可以对β加上L2,L1范数约束，这样这一问题也可以变为岭回归问题，LASSO或者弹性网络等问题，这些问题无一不是凸优化问题，有意思的是在提出这一理论时黄老师在文献[3]中给出了一个对于训练数据ELM可以无限逼近的证明，对于这一证明个人还是有一些困惑的。定理如下：
对于一个N个神经元的，激活函数f:R→ℝ无穷次可微的前向神经网络，对于N个随机样本不同(xi,ti)，xi∈ℝn，ti∈ℝm，对于根据任一连续变量随机取自Rn和R的w,b，矩阵H100%可逆且100%Hβ=T。

这里用到的证明来自与文献[4],即如果Hβ=T有解，则H必须满秩，由于H为一N×N方阵，则只需证明此方阵的向量不存在于N-1维子空间即可，如果这些向量存在于N-1维子空间则存在一个N维向量与其垂直，
这里写图片描述
由于图中的等式对b进行无限次求导（由于假设激活函数是无限可导的），那么会得到>N个等式，而未知数只有N个n1,n2,......,nN，这样的话该方程无解，然而这个证明并不是很严谨，首先如果s(x)=ex的话，那么对该方程求导，就只存在两个方程，那么这一问题并不一定就是无解的，所以并不是对于所有无穷次可微的函数都成立的，这个定理是需要对满足条件的函数给定一个限定的，其次，概率100%也不太严谨，因为因任一方式采样，仍然是可能采样出一组存在于N-1维子空间的H矩阵的(极端情况，b全部相等，当然概率较低)。

这一证明我觉得最大的问题还是在于这一证明只是针对训练数据的逼近能力而言的，然而对于机器学习的方法，我们实际上最关心的并不是其逼近拟合训练数据的能力，而是其通过一定的数据学习到一定的知识，然后对其未知的数据做出分类，预测的能力，对于很多算法，即使对于训练数据我们能够拟合到误差等于0，但是我们继续训练，对于测试数据，我们仍然能够进行提示，而一个学习算法即使能完美逼近训练数据，也同样可能存在过拟合的问题，所以对于ELM来说，其已经将BP神经网络中的非凸优化问题转化为了一个最小二乘的凸优化问题，该问题在求解过程中已经一定存在至少一个全局最优解，那么已经是可以进行训练了，似乎进行对上一定理的证明的必要性是存疑的。当然，我在这里也并不是对ELM理论进行批判，因为早年神经网络研究可能比较关注训练误差，和数据逼近能力，而学习能力可能限于当时的大规模应用尚未展开，研究者尚未进行足够的研究。作为弥补，在06年的另一篇文献中，作者也给出了ELM对函数逼近能力的严谨的证明[5]。（然而这里有一个思考，对于函数的万能逼近就能刻画机器学习算法的学习能力？我觉得人的学习能力似乎是人类根据杂乱无章的信息，具有制造函数的能力，比如现在的研究在图像识别领域不仅可以区分差别很大的图像，而且已经可以区分开亚洲象和非洲象，可以区分阿拉斯加犬和狼！，真的存在一个万能函数把复杂的图像数据映射到这么多种类上吗？这些种类对于人类以外的生物来识别可能根本就难以区分啊，还是因为它已经可以自学习到一些很深层的特征，在人类引导下创造除了这么多种的种类。）

自己对于ELM的一些实验

采用HPELM的包，对于自己一直研究的预测问题做了一定的实验，值得注意的是，ELM的两个数学证明，一个是神经元个数等于样本数时对于训练数据有无限逼近能力，一个是神经元趋向无穷时，对函数有无限逼近能力，这两者在现实中都是不可行的，比如有90000个样本，而如果是一个90000个神经元的ELM，我们就需要对一个90000×90000的样本进行求伪逆的操作（ELM的训练过程β=H†T），这在实际中是肯定相当耗时的,但是，在某些测试集上，ELM确实表现出了神经元增加性能提升的现象，然而我在某时间序列预测问题上（90000个样本），对于300个神经元到14000个神经元的ELM性能进行了测试（基本上采用tanh，sigmoid和Relu都是相同的结果），结果却是当神经元达到1200个左右时预测效果最佳，对于sigmoid函数的这一缺陷，似乎最新的理论研究也有触及[6]。此外，由于ELM的训练采用的是固定w和b求伪逆，并没有所谓的梯度爆炸和梯度衰减等问题，采用RelU激活函数对其来说没有任何实际意义，反而由于H矩阵中存在大量的0，影响求伪逆的速度，精度也不如sigmoid和tanh，这里引申出一个问题，我们为了训练一些很深的神经网络而提出了一些激活函数，然而这些激活函数只是为了训练深度神经网络而提的，实际这些激活函数并不能代表我们的大脑的运作方式，也并不意味着这些激活函数就一定是未来神经网络中必用的激活函数，只是对于某些激活函数而言，我们没有找到好的训练调参方法，我相信人类大脑是成千上万中的激活函数的组合，而且每个大脑都是不一样的。
预测误差与神经元数目的关系

此外，自己也在研究一种深度神经网络的框架来做这一预测问题，虽然自己目前尚未研究完成并发表的预测方法在性能上是优于ELM的，但是深度神经网络训练相较ELM是极其耗时的，对于一个1000个神经元的ELM方法，训练只需在普通PC上消耗1分钟的时间，在这一任务上其性能已经达到了很多深度学习框架迭代训练上百次的时间达到的精度，如果我们调参过程中用的很多时间得到的结果还不如随机映射出的一个神经网络所能达到的结果，那是否需要对现有的深度神经网络训练方法进行反思呢？

总结

ELM方法是一种较为简单，但性能还不错的神经网络方法，对于ELM似乎有一些批评，比如认为随机映射会破坏数据的原有结构，还有其不可应用到大规模复杂的图像识别，文本分析之类的应用中去，但是我觉得人工智能问题并不是只需要处理图像，音频，文本等等数据，ELM虽然可能很难在imagenet这样的比赛中取得成功，但是对于很多其它领域的研究还是很有用的，因为它比较简单，对于非机器学习领域的研究者来说拿来就能用，而且效果说不定也还不错，其性能相较简单的BP神经网络可能更佳，另外对于神经网络结构进行随机映射亦能取得不错的效果，是一个很有趣的现象，也是一个很值得思考的问题，更是一个很值得研究的问题。也应该引起其它领域神经网络研究者的一些反思。

参考（由于有些并不是文献，所以只给出参考）

[1] http://www.zhihu.com/question/28810567
[2] Akusok, Anton, et al. “High-performance extreme learning machines: a complete toolbox for big data applications.” IEEE Access 3 (2015): 1011-1025.
[3] Huang, Guang-Bin, Qin-Yu Zhu, and Chee-Kheong Siew. “Extreme learning machine: theory and applications.” Neurocomputing 70.1 (2006): 489-501.
[4] Tamura, Shin’ichi, and Masahiko Tateishi. “Capabilities of a four-layered feedforward neural network: four layers versus three.” IEEE Transactions on Neural Networks 8.2 (1997): 251-255.
[5] Huang, Guang-Bin, Lei Chen, and Chee Kheong Siew. “Universal approximation using incremental constructive feedforward networks with random hidden nodes.” IEEE Transactions on Neural Networks 17.4 (2006): 879-892.
[6] Liu, Xia, et al. “Is extreme learning machine feasible? A theoretical assessment (Part I).” IEEE transactions on neural networks and learning systems 26.1 (2015): 7-20.

0 0