上海之行开会感悟

来源：互联网发布：mysql版本区别编辑：程序博客网时间：2024/05/23 14:47

上周去上海参加了几天会议，东西没学到多少打击不小。本以为哪些那些华人学者讲中文呢，没想到全是英文的演讲，这就注定悲剧了；可能之前的心态就不对，抱着对大牛的极度崇拜，非常想来听听他们的报告，根本没有考虑现学知识有限英语水平更有限，这次会议可能对我来说就是一次科普之旅了，虽然没有听懂具体的内容还是了解了算法的应用领域，以及使用来干什么的，以下是我在24,25两天的报告中比较感兴趣的报告中根据PPT上的内容（基本上就是标题）以及连听带猜记录下的内容。

Stephen Boyd的题目是Convex Optimization:from Real-Time Embedded to Large-Scale Distributed(凸优化：从实时嵌入式到大规模分布式)之前在学习统计学习方法哪本书中的算法时有些算法用到了凸优化，了解了凸优化的皮毛，具体没有深入去看，所以听起报告来基本听不懂，Boyd的报告主要分三个部分：凸优化介绍，实时嵌入式优化，大规模分布式优化。在凸优化介绍部分（这是我听得最清楚的一部分）Boyd主要介绍了在机器学习，统计学，金融，供应链，收入管理，广告，控制，信号与与图像处理，视觉，网络，电路设计，组合优化等领域的应用。具体介绍了在机器学习中的应用，在回归于分类的参数估计的应用算法有：最小二乘，LASSO回归，逻辑回归，SVM分类；压缩感知，K-means算法，EM算法，自动编码器中应用到了凸优化。并举了SVM和LASSO的例子具体说了啥也没听懂。公式不好编辑上图了：

SVM的例子

LASSO的例子：

实时嵌入式优化：

在实时嵌入式优化部分只是参照PPT上的内容听懂了部分不含公式的内容：

Boyd讲了在实时嵌入式中应用凸优化的动机：

(1)在许多应用中需要重复的使用不同的数据去解决相同的问题。例如在控制领域随着传感器信号和目标的变化执行更新动作；在金融领域中随着价格和预测的变化重新平衡投资组合。

(2)应用在分钟或小时测量次数的领域中：供应链，化工控制过程，交易。

(3)使用新技术可以应用在毫秒或微妙测量次数的应用中

并提出了三个在嵌入式求解中的要求如下：

1.高速度：

硬实时执行限制

2.极度的可靠性和鲁棒性

没有浮点异常

必须处理质量差的数据

3.small footprint

没有复杂的库文件

大规模分布式优化：

在大规模分布式优化部分Boyd同样先是介绍了分布式优化的动机与目标并举了分布式优化的例子。Boyd讲到的动机与目标：

关于动机：解决任意规模的优化问题例如拥有海量数据的机器学习或统计学习问题；大规模网络中的动态优化问题。

关于目标：一个理想的系统应该具有像CVX一样的接口，以现代大规模计算平台为目标并且是任意规模的。

最后表示以上虽然还没有达到，但是已经取得了充满希望的进步。

Boyd介绍了三种分布式凸优化方法：

1.dual decomposition(对偶分解)

2.subgradient consensus(梯度共识)

3.alternating direction method of multipliers(乘法器的交替方向法)

最后总结了下凸优化在许多应用中出现的以及可以被有效解决的问题。

Eric Xing的题目：Parallelization Strategies and Systems for Distributed Machine Learning

首先介绍了机器学习中的三个挑战：

1.数据规模过大，在演讲中用具体的图标介绍了今年了数据的增长趋势。

2.巨大的模型尺寸，大数据需要大模型提取理解，但是机器学习模型参数超过1万亿将不会拟合。

3.机器学习库不够，经典的机器学习算法已经使用了10年，例如K-means,逻辑回归，决策树，朴素贝叶斯算法等。

为什么需要新的大规模机器学习系统？首先从机器学习学者的角度阐述：主要关注正确性，以及更少的迭代。其次系统的角度阐述：迭代的高吞吐量，强大的容错原子操作。

对于机器学习计算与传统的计算的区别做了如下讲解：

机器学习程序：以优化为中心，迭代收敛；

传统程序：以操作为中心，确定性。

对于传统的数据处理需要操作的准确性并举了一个归并排序的例子如下图所示：

对机器学习程序中数据与模型的二分法作了介绍，公式太多没记住！

Eric在报告中介绍了机器学习的内在特性：

机器学习十一优化为中心的，并承认一个迭代的收敛算法的解决方案，而不是一步到位的封闭形式的解决方案。

误差容忍：在中间计算过程中对有限误差的鲁棒性。

动态结构依赖：改变模型参数之间的相关性使其能有效地并行化。

非均匀收敛：参数可以在不同的步数中收敛。

在接下来的演讲中有介绍了一个新的大规模并行机器学习框架--PETUUM

以下是对PETUUM的介绍：

关键模块：

1.面向数据并行机器学习算法的参数服务器：使数据并行更搞笑，模型参数变得全局，特殊类型的分布式共享内存。

2.特定的模型并行的机器学习算法：使用正确的模型并行性，可以对机器学习模型进行分析以便更好地执行命令。

Think like an ML algo:

ML algo=(1)update equations+(2)run those eqns in some order.具体内容演讲中用一个图表做了讲解。

同时也指出这还不是一个理想的分布式系统。面临着两大挑战：1.网络太慢，2.想通的机器很少表现的一样。

对于如何提高数据并行化的速度提出了以下三点建议：

1.存在一些方法或者是很安全但是很慢，或者是很快但是有风险。

2.需要部分同步：均匀的传输网络通信，线程不应该等待

3.需要离散性：slow threads must somehow catch up!

以下都是关于PETUUM的具体各个模块的介绍，没有做详细记录。

Wen Gao的题目是：Multimedia Big Data Processing for Intelligent Cities

Wen Gao的报告主要分为：动机，挑战，和最后的总结三个部分。在多媒体大数据处理动机这一部分介绍到：我们处在大数据时代，在金融，天气预测，地震，石油探测等领域都会收集海量的数据，多媒体中海量的数据可以为我们提供更好的服务。并且用图表数据表述了2010年到2015年间监控视频，嵌入式与医疗视频，数据处理，娱乐与社交多媒体视频数据的增长，并预测了到2020年的增长趋势。比如在智慧城市这一块现在才起步，交通，医疗保健，教育和安全领域都有海量数据，运用好这些数据可以为我们提供更好的服务。同时也指出了海量对媒体数据区别于大数据的特点是：通过传感器网络收集，还没有很好的组织好用于数据挖掘；而且需要将时间，坐标，方位，光线，气温，户内或户外等数据集中起来。

关于动机：

在多媒体大数据面临的挑战这一部分Wen Gao 介绍到主要有三种挑战分别是：对于多媒体大数据的高效视频编码，对于多媒体大数据的目标追踪与检测和多媒体大数据中的识别问题。同时对应上述面临的挑战也提出了相应的解决方案：

1.对于大规模多媒体数据的高效视频编码：AVS2

2.对于大规模对媒体数据的目标追踪与检索（ROI in AVS）

3.从大规模多媒体数据中识别：CDVS

同时也指出编码效率是一个现实的挑战，并且已经找到了提高编码效率的方法，IEEE Std 1857/AVS2的编码效率是state-of-the -art标准的两倍。随后介绍的视频编码(数字时代的引擎)存在去除冗余的问题可以通过使用信号处理和香浓信息理论解决。Wen Gao 讲的一些视频编码的东西没听懂，随后的介绍的视频分析面临的挑战照着PPT听了一些

2014年视频分析的挑战：

任务：四大种类，五个任务

Category1:从一个单一摄像头跟踪检测行人和车辆。

Task1:行人，面部，车辆检测（Level A）

Task2:行人跟踪（Level B）

Category2:通过校园内的多摄像头对行人和车辆进行跟踪

Task3:多摄像头的行人跟踪和重新识别（Level C）

Category3:无约束的人脸识别

Task4:人脸识别（LevelC）

Category4:视频中异常检测

Task5:异常行为发现

2015年多媒体大数据的挑战：任务，参与者。

对于任务介绍了一下三点：

基于多摄像机网络的大规模目标追踪

数据集：PKU-SVD-B数据集

Bocom Company发起的

总结：感触还是挺多的，知识有限，英语蹩脚感觉完全浪费了这次机会，最强烈的感受就是要踏踏实实的好好学吧同时把英语听力也要练练啊，要不看着别人跟大牛侃侃而谈只有羡慕的份了。加油吧！

补充下Jun Zhu的部分如下：

之前不了解Dropout，现在网上搜索了下：

Dropout是hintion提出的，源于其文章Improving neural networks by preventing co-adaptation of feature detectors.中文大意为：通过阻止特征检测器的共同作用来提高神经网络的性能。

关于Dropout，文章中没有给出任何数学解释，Hintion的直观解释和理由如下：

　　1. 由于每次用输入网络的样本进行权值更新时，隐含节点都是以一定概率随机出现，因此不能保证每2个隐含节点每次都同时出现，这样权值的更新不再依赖于有固定关系隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况。

2. 可以将dropout看作是模型平均的一种。对于每次输入到网络中的样本（可能是一个样本，也可能是一个batch的样本），其对应的网络结构都是不同的，但所有的这些不同的网络结构又同时share隐含节点的权值。这样不同的样本就对应不同的模型，是bagging的一种极端情况。个人感觉这个解释稍微靠谱些，和bagging，boosting理论有点像，但又不完全相同。

　　3. native bayes是dropout的一个特例。Native bayes有个错误的前提，即假设各个特征之间相互独立，这样在训练样本比较少的情况下，单独对每个特征进行学习，测试时将所有的特征都相乘，且在实际应用时效果还不错。而Droput每次不是训练一个特征，而是一部分隐含层特征。

4.还有一个比较有意思的解释是，Dropout类似于性别在生物进化中的角色，物种为了使适应不断变化的环境，性别的出现有效的阻止了过拟合，即避免环境改变时物种可能面临的灭亡。

Jun Zhu的题目是：Adaptive Dropout Training for SVMs。主要讲了大数据上的过拟合，支持向量机的Dropout训练，自适应dropout率，贝叶斯方法的学习这几部分。在大数据的过拟合中介绍了随着函数分类的复杂度升高估计误差也越来越大，风险也变大，近似值在减小。并且随着相关数据的增长，信息会变得越来越过载，相关信息的增长慢于线性，模型容量可能比相关信息的数量增长更快。同时强调防止过拟合正则化变得越来越重要。接着有介绍了亚马逊电影评论分类的例子，介绍了通过正则经验风险最小化公式：

R是损失函数，L为 L1/L2范数。

关于支持向量机的Dropout训练主要介绍了目前做的工作：开发了IRLS算法来最小化变分约束；开发关于Dropout逻辑回归的IRLS算法；得出一个自适应学习规则来决定噪声水平。后面对在IRLS框架下Hinge loss和Logistics loss做了比较：

（1）损失迭代最小化了重新加权的二次损失，但在每次迭代的更新规则的权重和标签不同。

（2）二次损失是一个特殊的情况下，一个单一的迭代。

接下来介绍了两个实验主要在MCF-logistic和MCF-quadratic模型下对比了Dropout-SVM和Dropout-Logistic具体情况如图所示：

在实验一中对比了明确的和隐式的dropout dorruption.并举了亚马逊图书的例子。

在实验二中指出在某些设置中，有些特征可能在某些测试时会观察不到，用”nightmare at test time”在MNIST上做实验，在原训练集上训练dropout分类器，在测试图像上随机删除特征，同时测量分类误差。

关于Adaptive Dropout Rates介绍了一个贝叶斯特征噪声模型如下图所示：

并且在该模型中允许各维度有不同的dropout率，可以自动推理dropout率。

关于贝叶斯方法学习主要介绍了随机学习方法和分布式学习方法。

最后对噪声控制拟合特征和基于迭代加权最小二乘算法的支持向量机的dropout 训练还有Dropout级别的自适应更新规则等进行了总结，同时介绍了未来继续要做的工作：dropout学习中的核技巧，dropout-svm的深度结构，贝叶斯方法的学习等。

最后组委会的sildes终于放出来，视频暂时还没有，出来后找感兴趣的再仔细听听。

0 0