上海之行开会感悟

来源：互联网发布：excel数据透视表应用编辑：程序博客网时间：2024/05/18 15:07

上周去上海参加了几天会议，东西没学到多少打击不小。本以为哪些那些华人学者讲中文呢，没想到全是英文的演讲，这就注定悲剧了；可能之前的心态就不对，抱着对大牛的极度崇拜，非常想来听听他们的报告，根本没有考虑现学知识有限英语水平更有限，这次会议可能对我来说就是一次科普之旅了，虽然没有听懂具体的内容还是了解了算法的应用领域，以及使用来干什么的，以下是我在24,25两天的报告中比较感兴趣的报告中根据PPT上的内容（基本上就是标题）以及连听带猜记录下的内容。

Stephen Boyd的题目是Convex Optimization:from Real-Time Embedded to Large-Scale Distributed(凸优化：从实时嵌入式到大规模分布式)之前在学习统计学习方法哪本书中的算法时有些算法用到了凸优化，了解了凸优化的皮毛，具体没有深入去看，所以听起报告来基本听不懂，Boyd的报告主要分三个部分：凸优化介绍，实时嵌入式优化，大规模分布式优化。在凸优化介绍部分（这是我听得最清楚的一部分）Boyd主要介绍了在机器学习，统计学，金融，供应链，收入管理，广告，控制，信号与与图像处理，视觉，网络，电路设计，组合优化等领域的应用。具体介绍了在机器学习中的应用，在回归于分类的参数估计的应用算法有：最小二乘，LASSO回归，逻辑回归，SVM分类；压缩感知，K-means算法，EM算法，自动编码器中应用到了凸优化。并举了SVM和LASSO的例子具体说了啥也没听懂。公式不好编辑上图了：

SVM的例子

LASSO的例子：

实时嵌入式优化：

在实时嵌入式优化部分只是参照PPT上的内容听懂了部分不含公式的内容：

Boyd讲了在实时嵌入式中应用凸优化的动机：

(1)在许多应用中需要重复的使用不同的数据去解决相同的问题。例如在控制领域随着传感器信号和目标的变化执行更新动作；在金融领域中随着价格和预测的变化重新平衡投资组合。

(2)应用在分钟或小时测量次数的领域中：供应链，化工控制过程，交易。

(3)使用新技术可以应用在毫秒或微妙测量次数的应用中

并提出了三个在嵌入式求解中的要求如下：

1.高速度：

硬实时执行限制

2.极度的可靠性和鲁棒性

没有浮点异常

必须处理质量差的数据

3.small footprint

没有复杂的库文件

大规模分布式优化：

在大规模分布式优化部分Boyd同样先是介绍了分布式优化的动机与目标并举了分布式优化的例子。Boyd讲到的动机与目标：

关于动机：解决任意规模的优化问题例如拥有海量数据的机器学习或统计学习问题；大规模网络中的动态优化问题。

关于目标：一个理想的系统应该具有像CVX一样的接口，以现代大规模计算平台为目标并且是任意规模的。

最后表示以上虽然还没有达到，但是已经取得了充满希望的进步。

Boyd介绍了三种分布式凸优化方法：

1.dual decomposition(对偶分解)

2.subgradient consensus(梯度共识)

3.alternating direction method of multipliers(乘法器的交替方向法)

最后总结了下凸优化在许多应用中出现的以及可以被有效解决的问题。

Eric Xing的题目：Parallelization Strategies and Systems for Distributed Machine Learning

首先介绍了机器学习中的三个挑战：

1.数据规模过大，在演讲中用具体的图标介绍了今年了数据的增长趋势。

2.巨大的模型尺寸，大数据需要大模型提取理解，但是机器学习模型参数超过1万亿将不会拟合。

3.机器学习库不够，经典的机器学习算法已经使用了10年，例如K-means,逻辑回归，决策树，朴素贝叶斯算法等。

为什么需要新的大规模机器学习系统？首先从机器学习学者的角度阐述：主要关注正确性，以及更少的迭代。其次系统的角度阐述：迭代的高吞吐量，强大的容错原子操作。

对于机器学习计算与传统的计算的区别做了如下讲解：

机器学习程序：以优化为中心，迭代收敛；

传统程序：以操作为中心，确定性。

对于传统的数据处理需要操作的准确性并举了一个归并排序的例子如下图所示：

对机器学习程序中数据与模型的二分法作了介绍，公式太多没记住！

Eric在报告中介绍了机器学习的内在特性：

机器学习十一优化为中心的，并承认一个迭代的收敛算法的解决方案，而不是一步到位的封闭形式的解决方案。

误差容忍：在中间计算过程中对有限误差的鲁棒性。

动态结构依赖：改变模型参数之间的相关性使其能有效地并行化。

非均匀收敛：参数可以在不同的步数中收敛。

在接下来的演讲中有介绍了一个新的大规模并行机器学习框架--PETUUM

以下是对PETUUM的介绍：

关键模块：

1.面向数据并行机器学习算法的参数服务器：使数据并行更搞笑，模型参数变得全局，特殊类型的分布式共享内存。

2.特定的模型并行的机器学习算法：使用正确的模型并行性，可以对机器学习模型进行分析以便更好地执行命令。

Think like an ML algo:

ML algo=(1)update equations+(2)run those eqns in some order.具体内容演讲中用一个图表做了讲解。

同时也指出这还不是一个理想的分布式系统。面临着两大挑战：1.网络太慢，2.想通的机器很少表现的一样。

对于如何提高数据并行化的速度提出了以下三点建议：

1.存在一些方法或者是很安全但是很慢，或者是很快但是有风险。

2.需要部分同步：均匀的传输网络通信，线程不应该等待

3.需要离散性：slow threads must somehow catch up!

以下都是关于PETUUM的具体各个模块的介绍，没有做详细记录。

Wen Gao的题目是：Multimedia Big Data Processing for Intelligent Cities

Wen Gao的报告主要分为：动机，挑战，和最后的总结三个部分。在多媒体大数据处理动机这一部分介绍到：我们处在大数据时代，在金融，天气预测，地震，石油探测等领域都会收集海量的数据，多媒体中海量的数据可以为我们提供更好的服务。并且用图表数据表述了2010年到2015年间监控视频，嵌入式与医疗视频，数据处理，娱乐与社交多媒体视频数据的增长，并预测了到2020年的增长趋势。比如在智慧城市这一块现在才起步，交通，医疗保健，教育和安全领域都有海量数据，运用好这些数据可以为我们提供更好的服务。同时也指出了海量对媒体数据区别于大数据的特点是：通过传感器网络收集，还没有很好的组织好用于数据挖掘；而且需要将时间，坐标，方位，光线，气温，户内或户外等数据集中起来。

关于动机：

在多媒体大数据面临的挑战这一部分Wen Gao 介绍到主要有三种挑战分别是：对于多媒体大数据的高效视频编码，对于多媒体大数据的目标追踪与检测和多媒体大数据中的识别问题。同时对应上述面临的挑战也提出了相应的解决方案：

1.对于大规模多媒体数据的高效视频编码：AVS2

2.对于大规模对媒体数据的目标追踪与检索（ROI in AVS）

3.从大规模多媒体数据中识别：CDVS

同时也指出编码效率是一个现实的挑战，并且已经找到了提高编码效率的方法，IEEE Std 1857/AVS2的编码效率是state-of-the -art标准的两倍。随后介绍的视频编码(数字时代的引擎)存在去除冗余的问题可以通过使用信号处理和香浓信息理论解决。Wen Gao 讲的一些视频编码的东西没听懂，随后的介绍的视频分析面临的挑战照着PPT听了一些

2014年视频分析的挑战：

任务：四大种类，五个任务

Category1:从一个单一摄像头跟踪检测行人和车辆。

Task1:行人，面部，车辆检测（Level A）

Task2:行人跟踪（Level B）

Category2:通过校园内的多摄像头对行人和车辆进行跟踪

Task3:多摄像头的行人跟踪和重新识别（Level C）

Category3:无约束的人脸识别

Task4:人脸识别（LevelC）

Category4:视频中异常检测

Task5:异常行为发现

2015年多媒体大数据的挑战：任务，参与者。

对于任务介绍了一下三点：

基于多摄像机网络的大规模目标追踪

数据集：PKU-SVD-B数据集

Bocom Company发起的

总结：感触还是挺多的，知识有限，英语蹩脚感觉完全浪费了这次机会，最强烈的感受就是要踏踏实实的好好学吧同时把英语听力也要练练啊，要不看着别人跟大牛侃侃而谈只有羡慕的份了。加油吧！

0 0