Moving Big Data to The Cloud: An Online Cost-Minimizing Approach文章阅读笔记

来源：互联网发布：淘宝充值买家退款编辑：程序博客网时间：2024/06/05 16:57

问题挑战：如何将大量数据上传至云中。传统硬件驱动传输方式效率低且不稳定，通过对MapReduce框架的学习，文章提出了两种在线算法：OLM、RFHC。

第三部分A：云端内部的传输是高速的，用户端内部的传输连接也是很快的，用户端到云端之间的通过因特网的连接传输是受到限制的。

总费用包括：带宽成本、总存储计算费用、迁移成本、路由成本。

带宽成本是指VPN之间的传输，即在internet上的传输成本；

存储费用（按字节收费）、计算费用（按时间收费）

迁移费用发生在历史数据由之前的数据中心迁移到现在处理数据的数据中心时，因为历史数据需要和此刻数据一起处理。迁移费用实质上也是带宽费用。

路由成本主要是时间延迟，用数据量 * 延迟表示

两个在线算法：

将问题分解为每个时间点考虑该时间点最优并不理想，因为会造成过早迁移，缺乏整体考虑。因此要连续时间考虑。

将总体花费分为两个部分：迁移费用+非迁移费用（带宽费用+存储计算费用+路由花费）

Lazy migration algorithm：

基本思想是推迟数据中心的转换，直到非迁移费用大于潜在的迁移费用为止。（即使在某一个时间点最佳选择是迁移数据中心）

在某一时刻 t ，如果从上个数据中心转换时刻累积到 t-1 的非迁移费用至少是这个时刻的迁移费用的 β2 倍时，执行迁移。（符合条件后）做迁移决定时只需考虑此刻最优。首先最小化 t 时刻的非迁移费用，并且确保迁移费用不超过非迁移费用的 β1 倍（为了保证迁移费用不会过高）。满足所有条件执行迁移，否则和 t-1 时刻保持一致数据中心，将数据上传至此数据中心。

此算法防止了过度的数据中心转换（数据来回转换），并且避免了过度的懒散，β2 增大时减缓数据中心变换，β1 增大时会造成更频繁的转换。

进行一系列参数设置得到一个含有各种参数的竞争比，通过实际实验，得到参数的值，从而得到竞争比为2.55,。

The Randomized Fixed Horizon Control (RFHC) Algorithm：

近期未来的数据可以通过历史数据进行估计，使用马尔可夫链模型或时间序列预测模型。

根据直到 t-1 时刻的数据，推测出 t 到 t+l 的数据并做出最小化费用的决定。根据起始时间不同，对应的FHC算法也不同，共有 l+1 中可能。每一个时间周期内，如果在开始时产生的数据量非常大（故意造成损失），会造成很高的迁移费用，使用随机算法，使得时间周期的开始时间随机，避免了这种最坏情况的发生。

竞争比的计算，依然假设了一系列参数，通过证明得出的竞争比包含自定义参数，然后通过实验给出竞争比的可能值，比较理想。

实验部分：

实验数据：用大气能见度数据来模拟生成天文数据，因为大气能见度与天文图像的质量好坏紧密相连，大气能见度高时，图像质量很好，因此产生的数据量很大，所以通过大气能见度数据，模拟出含有8个监测点的天文数据。

仿真8个数据中心（伦敦、香港······），8个监测点（在不同时区），8个数据中心网关（对应8个数据中心），6个用户端网关（用途是什么没搞懂）。

实验过程中，延迟时间的计算、带宽费用的计算、存储计算费用的计算过程、迁移费用的计算方法，基于实际生活中的云定价。

实验过程中实现了离线最优算法。实验测试了存储和计算费用、动态虚拟机费用（数据处理费用）、不同预测窗口下存储计算费用和虚拟机费用、路由延迟、有错误的预测（之前的预测结果在预测时间窗口内都是假设完全正确），总体情况是预测越准确，RFHC算法越接近于离线最优算法，但是也有例外，当预测出现一些错误(10%)时，RFHC(1)算法表现更好，这是因为RFHC(1)预测窗口为1，预测时间过短，看不到长远，有一些局限，正好一些错误指正了部分偏移。

阅读全文

2 0