大数据Spark企业级实战版【学习笔记】----Spark R& MLBase

来源：互联网发布：saas平台多租户 mysql 编辑：程序博客网时间：2024/05/20 00:37

6. Spark R

SparkR应该被看着R版Spark的轻量级前端，这意味着它不会拥有想Scala或Java那样广泛的API，但它还是能够在R里运行Spark任务和操作数据。Spark通过RDD类提供Spark API，并且允许用户使用R交互式方式在集群中运行任务。它的其中一项关键特性就是有能力序列化闭包，从而能依次透明地将变量副本传入需要参与运算的Spark集群。Spark R还通过内置功能的形成集成了其他R模块，这一功能会在需要某些模块参与运算时通知Spark集群加载特定的模块，但是不同于闭包，这个需要手动设置。Spark R计划集成MLlib机器学习类库，这将有益于MLlib的发展。

7. MLBase

MLBase提供了一个简单的声明式方法来指定机器学习任务，并能动态地选择最优的学习算法。

MLBase包含了高级别抽象和优化器以及MLlib算法库，MLlib是增长最快的机器学习类库之一，它拥有超过137个的贡献者。说明如下：

² ML Optimizer----优化器会选择最适合的、已经实现好的机器学习算法和相关参数；

² MLI-----一个进行特征抽取和高级ML编程抽象的算法实现的API平台；

² MLlib-----基于Spark的底层分布式机器学习库，可以不断地扩充算法；

² MLRuntime--基于Spark计算机框架，将Spark的分布式计算应用到机器学习领域。

MLBase的架构如图1-16所示：

Spark直接可用的机器学习子框架MLlib是MLbase的一部分，MLbase的架构如图1-17所示：

阅读全文

0 0