大数据Spark企业级实战版【学习笔记】----Spark R& MLBase

来源:互联网 发布:saas平台多租户 mysql 编辑:程序博客网 时间:2024/05/20 00:37

6. Spark R

       SparkR应该被看着R版Spark的轻量级前端,这意味着它不会拥有想Scala或Java那样广泛的API,但它还是能够在R里运行Spark任务和操作数据。Spark通过RDD类提供Spark API,并且允许用户使用R交互式方式在集群中运行任务。它的其中一项关键特性就是有能力序列化闭包,从而能依次透明地将变量副本传入需要参与运算的Spark集群。Spark R还通过内置功能的形成集成了其他R模块,这一功能会在需要某些模块参与运算时通知Spark集群加载特定的模块,但是不同于闭包,这个需要手动设置。Spark R计划集成MLlib机器学习类库,这将有益于MLlib的发展。

7. MLBase

MLBase提供了一个简单的声明式方法来指定机器学习任务,并能动态地选择最优的学习算法。

MLBase包含了高级别抽象和优化器以及MLlib算法库,MLlib是增长最快的机器学习类库之一,它拥有超过137个的贡献者。说明如下:

²  ML Optimizer----优化器会选择最适合的、已经实现好的机器学习算法和相关参数;

²  MLI-----一个进行特征抽取和高级ML编程抽象的算法实现的API平台;

²  MLlib-----基于Spark的底层分布式机器学习库,可以不断地扩充算法;

²  MLRuntime--基于Spark计算机框架,将Spark的分布式计算应用到机器学习领域。

MLBase的架构如图1-16所示:


Spark直接可用的机器学习子框架MLlib是MLbase的一部分,MLbase的架构如图1-17所示:


阅读全文
0 0
原创粉丝点击