大数据Spark企业级实战版【学习笔记】----Spark R& MLBase
来源:互联网 发布:saas平台多租户 mysql 编辑:程序博客网 时间:2024/05/20 00:37
6. Spark R
SparkR应该被看着R版Spark的轻量级前端,这意味着它不会拥有想Scala或Java那样广泛的API,但它还是能够在R里运行Spark任务和操作数据。Spark通过RDD类提供Spark API,并且允许用户使用R交互式方式在集群中运行任务。它的其中一项关键特性就是有能力序列化闭包,从而能依次透明地将变量副本传入需要参与运算的Spark集群。Spark R还通过内置功能的形成集成了其他R模块,这一功能会在需要某些模块参与运算时通知Spark集群加载特定的模块,但是不同于闭包,这个需要手动设置。Spark R计划集成MLlib机器学习类库,这将有益于MLlib的发展。
7. MLBase
MLBase提供了一个简单的声明式方法来指定机器学习任务,并能动态地选择最优的学习算法。
MLBase包含了高级别抽象和优化器以及MLlib算法库,MLlib是增长最快的机器学习类库之一,它拥有超过137个的贡献者。说明如下:
² ML Optimizer----优化器会选择最适合的、已经实现好的机器学习算法和相关参数;
² MLI-----一个进行特征抽取和高级ML编程抽象的算法实现的API平台;
² MLlib-----基于Spark的底层分布式机器学习库,可以不断地扩充算法;
² MLRuntime--基于Spark计算机框架,将Spark的分布式计算应用到机器学习领域。
MLBase的架构如图1-16所示:
Spark直接可用的机器学习子框架MLlib是MLbase的一部分,MLbase的架构如图1-17所示:
阅读全文
0 0
- 大数据Spark企业级实战版【学习笔记】----Spark R& MLBase
- 大数据Spark企业级实战版【学习笔记】---Spark简介
- 大数据Spark企业级实战版【学习笔记】----Spark术语
- 大数据Spark企业级实战版【学习笔记】----Spark Streaming
- 大数据Spark企业级实战版【学习笔记】----Spark Streaming
- 大数据Spark企业级实战版【学习笔记】----Spark技术生态系统之Spark Core
- 大数据Spark企业级实战版【学习笔记】----Spark Shark& Spark SQL
- 大数据Spark企业级实战版【学习笔记】----Spark速度为何如此快
- 大数据Spark企业级实战版【学习笔记】-----Spark Streaming 的构架
- 大数据Spark企业级实战版【学习笔记】-----Spark Streaming的编程模式
- 大数据Spark企业级实战版【学习笔记】-----Spark Streaming案例分析
- 大数据Spark企业级实战版【学习笔记】-----交互式SQL处理框架Spark SQL
- 大数据Spark企业级实战版【学习笔记】----Tachyon& BlinkDB&Akka
- 大数据Spark企业级实战版【学习笔记】----RDD:分布式函数式编程
- 大数据Spark企业级实战版【学习笔记】---- GraphX:图像计算框架
- 大数据Spark企业级实战 PDF 下载 和目录
- 大数据Spark企业级实战pdf 和 对应开发软件和测试数据文件下载地址
- [hadoop+spark+python]大数据实战随手笔记
- 【Zookeeper】3.Zookeeper环境搭建1
- 云原生:云计算时代命题之终极解决方案
- nodejs路由--get和post请求
- Java集合及concurrent并发包总结
- [Leetcode] 32. Longest Valid Parentheses
- 大数据Spark企业级实战版【学习笔记】----Spark R& MLBase
- OpenMV嵌入式图像处理 笔记
- 模版 取得一个数组中最大元素的下标
- SSM框架Mybatis之Mapper代理开发
- cocos2d-x CCScrollView 源码分析
- MySQL_整型、字符、浮点、时间类型
- Android学习参考推荐权威门户网站
- 数组随机取值,随机红包,冒泡排序
- Linux功耗管理(21)_Linux cpuidle framework(4)_menu governor