Cascading——针对Hadoop MapReduce的数据处理API
来源:互联网 发布:网络课程的优点 编辑:程序博客网 时间:2024/05/29 13:33
http://www.hadooper.cn/dct/page/65670
Cascading——针对Hadoop MapReduce的数据处理API
Cascading API的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收 器(data-sink)的管道的联合。 Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的 算法。
该处理API使开发者可以快速装配复杂的分布式流程,而无需“考 虑”MapReduce。 同时还可以基于流程之间的依赖及其它元数据信息来有效地进行调度。 Cascading API的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收 器(data-sink)的管道的联合。换句话说,流就是有数据通过的管道。再进一步,cascade就是多个流的链接、分支和分组。 该API提供了很多关键特性:
基于依赖的“拓扑调度 (Toplogical Scheduler)”及MapReduce规 划——这是cascading API的两个关键组件,它们可以基于依赖对流的调用进行调度;因为其执行顺序独立于构造顺序,这样就可以对部分流和cascades进行并发调用。此外, 各种流的步骤被智能地转换成对应于hadoop cluster的map-reduce调用。 事件通知——流的各种步骤可以通过回调进行通知,以此告诉主机应用去报告和响应数据处理的过程。 脚本化——Cascading API有针对Jython、Groovy和JRuby的脚本化接口——这使其适合于常见的动态JVM语言
- Cascading——针对Hadoop MapReduce的数据处理API
- Cascading——针对Hadoop MapReduce的数据处理API
- Cascading:一个简单的Hadoop MapReduce应用
- Cascading:一个简单的Hadoop MapReduce应用
- Mapr 安装hadoop的组件(一)——安装cascading
- 【Hadoop】数据处理----MapReduce
- 【Hadoop】新旧Java MapReduce API的差异
- Hadoop——MapReduce
- Hadoop—MapReduce
- Mapr与Cascading工作(一)——升级Cascading
- 针对Hadoop YARN 的REST API web服务介绍
- Hadoop MapReduce数据处理过程以及更多示例
- Hadoop Cascading简介
- Hadoop 101: Programming MapReduce with Native Libraries, Hive, Pig, and Cascading
- Hadoop MapReduce新旧API区别
- Hadoop 新旧MapReduce API比较
- 黑马程序员--基于Hadoop新版API的MapReduce程序
- Hadoop之MapReduce—Wordcount
- TreeView控件绑定到数据源
- 项目经理的职责
- 八一
- android4.0 recovery流程详解
- 4.Linux C多线程的执行顺序问题
- Cascading——针对Hadoop MapReduce的数据处理API
- Notification的使用
- Entity Framework 教程
- hdu 1753 大明A+B 大数加减
- a与b
- java读取过大的excel表的时候报内存溢出的错误的解决办法
- HDU 4642 Fliping game 解题报告
- 【模板】最长递增子序列
- 使用WCF 4.0 构建 和部署 REST Service