Falcon(一)——数据集管理和数据处理平台
来源:互联网 发布:国际阿里云注册 编辑:程序博客网 时间:2024/06/07 09:17
目的:
使终端用户在面向Hadoop集群进行数据集处理和数据集管理更加容易。
原因
- 在Hadoop环境中,在各种数据集和处理关系之间建立关系
- 在集群中进行数据集管理例如数据集声明周期、数据集复制等
- 抓取数据集或者处理过程的血统信息。
- 允许本地数据和其他任何地方的集群进行数据整合。
- 与metastore和catalog进行整合,例如:Hive和Hcatalog
Easy to onboard new workflows/pipelines, with support for late data handling, retry policies
Falcon是一个面向Hadoop的、数据处理和管理平台。它被设计用于数据移动、数据管道协调、生命周期管理和数据备份等场景。Falcon本质上是通过数据处理引擎将数据集和处理过程的配置信息转化为重复的业务处理流程。
在Apache Falcon中,集群接口连接、数据集 、处理规则均是声明式的。这种声明式配置显式定义了实体之间的依赖关系,这也是该平台的一个特点,它本身只维护依赖关系,而并不做任何繁重的工作。所有的功能和工作流状态管理需求都委托给工作流调度程序来完成。
Apache Falcon解决了大数据领域中一个非常重要和关键的问题。升级为顶级项目是该项目的一个重大进展。Apache Falcon具有完善的功能实现,可以使应用程序开发和管理人员在管理数据时实现自动化。
0 0
- Falcon(一)——数据集管理和数据处理平台
- Falcon(三)——Falcon数据导入和导出
- TensorFlow——训练自己的数据(一)数据处理
- Falcon(二)——架构详解
- 构建iOS持续集成平台(一)——自动化构建和依赖管理
- 构建iOS持续集成平台(一)——自动化构建和依赖管理
- 构建iOS持续集成平台(一)——自动化构建和依赖管理
- PyTorch(一)——数据处理
- Delphi7 电信行业中的数据处理 (一)txt文本和Access之间数据的转换
- 分享两款表单大师——专业的表单设计和数据收集管理平台
- open-falcon transfer 模块监控数据处理
- python3机器学习——sklearn0.19.1版本——数据处理(一)(数据标准化、tfidf、独热编码)
- 数据处理1:一个中型数据的数据处理平台构建
- 大数据管理平台-数据处理与数据集市
- Falcon logo Web服务器文件安全监控平台 Falcon
- 海量数据处理专题(一)——开篇
- 海量数据处理专题(一)——开篇
- 海量数据处理专题(一)——开篇
- Java,JDBC连接数据库
- 算法竞赛入门经典 第二版 习题5-3 卡片游戏 Throwing cards away I uva10935
- 使用阿里的maven仓库
- 算法的时间复杂度
- Android存储
- Falcon(一)——数据集管理和数据处理平台
- codeforces 777C Alyona and Spreadsheet(预处理+思维)
- 92. Reverse Linked List II
- 为什么Java中1000==1000为false而100==100为true?
- IE\firfox\chrome的差异和兼容问题
- 像VS一样简单的打包“控制台”程序
- could not resolve host: github.com 问题解决办法
- springmvc入门
- 每天一题LeetCode[第十五天]