阿里 离线数据同步工具 DataX 初试
来源:互联网 发布:软件注册赚钱靠谱吗 编辑:程序博客网 时间:2024/06/07 10:31
DataX : 一个异构数据源离线同步框架,通过插件体系完成数据同步过程。reader插件用于读入,writer插件用于写出,中间的framework可以定义transform插件完成数据转化的需要。
Sqoop 只支持关系型数据库与HDFS/Hive 之间的数据同步, DataX 则更为丰富。
目前支持的数据源有:https://github.com/alibaba/DataX/wiki/DataX-all-data-channels
使用:
$ tar zxvf datax.tar.gz$ sudo chmod -R 755 {YOUR_DATAX_HOME}$ cd {YOUR_DATAX_HOME}/bin$ python datax.py ../job/job.json
json配置例子(Mongo > HDFS/Hive):
mongotest.json
{ "job": { "setting": { "speed": { "channel": "2" } }, "content": [{ "reader": { "name": "mongodbreader", "parameter": { "address": [""], "userName": "", "userPassword": "", "dbName": "", "collectionName": "", "column": [{ "name": "cityid", "type": "string" }, { "name": "searchstr", "type": "string" }, { "name": "pv", "type": "string" } ] } }, "writer": { "name": "hdfswriter", "parameter": { "column": [{ "name": "cityid", "type": "string" }, { "name": "searchstr", "type": "int" }, { "name": "pv", "type": "int" } ], "defaultFS": "hdfs://*", "fieldDelimiter": "\t", "fileName": "mongotest", "fileType": "text", "path": "/user/hive/warehouse/temp.db/mongotest", "writeMode": "append" } } } ] }}
同步过程:
- create Hive table temp.mongotest
- python {DATAX_HOME}/bin/datax.py ../mongotest.json
阅读全文
0 0
- 阿里 离线数据同步工具 DataX 初试
- 阿里开源数据同步工具--DataX
- DataX 是一个异构数据源离线同步工具
- Datax 数据抽取同步
- DataX---数据同步json操作
- 数据交换工具DataX使用
- 阿里云开源离线同步工具DataX3.0介绍
- 阿里云开源离线同步工具DataX3.0介绍
- 阿里云开源离线同步工具DataX3.0介绍
- MySQL超时参数以及相关DataX数据同步案例分享
- 异构数据源海量数据交换工具-sqoop & DataX
- 大数据的弄潮儿:阿里产品dataX和ODPS的使用方法
- 数据库迁移工具DataX-Migration
- 阿里开源项目dataX简介
- 异构数据源海量数据交换工具-Taobao DataX 下载和使用
- DataX 在异构的数据库/文件系统之间高速交换数据的工具
- 异构数据源海量数据交换工具-Taobao DataX 下载和使用
- 淘宝的数据解决方案:datax - DataX产品说明
- JavaScript预解析过程
- The Triangle 【nyoj-18】【动态规划】
- RefreshScrollviewLayout下嵌套ViewPager横向滑动冲突解决
- C++ trivial、non-trivial及POD类型
- 性能优化——记高性能MySQL
- 阿里 离线数据同步工具 DataX 初试
- Java开发中的23种设计模式详解
- 2017多校训练6-1008:Kirinriki(HDU6103)
- 为什么用下标遍历容器如此有用
- 1111111111111111111111111111
- Spark---Datasource(JDBC)---Scala
- 【JZOJ 5249】【NOIP2017提高A组模拟8.10】文本编辑器
- 1062. 最简分数(20)
- 每个程序员都应该收藏的算法复杂度速查表