MapReduce\Hadoop\HDFS上\Hive学习笔记
来源:互联网 发布:mac bootcamp磁盘权限 编辑:程序博客网 时间:2024/06/07 13:17
MapReduce是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据;
Hive则是SQL On Hadoop,Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapReduce,提交运行。
如何把数据源的数据采集到Hadoop上
Hadoop与关系型数据库数据交换的工具:Sqoop\Flume\DataX
1、HDFS API,实际环境中一般自己较少编写程序使用API来写数据到HDFS,通常都是使用其他框架封装好的方法。
2、Sqoop是一个主要用于Hadoop/Hive与传统关系型数据库Oracle/MySQL/SQLServer等之间进行数据交换的开源框架。
3、Flume是一个分布式的海量日志采集和传输框架,因为“采集和传输框架”,所以它并不适合关系型数据库的数据采集和传输。
Flume可以实时的从网络协议、消息系统、文件系统采集日志,并传输到HDFS上。
Hadoop上的数据搞到别处去
1、把HDFS上的文件GET到本地。
2、HDFS API
3、DataX
4、Sqoop
SQL On Hadoop的框架
1、SparkSQL、Impala和Presto.
数据的一次采集、多次消费
Flume不能间隔很短就往HDFS上滚动文件,这样会导致小文件特别多。
为了满足数据的一次采集、多次消费的需求,这里要说的便是Kafka
调度监控系统
当平台中有几百上千个任务需要维护和运行时候,仅仅靠crontab远远不够了
调度监控系统是整个数据平台的中枢系统,类似于AppMaster,负责分配和监控任务
常用工具:
1、Apache Oozie
2、其他:Azkaban、light-task-scheduler、Zeus
介绍网站:https://azkaban.github.io/
https://github.com/ltsopensource/light-task-scheduler
https://github.com/alibaba/zeus
数据分为实时和准实时
实时使用最多的工具是:storm
准实时工具:spark streaming
对外提供数据的方式
1、满足实时查询,可能的方案有:HBase、Redis、MongoDB、ElasticSearch等
2、
- MapReduce\Hadoop\HDFS上\Hive学习笔记
- hadoop学习笔记 MapReduce + HDFS
- Hadoop-hdfs和mapreduce学习笔记二
- Hadoop,hbase,hive,zookeeper,mapreduce,hdfs
- Hadoop学习:HDFS和MapReduce
- hadoop-hdfs学习笔记
- HDFS与MapReduce学习笔记
- Hadoop学习笔记---MapReduce
- Hadoop学习笔记---MapReduce
- Hadoop学习笔记---MapReduce
- Hadoop MapReduce学习笔记
- hadoop,hdfs,mapreduce,hive,derby配置总结(待续)
- hive实现txt数据导入,理解hadoop中hdfs、mapreduce
- Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
- Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
- Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
- Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
- Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
- 无限轮播
- 14-正则表达式/Pattern和Matcher/Math类/Random类/System类/SimpleDateFormat类/Calendar类
- iOS 11下适配问题
- 操作数栈
- Redis 未授权访问漏洞
- MapReduce\Hadoop\HDFS上\Hive学习笔记
- linux--语句
- 【图像处理】MATLAB:彩色图像介绍
- RecyclerView 实现listview和gridview布局(各自的子布局不同,网络数据)
- path-sum
- 叉指换能器—此博文包含图片—声表面波的激励结构
- C中4大跳转语句的区别
- stringstream和char在一起时需要注意
- HDU