初学HADOOP(MAPREDUCE-WORLD COUNT/HIVE/SQOOP)

来源:互联网 发布:互联网金融平台源码 编辑:程序博客网 时间:2024/06/13 19:28
MAPREDUCE-WORLD COUNT
mapreduce-并行处理大数据集的框架 处理机制:JOBTRACKER-TASKTRACKER-JOB-MAP-REDUCE-OUTPUT主要思想:分而制之 

这里写图片描述

#查看JAR信息hadoop jar hadoop-mapreduce-examples-2.7.1.jar#在HDFS新建目录 此目录虚拟?hadoop fs -mkdir /input#将服务器的文件拷贝到HDFS目录下hadoop fs -put input/test.txt /input#执行WORLDCOUNT  /output表示使用 HDFS 根目录下的 output 目录存储程序的输出,文件会自动生成hadoop jar hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output#查看生成内容hadoop fs -cat /output/*

这里写图片描述

HIVE SQOOP MYSQL 数据同步
HIVE---数据仓库 实时性能差 主要提供对hadoop数据进行SQL查询的接口 
SQOOP---用来将Hadoop和关系型数据库中的数据相互转移的开源工具,可以将一个关系型数据库(例如  MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
配置HIVEhttp://blog.csdn.net/sl1992/article/details/53589349
HIVE常用语法http://blog.csdn.net/wisgood/article/details/17186599
配置SQOOPhttp://blog.csdn.net/scgh_fx/article/details/73522372
利用SQOOP导入mysql数据
sqoop list-databases -connect jdbc:mysql://localhost:3306 -username root -password root
sqoop import -m 1 --connect jdbc:mysql://locahost:3306/hive --username root --password root --table table_name --hive-import --hive-database database_name --hive-overwrite --create-hive-table --hive-table hive-table_name --delete-target-dir
阅读全文
0 0
原创粉丝点击