初学HADOOP(MAPREDUCE-WORLD COUNT/HIVE/SQOOP)

来源：互联网发布：互联网金融平台源码编辑：程序博客网时间：2024/06/13 19:28

MAPREDUCE-WORLD COUNT

mapreduce-并行处理大数据集的框架 处理机制：JOBTRACKER-TASKTRACKER-JOB-MAP-REDUCE-OUTPUT主要思想：分而制之

这里写图片描述

#查看JAR信息hadoop jar hadoop-mapreduce-examples-2.7.1.jar#在HDFS新建目录 此目录虚拟?hadoop fs -mkdir /input#将服务器的文件拷贝到HDFS目录下hadoop fs -put input/test.txt /input#执行WORLDCOUNT  /output表示使用 HDFS 根目录下的 output 目录存储程序的输出,文件会自动生成hadoop jar hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output#查看生成内容hadoop fs -cat /output/*

这里写图片描述

HIVE SQOOP MYSQL 数据同步

HIVE---数据仓库 实时性能差 主要提供对hadoop数据进行SQL查询的接口

SQOOP---用来将Hadoop和关系型数据库中的数据相互转移的开源工具，可以将一个关系型数据库（例如 ： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

配置HIVEhttp://blog.csdn.net/sl1992/article/details/53589349

HIVE常用语法http://blog.csdn.net/wisgood/article/details/17186599

配置SQOOPhttp://blog.csdn.net/scgh_fx/article/details/73522372

利用SQOOP导入mysql数据

sqoop list-databases -connect jdbc:mysql://localhost:3306 -username root -password root

sqoop import -m 1 --connect jdbc:mysql://locahost:3306/hive --username root --password root --table table_name --hive-import --hive-database database_name --hive-overwrite --create-hive-table --hive-table hive-table_name --delete-target-dir

阅读全文

0 0