Hadoop大数据处理流程

来源：互联网发布：中世纪的生活知乎编辑：程序博客网时间：2024/05/22 12:35

1、数据处理过程

对于典型的安装而言，Hadoop是整个数据流的中心。他的数据通常来源于很多分散的系统。这些数据被导入HDFS中，紧接着这些数据通过MapReduce进行处理或者通过一些建立于MapReduce之上的一些工具（例如Hive，Pig，Cascading等）进行处理。最后，经过过滤，转换，聚合的结果将被导出到外部系统。

列举一个更具体的例子，一个大的网站想对点击率进行数据分析。来源于几个服务器的日志被收集并且存入HDFS。一个MapReduce工作启动，前面被存入HDFS的网络日志数据作为输入，这些网络日志数据根据IP地址或者地理位置进行解析、归纳与组合。输出显示每个cookie的URL，页面和位置数据。这些信息将被导出到关系型数据库。一些专门的查询可以基于这些数据实施。分析师可以很快的产生所有的cookie，访问最多的页面，按照区域划分访问者，还有其他基于这些数据的归纳。

2、数据导入导出操作

在后续的章节中将给出以下常用的导入导出操作：

（1）通过Hadoop Shell命令进行导入导出操作

（2）在集群之间进行分布式拷贝，增加数据移动的效率

（3）使用Sqoop从MySQL中导入数据

（4）使用Sqoop将HDFS中数据导入MYSQL中

（5）为Microsoft SQL Server配置Sqoop

（6）将HDFS数据导出到MongoDB中

（7）将MongoDB中的数据导入到HDFS中

（8）使用Pig将HDFS中的数据导出到MongoDB中

（9）使用Flume将数据导入HDFS

3、资料

参考书籍：Hadoop Real-World Solutions Cookbook

随书代码及数据：Hadoop Real-World Solutions Cookbook（Data And source code）

0 0