大数据学习(二)
来源:互联网 发布:广联达计价软件培训 编辑:程序博客网 时间:2024/05/22 02:26
大数据处理及时Hadoop
一、Hadoop简介
Hadoop是apache下的一个开源分布式计算平台,为用户提供了系统底层透明的分布式基础架构。Hadoop是Java语言开发,具有很好的跨平台特性,其核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且提供一个高可靠、高效、可伸缩的方式进行处理,具有的特点是:
高可靠性
高效性
高扩展性
高容错性
低成本
支持多语言
运行在Linux上
二、Hadoop的应用现状
1、大数据在企业中最主要的应用是:数据分析、数据实时查询和数据挖掘。
2、Hadoop的版本
Hadoop版本分为两代,第一代版本分别是0.20.x,0.21.x和0.22.x,其中0.20.x最终演化成1.0.x;第二代包含两个版本,分别是0.23.x和2.x,他们是完全不同于Hadoop1.0的,是一套全新的架构,均包含HDFS Fedreation和YARN两个系统,2.x还增加了NameNode HA 和Write-compatibility两大特性。YARN框架主要管理系统资源的,所以二代的Hadoop中MapReduce只是做数据处理的,资源调度交给了YARN。Hadoop的不同分支:
Apache Hadoop
Hortonworks
Cloudera
MapR
星环
三、Hadoop的项目结构
四、安装Hadoop
包括步骤:
创建Hadoop用户
SSH登录权限设置。因为NameNode需要启动集群中所有机器的Hadoop守护进程,这个过程通过SSH登录来实现。
安装Java环境。
下载Hadoop安装文件
Hadoop默认为非分布式模式,无需进行其他配置就可运行。而位分布式的Hadoop是分离Java进程来实现的。
hadoop fs 适用于任何不同的文件系统
hadoop dfs 只是用于HDFS文件系统
hdfs dfs 只是用于HDFS系统
五、hsdoop集群的部署和使用
hadoop集群中的节点:
NameNode:负责协调集群中的数据存储
DataNode:存储被拆分的数据块
JobTracker:协调数据计算任务
TaskTracker:负责执行由JobTracker指派的任务
SecondaryNameNode:帮助NameNode收集文件系统的运行状态信息。
- 大数据学习(二)
- 深度学习(二)大数据智能
- 深度学习(二)大数据智能
- 大数据学习笔记<二>
- 大数据(二)
- 大数据(二)
- 最全的“大数据”学习资源(二)
- 大数据学习笔记(二)-分级类聚&列类聚
- 大数据学习(二):Hadoop源码分析
- 大数据(二)--Spark
- 大数据运营(二)
- 大数据时代(二)大数据的优势
- 大数据学习(一)
- 大数据学习(三)
- 大数据之Hive(笔记二)
- spark大数据分析(二)
- 大数据导论(二) Hadoop简介
- 大数据架构思考(二)
- create New Virtual Device
- 快速找到最近修改的文件!
- 最近的一些事情
- 优先队列的简单实现-二叉堆实现
- Gdb远程调试Linux内核遇到的Bug
- 大数据学习(二)
- Oracle数据库基本概念理解(1)
- 在 Linux 上配置一个 syslog 服务器
- Servlet实现session读写
- Lotus and Characters
- 我眼中的敏捷
- Oracle数据库基本概念理解(2)
- 2017.1.15【初中部 NOIP提高组】模拟赛B组
- python写的多进程并发测试框架