hadoop1笔记

来源：互联网发布：橄榄油哪个牌子好知乎编辑：程序博客网时间：2024/06/17 03:18

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

Hadoop-0.20.2下载：
http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/

1. 配置/etc/hosts文件，例如：127.0.0.1 localhost 主机名
2. 配置hadoop-env.sh，配置jdk
3. 配置hadoop的conf目录的core-site.xml、hdfs-site.xml和mapred-site.xml
4. 配置ssh免密码连入，ssh-keygen -t rsa
5. 格式化namenode，bin/hadoop namenode - format
6. 启动hahoop，bin/start-all.sh

usr/hadoop-0.20.2/data

虚拟机内存一般分配1G、硬盘分配20G

esxi

Cygwin windows模拟nuix或者lunix环境

lucene nutch是lucene的微缩版

Hadoop的高度如下(2012-8-25)：
1. 实现云计算的事实标准开源软件
2. 包含数十个具有强大的生命力子项目
3. 已经能在数千节点上运行，处理数据量和排序时间不断打破世界记录

HBase(nosql数据库非关系型) Pig Hive(理解为关系型数据库) Chukwa
MapReduce HDFS ZooKeeper
Core Avro

HDFS重要进程：
Namenode(名称节点)是hadoop的核心之一
Secondary Namenode(辅助名称节点)
DataNode(数据节点)
JobTracker(工作跟踪器)
TaskTracker(任务跟踪器)

hadoop三大核心
MapReduce、HDFS、Bigtable

书：实战hadoop

HDFS的可靠性
1. 冗余副本策略
2. 机架策略
3. 心跳机制
4. 安全模式
5. 校验和
6. 回收站
7. 元数据保护
8. 快照机制

jdk目录的bin/jps 查看运行的进程
hadoop目录的bin/start-all 启动hadoop

hadoop子项目：
Pig(hadoop客户端)
Hbase(列式数据库,NoSQL代表产品之一，与hadoop同级是顶级项目)
Hive(数据仓库工具，类似SQL)
Zookeeper(通讯协调)
sqoop(使用jdbc连入关系型数据库)
Avro(数据序列化工具)
Chukwa(有点像ETL)
Cassandra(NoSQL数据库之一，与Hbase类似)，没有Hbase那么火

0 0