hadoop1笔记

来源:互联网 发布:橄榄油哪个牌子好 知乎 编辑:程序博客网 时间:2024/06/17 03:18
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

Hadoop-0.20.2下载:
http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/

1. 配置/etc/hosts文件,例如:127.0.0.1 localhost 主机名
2. 配置hadoop-env.sh,配置jdk
3. 配置hadoop的conf目录的core-site.xml、hdfs-site.xml和mapred-site.xml 
4. 配置ssh免密码连入,ssh-keygen -t rsa
5. 格式化namenode,bin/hadoop namenode - format
6. 启动hahoop,bin/start-all.sh

usr/hadoop-0.20.2/data

虚拟机内存一般分配1G、硬盘分配20G

esxi

Cygwin windows模拟nuix或者lunix环境

lucene  nutch是lucene的微缩版

Hadoop的高度如下(2012-8-25):
1. 实现云计算的事实标准开源软件
2. 包含数十个具有强大的生命力子项目
3. 已经能在数千节点上运行,处理数据量和排序时间不断打破世界记录


HBase(nosql数据库非关系型)  Pig  Hive(理解为关系型数据库)  Chukwa
MapReduce   HDFS  ZooKeeper
Core    Avro

HDFS重要进程:
Namenode(名称节点)是hadoop的核心之一
Secondary Namenode(辅助名称节点) 
DataNode(数据节点)
JobTracker(工作跟踪器)
TaskTracker(任务跟踪器)

hadoop三大核心
MapReduce、HDFS、Bigtable

书:实战hadoop


HDFS的可靠性
1. 冗余副本策略
2. 机架策略
3. 心跳机制
4. 安全模式
5. 校验和
6. 回收站
7. 元数据保护
8. 快照机制

jdk目录的bin/jps 查看运行的进程
hadoop目录的bin/start-all  启动hadoop

hadoop子项目:
Pig(hadoop客户端)
Hbase(列式数据库,NoSQL代表产品之一,与hadoop同级是顶级项目)
Hive(数据仓库工具,类似SQL)
Zookeeper(通讯协调)
sqoop(使用jdbc连入关系型数据库)
Avro(数据序列化工具)
Chukwa(有点像ETL)
Cassandra(NoSQL数据库之一,与Hbase类似),没有Hbase那么火
0 0
原创粉丝点击