Hadoop Hbase Spark 配置文档详解

来源：互联网发布：在线ppi计算器软件编辑：程序博客网时间：2024/06/03 04:07

hadoop

1.core-site.xml

1.fs.defaultFS hdfs默认端口
2.hadoop.tmp.dir
Hadoop.tmp.dir是hadoop文件系统依赖的基础配置，很多路径都依赖它。它默认的位置是在/tmp/{$user}下面，但是在/tmp路径下的存储是不安全的，因为linux一次重启，文件就可能被删除。
3.fs.trash.interval 回收间隔（区间）
fs.trash.interval定义.Trash目录下文件被永久删除前保留的时间,类似于回收站。默认值是0说明垃圾回收站功能是关闭的(分钟为单位)
fs.trash.checkpoint.interval 垃圾回收检查间隔

2.hdfs-site.xml

1.dfs.namenode.name.dir
表示NameNode存储命名空间和操作日志相关的元数据信息的本地文件系统目,决定了在本地文件系统的DFS名称节点应该存储名字表(fsimage)
2.dfs.namenode.edits.dir 决定了在本地文件系统的DFS名称节点应该存储事务(编辑)文件
2. dfs.datanode.data.dir 表示DataNode节点存储HDFS文件的本地文件系统目录
3.dfs.replication 副本数目
4. dfs.webhdfs.enabled WebHDFS观念是基于HTTP操作,在配置开源日志系统fluentd过程中，fluentd就是利用webHDFS和HDFS进行通信

3.yarn-site.xml

yarn.resourcemanager.address 端口8032 应用程序管理器接口的地址在RM。
yarn.resourcemanager.hostname RM的主机名
Yarn.resourcemanager.webapp.address web应用程序的http地址RM。
yarn.nodemanager.hostname NM的主机名
yarn.nodemanager.address 应用程序管理器接口的地址在NM(的地址)
yarn.nodemanager.webapp.address 端口8042
web应用程序的http地址NM。
yarn.nodemanager.aux-services
一种主要的安全认证协议NM
yarn.resourcemanager.scheduler.class 把类作为资源调度器
yarn.nodemanager.resource.memory-mb
NodeManager总的可用物理内存(一般要配置的)
yarn.nodemanager.vmem-pmem-ratio
每使用1MB物理内存，最多可用的虚拟内存数
yarn.nodemanager.aux-services
NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序

4.mapred-site.xml

mapreduce.framework.name
mapreduce.reduce.shuffle.parallelcopies
reduce启动更多的并行拷贝器以获取大量map的输出(在复制（洗牌）阶段时，并行传输的默认数量)
mapreduce.task.io.sort.mb 提高排序时的内存上限
mapreduce.task.io.sort.factor 文件排序时更多的流将同时被归并

1.问题NAMENODE：一般是临时文件重启被清空了，直接格式化一下，再重新启动节点
2.问题DATANODE：就是Namenode和Datanode的的Uuid不一致，导致不能识别，之后删除 /dfs/name(NameNode)和 /dfs/data(DataNode)的 current文件，这样就可以重新生成uuid
Namenode上namespaceID与datanode上namespaceID不一致
3.多次格式化：dfs.name.dir dfs.data.dir current/VERSION文件只是你第一次格式化时保存的namenode的ID，因此就会造成datanode与namenode之间的id不一致

hbase

hbase.rootdir 这个目录是region server的共享目录,默认情况下HBase是写到/tmp的。不改这个配置，数据会在重启的时候丢失
hbase.master.port HBase的Master的端口.默认: 60000
hbase.cluster.distributed HBase的运行模式。false是单机模式，true是分布式模式,若为false,HBase和Zookeeper会运行在同一个JVM里面
hbase.zookeeper.quorum Zookeeper集群的地址列表，用逗号分割
zookeeper.znode.parent ZooKeeper中的HBase的根ZNode,默认/hbase
HBASE_MANAGES_ZK=true 使用自带的ZK

模式

单击模式：HBase使用本地文件系统，而不是HDFS ，所有的服务和zooKeeper都运作在一个JVM中。zookeep监听一个端口，这样客户端就可以连接HBase了。
完全分布：伪分布式模式是把进程运行在一台机器上，但不是一个JVM.而完全分布式模式就是把整个服务被分布在各个节点上了

zookepeer

是独立的，一般要独立安装，HBASE可以使用自带的

spark

SPARK_MASTER_IP 主绑定到一个特定的IP地址
SPARK_WORKER_CORES 允许SPARK应用使用的内核总数（默认所有可用的核心）
SPARK_WORKER_MEMORY 允许火花使用的内存总数（默认1G）
SPARK_WORKER_INSTANCES 允许火花在每台机器上跑的实例的个数（默认1）

阅读全文

0 0