云计算(四)- Hadoop2.2.0命令大全
来源:互联网 发布:c语言二分法求方程例题 编辑:程序博客网 时间:2024/04/25 08:36
概述
所有hadoop的命令都是在bin/hadoop下,不需要参数进行调用,一些默认的参数和用法如下:
用法: hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]
通用参数
以下的参数被dfsadmin, fs, fsck, job和fetchdt支持。如需要重新编写工具请保证以下参数实现:
常用用户命令
archive
建立用户档案的命令。archive是一种特殊的文件格式,以.har作为后缀,用于将小文件合并使用,因为Hadoop的设计是处理大数据,理想的数据文件应该是BLOCKSIZE的倍数。为了避免小文件占用过多的系统内容,Hadoop提供了Archive来管理小文件。HAR对我们来说,就是把众多文件整合到一起,文件个数减小了,但是文件总体大小并没有减少(无压缩)。归档文件与原文件分别使用了不同的Block,并没有共用Block。当归档文件较多时,性能并不明显(典型的HDFS拷贝)。具体参考下面的连接:Har归档:
Hadoop archive -archiveName test.har -p /A/B/C/D/ E1/F1 E2/F2 /A/G/
命令分析:
目标文件名:-archiveName test.har
源文件的父目录: -p /A/B/C/D/
源文件(夹可以有多个),如这里的E1/F1和E2/F2
所以源文件其实是: 父目录路径 + 相对子路径
最后一个参数就是目录文件夹了 dest path: 所以最终结果的路径是 dest path + achiveName
distcp
用于并行拷贝很多文件。distcp一般用于在两个HDFS集群中传输数据。如果集群在hadoop的同一版本上运行,就适合使用hdfs方案。将从第一个集群中复制/foo目录(和它的内容)到第二个集群中的/bar目录下,所以第二个集群会有/bar/foo目录结构。如果/bar不存在,则会新建一个。可以指定多个源路径,并且所有的都会被复制到目标路径。源路径必须是绝对路径。
默认情况下,distcp会跳过目标路径已经有的文件,但可以通过提供的-overwrite选项进行覆盖,也可以用-update选项来选择只更新那些修改过的文件。
如果想在两个运行着不同版本HDFS的集群上利用distcp,使用hdfs协议是会失败的,因为RPC系统是不兼容的。想要弥补这种情况,可以使用基于HTTP的HFTP文件系统从源中进行读取。这个作业必须运行在目标集群上,使得HDFS RPC版本是兼容的。使用HFTP重复前面的例子:% hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar
注意,需要在URI源中指定名称节点的Web端口。这是由dfs.http.address的属性决定的,默认值为50070。
fs
fsck
hadoop fsck /
用这个命令可以检查整个文件系统的健康状况,但是要注意它不会主动恢复备份缺失的block,这个是由NameNode单独的线程异步处理的。
hadoop fsck /user/distribute-hadoop-boss/tmp/pgv/20090813/1000000103/input/JIFEN.QQ.COM.2009-08-13-18.30 -files -blocks -locations -racks
打印出了这个文件每个block的详细信息包括datanode的机架信息。
fetchdt
jar
运行一个jar文件job
pipes
运行一个pipes job用法:hadoop pipes [-conf <path>] [-jobconf <key=value>, <key=value>, ...] [-input <path>] [-output <path>] [-jar <jar file>] [-inputformat <class>] [-map <class>] [-partitioner <class>] [-reduce <class>] [-writer <class>] [-program <executable>] [-reduces <num>]
queue
version
CLASSNAME
classpath
管理命令
balancer
由于hadoop集群的机器磁盘容量大小不等,造成磁盘使用率不同,有的使用了10%,而有的已经100%,这个对整个系统的运行是有问题的。该命令是将集群各个机器的磁盘容量进行平衡,具体可以参考:daemonlog
得到或者设置daemon的log级别datanode
运行一个HDFS的datanode。dfsadmin
Dfsamin
是一个用来获取
HDFS
文件系统实时状态信息的多任务工作,
具有对于
HDFS
文
件系统管理操作的功能。在拥有超级用户权限的前提下,管理员可以在终端中通过
Hadoop
dfsadmin
对于其进行功能方法的调用。
Dfsamin
是一个用来获取
HDFS
文件系统实时状态信息的多任务工作,
具有对于
HDFS
文
件系统管理操作的功能。在拥有超级用户权限的前提下,管理员可以在终端中通过
Hadoop
dfsadmin
对于其进行功能方法的调用。
Dfsamin是一个用来获取HDFS文件系统实时状态信息的多任务工作,具有对于HDFS文件系统管理操作的功能。在拥有超级用户权限的前提下,管理员可以在终端中通过Hadoop dfsadmin对于其进行功能方法的调用。1) 不接受对于空间名字的更改
2) 无法对数据块进行删除以及复制操作
NameNode会在Hadoop系统启动之后自动开启安全模式,一旦当配置块满足最小百分比的副本数条件时,Hadoop系统会自动关闭安全模式。同时根据用户的需要也可以手动关闭安全模式或者选择手动开启安全模式。-refreshNodes重新读取hosts和exclude,以实现在添加新的节点后可以使系统直接进行识别。-finalizeUpgrade用于终结HDFS文件系统的升级操作。DataNode会删除上一个版本的工作目录。在DataNode完成操作之后,NameNode也会执行这个操作。-upgradeProgress status / details / force分别实现获取当前系统升级的状态,升级状态过程中的细节,强制进行系统的升级。-metasave filename
将hadoop系统中的管理节点的数据结构中的主要部分保存到hadoop.log.dir文件中提前预设好的属性中指定的的对应文件名的目录上。
在此文件中的主要内容如下:
1) 管理节点接收到的数据节点的正常工作的心跳
2) 被复制的数据块的等待状态
3) 被复制的数据块的执行状态
4) 确定要被删除的数据块的等待状态
-setQuota quotadirname...dirname主要用作为每个指定路径下的文件目录设
定指定的配额。目的是为了强制设定文件目录的名字的字节数。如果出现以下情况将会对Hadoop系统报出错误信息:
1) 文件目录的名字不是一个正整数
2) 当前的操作用户不具有管理员权限
3) 文件目录不存在或者此路径指向的是一个文件而非目录
当设定好的目录生效时会超出新设定的配额 -clrQuotadirname...dirname为每个已经分配好的指定路径上的文件目录清除已经设定好的配额。当出现以下情况将会对Hadoop系统报出错误信息:
1) 此目录指定的目录不存在或者该目录为一个文件
2) 当前的操作用户不具有管理员权限
另外一种情况为如果此文件目录如果先前没有设定配额,则使用此操作不会向系统报错-restoreFailedStorage true / false / check这个选项将打开/关闭自动试图恢复失败的存储副本。如果再次失败的存储可用系统将尝试从检查站恢复编辑和/或fsimage。“检查”选项将返回当前设置。-help [cmd]显示对于在参数中给定的命令相关的帮主信息,如果在参数中没有给出指定的命令,将会显示出所有命令的帮主信息。mradmin
jobtracker
namenode
secondarynamenode
用法:hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]tasktracker
运行MapReduce的task Tracker节点- 云计算(四)- Hadoop2.2.0命令大全
- hadoop2.2.0 边角料(四)
- mysql命令大全(四)
- 云计算(三)- Hadoop2.2.0编译安装
- 云计算(十八)- Hadoop2.2.0的Eclipse插件
- 云计算(六)-HDFS 用户手册(Hadoop2.2)
- 云计算(一)- Hadoop2.2 单点安装
- 云计算(二)- Hadoop2.2 集群安装
- hadoop2.2.0集群搭建(四)终结篇
- DOS命令大全系列四
- 云计算生态系统(四)
- Linux命令大全(四)--Linux用户管理
- 云计算大赛&hadoop2.4.1安装
- 云计算概念大全
- 云计算--专业术语大全
- 云计算术语大全
- hadoop2命令行管理相关命令(笔记)
- 云计算(十七)- Windows下编译Hadoop2.2源码并引入eclipse
- C# 装箱和拆箱[整理]
- Uva 11019 Matrix Matcher
- CentOS/使用rsync同步
- Leetcode Sum Root to Leaf Numbers
- 最佳开源应用程序:开发工具
- 云计算(四)- Hadoop2.2.0命令大全
- Spring Security学习总结二
- trianglecocoa / InterestingTweak
- 对Java web学习的一些知识的汇集
- 库函数调用和系统调用的区别
- 设置sudo用户
- Core Animation 基础
- 关于zabbix设置的进一步说明
- EJB 3.0 入门介绍