林子雨—大数据技术原理与应用—上机实验二

来源:互联网 发布:淘宝网店学校 编辑:程序博客网 时间:2024/05/17 08:19
题目:熟悉常用的HDFS操作 实验环境:
       操作系统:ubuntu16.04
       hadoop版本:1.2.1
       JDK版本:1.8
       Eclipse 3.8 实验内容:
1.利用Hadoop提供的Shell命令完成下列任务。
       (1) 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件;
put命令示范test命令示范
       (2)从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名;
copyToLocal命令示范
       (3)将HDFS中指定文件的内容输出到终端中;
cat命令示范
       (4)显示HDFS中指定的文件的读写权限、大小、创建时间、路径等信息;
ls命令示范
       (5) 给定HDFS中某一个目录,输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息,如果该文件是目录,则递归输出该目录下所有文件相关信息;
ls命令示范
       (6)提供一个HDFS内的文件的路径,对该文件进行创建和删除操作。如果文件所在目录不存在,则自动创建目录;
touchz、mkdir和rm命令示范
       (7) 提供一个HDFS的目录的路径,对该目录进行创建和删除操作。创建目录时,如果目录文件所在目录不存在则自动创建相应目录;删除目录时,由用户指定当该目录不为空时是否还删除该目录;
rmr命令示范
       (8) 删除HDFS中指定的文件;
rm命令示范
       (9)在HDFS中,将文件从源路径移动到目的路径。
mv命令示范

2.编程实现一个类“MyFSDataInputStream”,该类继承“org.apache.hadoop.fs.FSDataInputStream”,要求如下:实现按行读取HDFS中指定文件的方法“readLine()”,如果读到文件末尾,则返回空,否则返回文件一行的文本。
主要方法,实现代码

3.查看Java帮助手册或其它资料,用“java.net.URL”和“org.apache.hadoop.fs.FsURLStreamHandlerFactory”编程完成输出HDFS中指定文件的文本到终端中。
主要方法,实现代码
效果图:
效果图
出现的问题:
       1.hadoop fs -appendToFile文件尾添加命令失效,显示没有此命令。
问题一
       2.hadoop fs -copyFromLocal 命令无法覆盖旧文件。
问题二
       3.每次开启hadoop之时,都需要先格式化名称节点,这会导致hdfs中存储的文件丢失,那么每次都需要上传文件进行测试,十分不方便。
解决方案(列出遇到的问题和解决办法,列出没有解决的问题):
       1.hadoop fs -appendToFile文件尾添加命令失效,显示没有此命令。
       解决方法:这是由于hadoop版本太低,如果要想使用appendToFile这一命令,需要把hadoop版本升级,如下图一是hadoop-1.2.1的全部shell命令,而图二是hadoop-2.6.0拥有的shell命令。
hadoop-1.2.1版本的Shellhadoop-2.6.0版本的Shell
       2.每次开启hadoop之时,都需要先格式化名称节点,这会导致hdfs中存储的文件丢失,那么每次都需要上传文件进行测试,十分不方便。
       解决方法:之所以会每次都要格式化名称节点,是因为每次重启ubuntu系统时,存储在/tmp下的配置文件都会丢失,这样启动hadoop就会出错。因此,我将配置文件的存储位置放在/usr/local/hadoop/hadoop_tmp/下,这样每次就不需要格式化namenode了,并且上次的文件也在hdfs中没有被删除。

没有解决的问题:
       1.hadoop fs -copyFromLocal 命令无法覆盖旧文件。
3 0
原创粉丝点击