MapReduce实验:Hive安装以及简单操作
来源:互联网 发布:交大知行大厦附近租房 编辑:程序博客网 时间:2024/04/29 22:50
转载:http://blog.csdn.net/simpleniulq/article/details/24325933
目录(?)[-]
- 接上一篇HBase的安装以及简单操作
- Hive
- 单机环境下Hive安装
- Hiveshell简单操作
- Hiveshell实验-莎士比亚文档词频统计
- HBase与Hive总结
- HBase原理
- Hive原理
- 附录
- References
2.Hive
2.1.单机环境下Hive安装
下载hive,链接http://apache.cs.utah.edu/hive/,最新版本为hive-0.13.0。
解压tar –zxvf apache-hive-0.13.0.tar.gz,安装在hadoop目录下。
配置环境变量,sudo gedit /etc/profile,如下所示:
同样执行source /etc/profile使其生效。
进入$HIVE_HOME/conf目录,原来有四个template文件,执行命令生成正式配置文件:
cp hive-default.xml.template hive-site.xml
cp hive-env.sh.template hive-env.sh
cp hive-exec-log4j.properties.templatehive-exec-log4j.properties
cp hive-log4j.properties.templatehive-log4j.properties
编辑hive-site.xml文件,在最后加入:
说明:根据自己jar的路径。
至此配置完成,后续进行shell操作。
2.2.Hiveshell简单操作
启动hive,进入$HIVE_HOME目录,执行bin/hive,执行jps检测:
多出一个RunJar,暂时不了解是何作用。
在hive中建表:
从文本中导入数据:
文本数据格式为:
执行SQL查询:
2.3.Hiveshell实验-莎士比亚文档词频统计
创建表:Shakespeare(word string,count int):
用showtables查询所有的表:
由于是实验,所以自己定义了一个词频统计文件,wordCount.txt,如下格式:
导入wordCount.txt中的数据:
注意:hive不支持用insert语句一条一条的进行插入操作,也不支持update操作。数据是以load的方式加载到建立好的表中。数据一旦导入就不可以修改。
SQL查询Shakespear中的数据:
执行select* from shakespear;则会直接得到数据,如下:
执行selectshakespear.word from shakespear;,将会采用mapreduce执行查询,如下:
检索表中词频数count大于1000的词,执行select* from shakespear where shakespear.count>1000;,得到如下结果:
检索表中前10个出现次数最多的词,执行select* from shakespear sort by count desc limit 10;,得到如下结果:
3.HBase与Hive总结
3.1.HBase原理
在整个HBase到操作建表的过程中,我们可以体会到HBase是建立在HDFS之上,并且由于所创建的表与google BigTable相似,由行,列族,列名,值组成。因此,可以看到相比HDFS的一般性,HBase可以为上层应用提供结构化半结构化海量数据存储访问能力。
即光有分布式文件系统HDFS还不足够,HBase支持了分布式文件系统之上的非关系型数据库,为用户提供数据的存储访问。
3.2.Hive原理
通过Hive的安装以及查询,我们可以体会到,Hive建立在HDFS、HBase、MapReduce之上,既可以完成数据的存储,也可以完成数据的访问。对于每一个任务,我们可以看到Hive利用MapReduce来完成Job。
可以认为Hive是在分布式文件系统HDFS之上,结合HBase以及MapReduce高度集成的数据仓库,为用户提供了数据存储和访问。
4.附录
最后引入HBase与Hive在整个hadoop生态系统中的结构图:
还有Hive的原理图:
我们可以更加深刻的理解HBase以及Hive。
5.References
部分资料来自黄宜华老师的MapReduce课程ppt以及互联网。在此感谢。
- MapReduce实验:Hive安装以及简单操作
- MapReduce实验:Hive安装以及简单操作
- MapReduce实验:HBase安装以及简单操作
- Hive对应MapReduce操作
- hive的安装以及简单的使用
- MapReduce实现hive join操作
- ubuntu上安装mysql以及简单实验
- hive安装配置实验
- 实验8 MapReduce-Join操作
- Hive的安装配置和连接mysql以及基础操作
- hive安装以及配置
- Hive之简单查询不启用MapReduce
- Hive的简单操作
- Hive简单安装
- Hive的安装以及基本的shell操作以及基本模型的介绍
- hive简介以及安装配置
- hive/hbase的简单操作
- hive 的 简单操作语句
- "高可用方案工具包" high availability toolkit 1.1
- CF - 475 - D. CGCDSSQ(枚举)
- 泛型范例
- 深度探索java对象模型
- 两段提交协议
- MapReduce实验:Hive安装以及简单操作
- HTTP协议入门
- 指针,引用,与按值传递
- Excel中如何以文字而不是图片的方式将内容复制到QQ中
- xcode-C语言出接触_选择排序
- Curl命令详解
- 关于正则表达式——捕获型括号和非捕获型括号
- 文件夹遍历Java版
- GMM的EM算法实现