HIVE安装和基本操作
来源:互联网 发布:手机淘宝买家评价管理 编辑:程序博客网 时间:2024/06/05 18:44
一、安装HIVE
1、在本地文件系统中找到hadoop所在目录,打开命令终端,如图:
2、通过命令终端进入到hadoop所在文件夹,并通过命令ls 查看bin文件下所有命令,如图:
3、运行启动命令start-all.sh启动hadoop,并用jps命令查看所有进程是否成功启动,如图:
4、解压HIVE安装文件到/software目录,如图:
5、修改环境变量,如图:
6、修改配置文件,将 hive-env.sh 中 HADOOP_HOME 修改为虚拟机中 Hadoop 文件夹所在 的绝对路径:
7、启动hive:
二、HIVE 基本操作
1、 输入show databases;命令查看当前数据库,如图:
2、输入show tables;查看所有表:
3、自己在usr路径下创建data文件夹,创建user.data文件,在其中写入数据,如图:
使用create tableuser(user_id int,fname string,lname string) row format delimited fieldsterminated by '\t';创建表;
查询表select *from user;发现此时表中没有数据;
导入数据load datalocal inpath '/usr/data/user.data' overwrite into table user;
再次查询表
三、. 基于 HSQL 实现 WordCount
1、创建word_count表,导入file0和file1两个文件,并查看导入结果:
2、创建临时表word_countTmp1,将exlpode和split的结果写入临时表word_countTmp1。
此时临时表中数据如下图所示:
3、新建results表,将临时表中的数据按照词语分组之后写入results表
4、按照times(次数)降序查看results表中数据:
5、用limit关键字限制返回数据行数以查询排名前三的数据:
四、用户搜索日志分析
1、在搜狗实验室下载当日用户查询日志精简版数据,将其放进虚拟机的/usr/data文件夹中。
2、解压用户查询日志数据,如图:
3、根据用户查询日志的格式创建 user_log 表,并将相关数据导入到表中。
4、创建临时表user_logTmp,将user_log中的数据存进去,其中URL用split函数进行切分,只保留第一个“/”之前的信息。
5、创建user_logresult表,只有URL和num(表示次数)两列数据,将user_logTmp表中的URL数据写入新表的URL列,按照URL分组统计的数据写入num列,如图:
6、按照num从大到小显示user_logresult中排名前十的数据,如图:
- hive安装和基本操作
- HIVE安装和基本操作
- Hive中的安装和基本操作
- 安装Hive/Hive基本操作<一>
- Hive-命令行基本操作和java API访问hive数据库
- hive 基本操作
- hive 基本操作
- hive 基本命令操作
- Hive Shell 基本操作
- hive基本操作
- hive基本操作
- Hive 基本操作
- hive基本命令操作
- hive基本命令操作
- hive基本操作
- hive sql基本操作
- hive基本操作
- hive 基本操作
- Gradle插件--dex加密
- easyUI的使用
- 简单工厂模式——使用最简单的需求来完成一个简单工厂模式
- 关于教育机器人领域的浅谈
- StackExchange.Redis官方文档(六)【事件,发布订阅,服务器命令】
- HIVE安装和基本操作
- 最长公共子序列 LCS
- 10.27测试
- HDU 5977 树分治+状态压缩
- Spark由浅到深(*)-- 基础部分代码性小结
- linkToDeath机制了解和使用
- 数据库索引的数据结构
- HttpClient使用
- read_csv UnicodeDecodeError: 'utf8' codec can't decode byte 0xb1 in position 0: invalid start byte