基于mysql的hive表项存储实例分析
来源:互联网 发布:java list map 去重 编辑:程序博客网 时间:2024/05/19 09:38
Hive存储是基于hadoop hdfs文件系统的,通过默认内嵌的Derby 数据库或外部数据库系统(如mysql)组织元数据访问,下面就通过实际案例描述其存储过程。
1, 在hive 中创建表,然后把外部csv文件导入其中(外部文件为Batting.csv, 内部表为temp_batting):
hive>create table temp_batting (col_value STRING);
hive> show tables;
OK
temp_batting
...
hive>LOAD DATAINPATH 'hive/data/Batting.csv' OVERWRITE INTO TABLE temp_batting;
2, 查看外部mysql数据库,可以看到新创建的temp_batting表:
mysql> use hive;
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A
mysql> select * from TBLS;
+--------+-------------+-------+------------------+-------+-----------+-------+--------------+----------------+--------------------+--------------------+
| TBL_ID | CREATE_TIME | DB_ID | LAST_ACCESS_TIME | OWNER | RETENTION | SD_ID | TBL_NAME | TBL_TYPE | VIEW_EXPANDED_TEXT | VIEW_ORIGINAL_TEXT |
+--------+-------------+-------+------------------+-------+-----------+-------+--------------+----------------+--------------------+----------
| 66 | 1432707070 | 1 | 0 | root | 0 | 66 | temp_batting | MANAGED_TABLE | NULL | NULL |
| |
+--------+-------------+-------+------------------+-------+-----------+-------+--------------+----------------+--------------------+----------
...
查看其在hdfs上存储路径:
mysql> select * from SDS;
+-------+-------+--------------------------------------------------+---------------+---------------------------+--------------------------------------------------------+-------------+------------------------------------------------------------+----------+
| SD_ID | CD_ID | INPUT_FORMAT | IS_COMPRESSED | IS_STOREDASSUBDIRECTORIES | LOCATION | NUM_BUCKETS | OUTPUT_FORMAT | SERDE_ID |
+-------+-------+--------------------------------------------------+---------------+---------------------------+--------------------------------
| 66 | 71 | org.apache.hadoop.mapred.TextInputFormat | | |hdfs://localhost:9000/user/hive/warehouse/temp_batting | -1 | org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat | 66 |
可以看到是:
hdfs://localhost:9000/user/hive/warehouse/temp_batting
3,到hadoop 的hdfs文件系统中查看这个表路径:
[root@lr rli]# hadoop dfs -ls /user/hive/warehouse
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
...
drwxr-xr-x - root supergroup 0 2015-05-27 14:16 /user/hive/warehouse/temp_batting
...
[root@lr rli]# hadoop dfs -ls /user/hive/warehouse/temp_batting
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
Found 1 items
-rwxr-xr-x 1 root supergroup 6398990 2015-05-27 14:02 /user/hive/warehouse/temp_batting/Batting.csv
可以看到其文件大小及内容。
结论:
Hive通过关联数据库系统记录文件的存储路径,属性等,实际数据存在hdfs系统中,当通过select等操作生成相应的map/reduce进程进一步数据分析处理。
- 基于mysql的hive表项存储实例分析
- 基于Hive的日志分析
- 使用mysql存储存储hive的metastore
- 基于Hive+sparkSQL的人力资源系统实例
- 基于mysql的Hive数据仓库的搭建
- 基于Hive的海量Web日志分析
- hive metadata mysql存储
- Mysql的存储过程实例
- 基于存储层面的hive metastore server的权限认证
- mysql的存储引擎分析
- 基于InnoDB存储引擎的mysql数据库表结构详解
- 基于InnoDB存储引擎的mysql数据库表结构详解
- Mysql基于FEDERATED存储引擎的远程表使用
- Hive存储过程HQL/SQL(二)– 在Hive存储过程中读写MySQL表
- hadoop学习--基于Hive的Hadoop日志分析
- hadoop学习--基于Hive的Hadoop日志分析
- 基于Spark和Hive进行的豆瓣电影数据分析
- Hive基于搜狗搜索的用户日志行为分析
- 地铁站外公开叫卖“学生公交卡”可顺利充值
- 案例_字符串异或加密
- 【linux】Ubuntu 更新源
- Ubuntu14.04 + opencv2.4.11 + python环境配置
- seq 10 | sed -e 's/.*/export var&=ZZZZZZZZZZZZZZ/'
- 基于mysql的hive表项存储实例分析
- 连载二:无限互联——我的学习生活
- 利用DrawLayout和Fragment实现左右侧滑菜单
- ScrollView+ListView滚动冲突,没有滑动效果 解决办法
- 词法分析
- Core Animation-简介
- 南宁便秘治疗
- Codeforces Round #305 (Div. 2)C. Mike and Frog 数学(循环节)
- 南宁肛肠诊所