Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据
来源:互联网 发布:网络与生活论文2000字 编辑:程序博客网 时间:2024/05/18 17:25
在之前我们已经介绍过在 Hive 中使用 Avro,Parquet 格式来存储数据。今天我们将介绍一下如何在 Impala中使用 Parquet 格式。
1. 跟 Hive 中一样,我们在创建表的时候可以通过 STORED AS PARQUET 语句来指定文件的存储格式。
CREATE TABLE stocks_parquet LIKE stocks STORED AS PARQUET;
2. 我们可以使用 Insert 语句来将一张旧表中的数据拷贝到新的 Parquet 存储格式的表中。
INSERT OVERWRITE TABLE stocks_parquet SELECT * FROM stocks;3. 检查 Parquet 表的创建:
> SHOW TABLE STATS stocks_parquet;Query: show TABLE STATS stocks_parquet+-------+--------+--------+---------+| #Rows | #Files | Size | Format |+-------+--------+--------+---------+| -1 | 1 | 2.56KB | PARQUET |+-------+--------+--------+---------+
你也可以在创建表的时候就指定文件的存储格式:
CREATE TABLE stocks_parquet_internal ( sym STRING, dt STRING, open DOUBLE, high DOUBLE, low DOUBLE, close DOUBLE, volume INT, adj_close DOUBLE) STORED AS PARQUET;
Impala 非常好的一点就是它允许 Insert...Values 语法。这一点跟传统的 SQL 很像,也更容易获取数据。注意:对于大型表的数据加载,我们不建议使用 INSERT..VALUES. 相反的,使用 Load DATA 语句或者 INSERT INTO...select 或者 Create Table AS SELECT 。。语句可以更高效的将文件移到你在 HDFS 目录中。前两个选项会将文件 move 到表的 HDFS 目录,后两个会并行 Load 数据。
INSERT INTO stocks_parquet_internalVALUES ("YHOO","2000-01-03",442.9,477.0,429.5,475.0,38469600,118.7);
Parquet 是一种柱状存储格式,所有在查询中选择更少的列会让查询执行更快。我们应该尽量避免以下这种查询方式:
SELECT * FROM stocks;
0 0
- Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据
- Parquet_6. 在Impala表中使用 Parquet 格式
- Hive文件存储格式 :Parquet sparksql ,impala的杀手锏
- Parquet_3. 在 Impala, Hive, Pig, MR中使用 Parquet File -- 待完善
- Parquet数据存储格式
- impala用parquet格式,hive用orc格式
- spark、hive、impala、hbase、gbase在结构化数据方面查询原理对比(含parquet/orc)
- Impala 表使用 Parquet 文件格式
- hive入门们学习:orcFile和parquet存储格式简介
- 如何在Hive中使用Json格式数据
- 使用impala/hive查询hbase数据
- impala表使用rcfile,sequencefile和parquet
- impala同步hive数据
- Hive和Impala加载和存储数据功能曝光
- hive和impala操作parquet文件timestamp带来的困扰
- Hive的数据存储格式
- hive使用orcfile parquet sequencefile
- hive 文件存储parquet格式, sparkSql解析部分字段为null
- 如何查看本机ip地址,首先介绍下,查看电脑在局域网里的ip地址
- Codeforces Round #334 B. More Cowbell (二分 + 贪心)
- [python] 专题八.多线程编程之thread和threading
- Codeforces Round #334 C. Alternative Thinking (dp)
- 包装对象
- Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据
- 黑马程序员_final关键字
- Codeforces Round #334 D. Moodular Arithmetic(置换)
- PAT1001
- PAT1002
- 黑马程序员_抽象类
- Codeforces Round #334 E. Lieges of Legendre (组合游戏)
- qt pro 里面变量的引用
- POJ 2632 Crashing Robots