04大数据内存计算spark系列贴-SHARK(SQL on spark 0.x)
来源:互联网 发布:速度达充值软件怎么样 编辑:程序博客网 时间:2024/05/03 12:57
(原文地址:http://blog.csdn.net/codemosi/article/category/2777045,转载麻烦带上原文地址。hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人)
shark 相当于是hive on spark, 用法和hive 大致是一样的。还是一样。从代码开始。1:创建表
CREATE EXTERNAL TABLE user
(
DT STRING,
username STRING,
password STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/rdc/user/'
2:创建内存表(_cached结尾的表为内存表,表放在内存中,处理SQL查询相当的快)
CREATE TABLE user_cached AS SELECT * FROM user
3:查询功能,和hive 的区别就是对SQL语句的执行。shark使用spark来算,使用上是一样的,输入SQL 得到查询结果,各种SQL查询语句就不演示了。
4: shark 将SQL查询结果,直接转换成RDD传给spark
shark具有spark的好处 cache后的RDD存在内存中,下次可以直接使用。也就是说shark可以把表存在内存中,这种模式基于内存来算,减少了IO,加上spark的transformation的迭代正是mapreduce的缺点!并且执行是不像hive一样还要开个mapreduce,慢。
当然shark 也有缺点。基于hive的代码改造的,hive是进程安全的,因为hive执行使用mapreduce,进程安全就够了。shark执行是spark来做。要求线程安全。不然可能你一样的SQL出来的结果不一样。所以还要安装一个hive的补丁包。
0 0
- 04大数据内存计算spark系列贴-SHARK(SQL on spark 0.x)
- 07大数据内存计算spark系列贴-spark SQL
- 02-大数据内存计算spark系列贴-spark介绍、spark程序
- 05大数据内存计算spark系列贴-spark straming 流式计算
- 01-大数据内存计算spark系列贴-spark生态系统简介
- 03-大数据内存计算spark系列贴-spark整合hbase,优化BI平台
- 大数据Spark企业级实战版【学习笔记】----Spark Shark& Spark SQL
- 06大数据内存计算spark系列贴-mllib 机器学习
- [Spark]Shark, Spark SQL, Hive on Spark以及SQL On Spark的未来
- Spark 大数据计算
- Shark, Spark SQL, Hive on Spark, 以及SQL on Apache Spark的未来
- 大数据---spark系列--DateFrame
- Shark与Spark SQL关系
- 大数据开源框架之二:Berkeley Data Analytics Stack(tachyon, spark, shark, spark streaming)
- 聊聊spark这个大数据计算框架
- Spark大数据计算引擎介绍
- Spark 1.X 大数据平台
- Spark 介绍(基于内存计算的大数据并行计算框架)
- 线索二叉树的线索化和析构
- WebBrowser控件使用技巧
- Linux链表
- PHP大批量插入数据库的3种方法和速度对比
- weblogic在windows中的启动和停止
- 04大数据内存计算spark系列贴-SHARK(SQL on spark 0.x)
- test publish blog
- 转载和积累系列 - HTTP 400状态解决方法和Cookie的限制
- vim+gdb+ddd+xxgdb精彩的程序调试
- 推荐一下《聊聊JVM》的专栏
- 05大数据内存计算spark系列贴-spark straming 流式计算
- 发布AppStore被拒的经验总结
- 线程栈和堆
- 类的执行过程