CDH5.5.0中配置运行Spark SQL的Thrift Server

来源:互联网 发布:食药局数据查询 编辑:程序博客网 时间:2024/05/16 10:31

CDH5.5.0里面阉割了spark-sql和sparkR,目录里面都没有start-thriftserver.sh,哪怕是spark Standalone部署。


前面帖子讲到,CDH5.5.0 spark-sql没有的情况下,在一个节点部署外面社区版的spark1.5.2,spark on yarn后,spark-sql shell的方式可以查询了。
但是问题来了,jdbc如何使用spark-sql?
Hive的配置里面有HiveServer2是开着的,如下:
插图:


很好,metastore也开着,beeline测试一下
beeline -u jdbc:hive2://192.168.100.11:10000/default -n hive

可以连接上。但是执行的sql,用的是MR,有木有搞错?

插图:





那么我要用spark-sql咋办?



CDH5.3.2中配置运行Spark SQL的Thrift Server
http://blog.csdn.net/freedomboy319/article/details/46332009


这位仁兄给的办法不适用我的场景,但是启动thriftserver的方法是可以借鉴的。


为避免端口冲突,停掉Hive里面的 HiveServer2,或者在一台没有HiveServer2的节点上新开任务。
我是选择新的机器来测试,懒得搞hive-stie的配置了。


########################  --master yarn
cd $SPARK_HOME/sbin
./start-thriftserver.sh --master yarn

然后在窗口观察:4040端口和10000端口(默认配置10000端口)
插图:


然后用浏览器登录:ip:4040端口,自动跳转到yarn的Application UI上,观察:
插图:


走两步看看:
插图:



######################## --master local
cd $SPARK_HOME/sbin
./start-thriftserver.sh --master local





看到区别了,Executor只有Driver,yarn有好几个。

0 0