CDH5.5.0中配置运行Spark SQL的Thrift Server

来源：互联网发布：食药局数据查询编辑：程序博客网时间：2024/05/16 10:31

CDH5.5.0里面阉割了spark-sql和sparkR，目录里面都没有start-thriftserver.sh，哪怕是spark Standalone部署。

前面帖子讲到，CDH5.5.0 spark-sql没有的情况下，在一个节点部署外面社区版的spark1.5.2，spark on yarn后，spark-sql shell的方式可以查询了。
但是问题来了，jdbc如何使用spark-sql？
Hive的配置里面有HiveServer2是开着的，如下：
插图：

很好，metastore也开着，beeline测试一下
beeline -u jdbc:hive2://192.168.100.11:10000/default -n hive

可以连接上。但是执行的sql，用的是MR，有木有搞错？

插图：

那么我要用spark-sql咋办？

CDH5.3.2中配置运行Spark SQL的Thrift Server
http://blog.csdn.net/freedomboy319/article/details/46332009

这位仁兄给的办法不适用我的场景，但是启动thriftserver的方法是可以借鉴的。

为避免端口冲突，停掉Hive里面的 HiveServer2，或者在一台没有HiveServer2的节点上新开任务。
我是选择新的机器来测试，懒得搞hive-stie的配置了。

######################## --master yarn
cd $SPARK_HOME/sbin
./start-thriftserver.sh --master yarn

然后在窗口观察：4040端口和10000端口（默认配置10000端口）
插图：

然后用浏览器登录：ip:4040端口，自动跳转到yarn的Application UI上，观察：
插图：

走两步看看：
插图：

######################## --master local
cd $SPARK_HOME/sbin
./start-thriftserver.sh --master local

看到区别了，Executor只有Driver，yarn有好几个。

0 0