spark sql on hive配置及其使用
来源:互联网 发布:java.io.eofexception 编辑:程序博客网 时间:2024/04/20 00:57
一: spark on hive 配置
1. 切换到spar的conf目录下使用vi hive-site.xml创建hive-site.xml. 并填写如下内容
<configuration>
<property>
<name>hive.metastore.uris</name>
<value>thrift://master:9083</value>
<description>thrift URI for the remote metastore.Used by metastore client to connect to remote metastore. </description>
</property>
</configuration>
因为用sparksql操作hive实际上是把hive 当做数据仓库。数据仓库肯定有元数据和数据本身。要访问真正的数据就要访问他的元数据。所以只需要配置hive.metastore.uris 即可。(不需在每台机器上配置)
二:启动集群
1. 启动dfs 服务 start-dfs.sh
2. 启动hive 数据仓库服务 hive --service metastore >metastore.log 2>& 1&
3. 启动spark服务 start-all.sh
4. 启动sparkshell ./spark-shell –master spark://master:7077
三:案例实战
1. Spark on hive 实战 在spark-shell 模式下
Val hiveContext= new org.apache.spark.sql.hive.HiveContext(sc)
hiveContext.sql(“use hive”) //使用hive 数据库
hiveContext.sql("show tables").collect.foreach(println) // 查询数据库中的表
hiveContext.sql(“select count(*) from sogouq1”).collect.foreach(println)(注意此时使用的是spark的引擎)
hiveContext.sql(“select count(*) from sogouq2 where website like '%baidu%'”).collect.foreach(println)
hiveContext.sql(“select count(*) from sogouq2 where s_seq=1 and c_seq=1 and website like '%baidu%'”).collect.foreach(println)
2. 不基于hive 的实战代码,在spark-shell 模式下
scala> sqlContext
res8: org.apache.spark.sql.SQLContext = org.apache.spark.sql.hive.HiveContext@35920655(可以创建很多hiveContext,hivecongtext连接的是数据仓库,程序本身(spark中的job),job在程序中并行运行,如果都hive的数据,如果用句柄,对句柄的占用比较麻烦,所有用多个实例。从查询的角度来说,有多个实例也很正常)
val df =sqlcontext.read.json(“library/examples/src/main/resources/people.json”) //读取json 数据
df.show()
df.printSchema
df.select(“name”).show()
df.select(df(“name”),df(“age”)+1).show()
- spark sql on hive配置及其使用
- Spark SQL on Hive配置
- spark sql on hive
- spark sql on hive初探
- Hive on Spark配置总结
- Hive on Spark 配置、运行
- spark sql on hive安装问题解析
- spark sql on hive笔记一
- Spark SQL 与 Spark SQL on Hive 区别
- Hive on Spark安装配置详解
- [Spark]Shark, Spark SQL, Hive on Spark以及SQL On Spark的未来
- Spark SQL读取Hive数据配置及使用Thrift JDBC/ODBC Server访问Spark SQL
- Spark-SQL和Hive on Spark, SqlContext和HiveContext
- Shark, Spark SQL, Hive on Spark, 以及SQL on Apache Spark的未来
- Hive on Spark系列一:CDH5.5配置支持hive on spark
- 2.2、配置Spark-sql(连接Hive)
- hive on spark部署
- 试用Hive on Spark
- spark sql和DataFrame本质
- Openjudge NOI题库1.13编程基础之综合应用17:文字排版
- bootstrap 模态框modal 传值问题
- maven javadoc plugin build fails with Java 8 when Javadoc tags are incomplete
- 安装YouCompleteMe
- spark sql on hive配置及其使用
- Android View的scrollTo(),scrollBy(),getScrollX(), getScrollY()
- 归并排序算法(php)
- How to get port in FTP protocol from passive mode?
- IEueditor无法使用-window.localstorage报错
- spark sql下使用parquet最佳实战
- 备份部分mysql表并上传至指定ftp服务器目录中
- Unity LineRender画线+计算空间距离+实时更新数据
- Linux二级域名