spark1.2.1下的sql测试
来源:互联网 发布:跟孩子一起学编程 pdf 编辑:程序博客网 时间:2024/06/11 00:12
安装了spark之后,可以在 shell中执行Spark SQL。Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数据类型,它就像是关系型数据库里面的一张表。它可以从原有的RDD创建,也可以是Parquet文件,最重要的是它可以支持用HiveQL从hive里面读取数据。
首先查看下数据文件:
Spark SQL测试:
- val sqlContext = new org.apache.spark.sql.SQLContext(sc)
- import sqlContext._
- case class Person(name: String, age: Int)
- val people = sc.textFile("/user/hadoop/test/input/test.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt))
- people.registerAsTable("people")
- val teenagers = sql("SELECT name FROM")
- teenagers.map(t => "Name: " + t(0)).collect().foreach(println)
- shell将输出:
14/11/23 16:28:07 INFO SparkContext: Job finished: collect at <console>:20, took 0.377845624 s
Name: a
HiveQL测试:
- val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
- import hiveContext._
- hql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
- hql("LOAD DATA LOCAL INPATH '/home/hadoop/shareWin/test.txt' INTO TABLE src")
- hql("SELECT count(*) FROM src").collect().foreach(println)
- hql("SELECT key, value FROM src ").collect().foreach(println)
通过hive数据库里 可以查到sparkhivesql的创建的表,也可以查到数据
0 0
- spark1.2.1下的sql测试
- spark1.4下的R
- 基于spark1.4的Spark-Sql
- 基于spark1.4的Spark-Sql
- CentOS64位6.4下Hadoop2.7.1、Mysql5.5.46、Hive1.2.1、Spark1.5.0的集群环境部署
- 基于spark1.3.1的spark-sql实战-01
- 基于spark1.3.1的spark-sql实战-02
- 基于spark1.3.1的spark-sql实战-01
- 基于spark1.3.1的spark-sql实战-02
- 基于CDH5.4的Spark1.4.1下SparkR的部署
- 基于CDH5.4的Spark1.4.1下SparkR的部署
- Ubuntu kylin 14.04下的spark1.0.1安装
- spark1.x-sql-架构原理
- Spark1.6的RPC
- spark1.1.0下使用SparkSQL
- spark1
- Spark1.1.0 Spark SQL Programming Guide
- spark SQL CLI运行(spark1.4)
- 欢迎使用CSDN-markdown编辑器
- java通过http实现断点续传
- 领域驱动设计(DDD)
- iOS 获取手机音量
- 第6周项目5-友元类-时间类
- spark1.2.1下的sql测试
- 常用正则表达式大全
- android视图注解加载的实现
- OpenGL的矩阵运算是与DirectX相反的
- 【Java.Core】Java中可变长参数的使用及注意事项
- 第六周课后实践:阅读程序
- 产品升级的核心在“架构能力”升级
- 实现滚动条的属性名称
- bigram分词