使用Java和Scala在IDE中开发DataFrame实战
来源:互联网 发布:两组数据相关性分析 编辑:程序博客网 时间:2024/05/18 03:23
使用Java和Scala两种语言实战DataFrame,创建DataFrame的时候,DataFrame可以来源于其他RDD,也可以来自于Hive表,或者其他数据来源。一般基于数据来源直接构造DataFrame。例如JSON文件,那么读取JSON文件的时候就会自动创建DataFrame。
SQLContext操作数据SQL的时候:有一个弊端就是,只支持SQL一种语言。
但是如果使用HiveContext的时候就可以支持不同种方言。
DataFrame的创建方式:
1. 可以来自己RDD
2. 来自Hive表
3. 其他数据来源(JSON等文件)
Java版本代码如下:
package com.dt.spark.SparkApps.sql;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQLContext;/** * 使用Java的方式实战对DataFrame的操作 */public class DataFrameOps { public static void main(String[] args) { //创建SparkConf用于读取系统配置信息并设置当前应用程序的名字 SparkConf conf = new SparkConf() .setMaster("local") .setAppName("DataFrameOps"); //创建JavaSparkContext对象实例作为整个Driver的核心基石 SparkContext sc = new SparkContext(conf); //创建SQLContext上下文对象用于SQL的分析 SQLContext sqlContext = new SQLContext(sc); //创建DataFrame,可以简单的认为DataFrame是一张表。 DataFrame df = sqlContext.read().json("E://people.json"); //select * from table df.show(); //desc table df.printSchema(); //select name from table df.select("name").show(); //select name,age + 1 from tables; df.select(df.col("name"),df.col("age").plus(10)).show(); //select * from table where age > 10 df.filter(df.col("age").gt(10)).show(); //select count(1) from table group by age df.groupBy(df.col("age")).count().show(); }}
Scala版本代码如下:
package com.dt.spark.sqlimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextobject DataFrameOps { def main(args:Array[String]):Unit={ val conf = new SparkConf().setMaster("local").setAppName("DataFrameOps") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val df = sqlContext.read.json("E://people.json") df.show() df.printSchema() df.select("name").show() df.select(df.col("name"),df.col("age").plus(10)).show() df.filter(df.col("age").gt(10)).show() df.groupBy(df.col("age")).count().show()
0 0
- 使用Java和Scala在IDE中开发DataFrame实战
- 使用Java和Scala在IDE中开发DataFrame实战
- 第58课:使用Java和Scala在IDE中开发DataFrame实战学习笔记
- 第58课:使用Java和Scala在IDE中开发DataFrame实战学习笔记
- 使用Java和Scala在IDE中开发DataFrame
- 大数据IMF传奇行动绝密课程第58课:使用Java和Scala在IDE中开发DataFrame实战
- 使用Java和Scala在IDE中实战RDD和DataFrame转换操作
- 使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作
- 第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作’学习笔记
- 第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作学习笔记
- 大数据IMF传奇行动绝密课程第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作
- 大数据IMF传奇行动绝密课程第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作
- SPARK 使用Java 在IDE中实战RDD和DataFrame动态转换操作
- 使用Java实战RDD和DataFrame转换操作
- RDD和DataFrame转换(Java+Scala)
- 在scala IDE eclipse中maven出scala项目,而不是java项目
- 0083.使用Scala和Java实战Spark Streaming开发第二讲Spark Streaming
- 如何在Java IDE中使用selenium
- 面向对象原则综述
- Linux那些事儿之我是Sysfs(13)举例四:sysfs读入普通文件内容
- 利用platform库获取浏览器和操作系统版本
- 脑残的低级错误之静态成员变量
- lua得到一个真随机数字
- 使用Java和Scala在IDE中开发DataFrame实战
- 编写一个简单的SSH例子
- UVa 941 - Permutations
- ListView分页加载
- JS学习13(表单脚本)
- PAT L2-007. 家庭房产 (并查集)
- 笔记
- Linux那些事儿之我是Sysfs(final)后记
- Jquery ajax 跨域访问