spark-通过StructType直接指定Schema

来源:互联网 发布:matlab 定义二维数组 编辑:程序博客网 时间:2024/06/11 04:23
[java] view plain copy
  1. package cn.itcast.spark.sql  
  2.   
  3. import org.apache.spark.sql.{Row, SQLContext}  
  4. import org.apache.spark.sql.types._  
  5. import org.apache.spark.{SparkContext, SparkConf}  
  6.   
  7. /** 
  8.   * Created by ZX on 2015/12/11. 
  9.   */  
  10. object SpecifyingSchema {  
  11.   def main(args: Array[String]) {  
  12.     //创建SparkConf()并设置App名称  
  13.     val conf = new SparkConf().setAppName("SQL-2")  
  14.     //SQLContext要依赖SparkContext  
  15.     val sc = new SparkContext(conf)  
  16.     //创建SQLContext  
  17.     val sqlContext = new SQLContext(sc)  
  18.     //从指定的地址创建RDD  
  19.     val personRDD = sc.textFile(args(0)).map(_.split(" "))  
  20.     //通过StructType直接指定每个字段的schema  
  21.     val schema = StructType(  
  22.       List(  
  23.         StructField("id", IntegerType, true),  
  24.         StructField("name", StringType, true),  
  25.         StructField("age", IntegerType, true)  
  26.       )  
  27.     )  
  28.     //将RDD映射到rowRDD  
  29.     val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).toInt))  
  30.     //将schema信息应用到rowRDD上  
  31.     val personDataFrame = sqlContext.createDataFrame(rowRDD, schema)  
  32.     //注册表  
  33.     personDataFrame.registerTempTable("t_person")  
  34.     //执行SQL  
  35.     val df = sqlContext.sql("select * from t_person order by age desc limit 4")  
  36.     //将结果以JSON的方式存储到指定位置  
  37.     df.write.json(args(1))  
  38.     //停止Spark Context  
  39.     sc.stop()  
  40.   }  
  41. }  

将程序打成jar包,上传到spark集群,提交Spark任务

/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit \

--class cn.itcast.spark.sql.InferringSchema \

--master spark://node1.itcast.cn:7077 \

/root/spark-mvn-1.0-SNAPSHOT.jar \

hdfs://node1.itcast.cn:9000/person.txt \

hdfs://node1.itcast.cn:9000/out1

 

查看结果

hdfs dfs -cat  hdfs://node1.itcast.cn:9000/out1/part-r-*

原创粉丝点击