spark-通过StructType直接指定Schema

来源：互联网发布：matlab 定义二维数组编辑：程序博客网时间：2024/06/11 04:23

[java] view plain copy
package cn.itcast.spark.sql  
  
import org.apache.spark.sql.{Row, SQLContext}  
import org.apache.spark.sql.types._  
import org.apache.spark.{SparkContext, SparkConf}  
  
/** 
  * Created by ZX on 2015/12/11. 
  */  
object SpecifyingSchema {  
  def main(args: Array[String]) {  
    //创建SparkConf()并设置App名称  
    val conf = new SparkConf().setAppName("SQL-2")  
    //SQLContext要依赖SparkContext  
    val sc = new SparkContext(conf)  
    //创建SQLContext  
    val sqlContext = new SQLContext(sc)  
    //从指定的地址创建RDD  
    val personRDD = sc.textFile(args(0)).map(_.split(" "))  
    //通过StructType直接指定每个字段的schema  
    val schema = StructType(  
      List(  
        StructField("id", IntegerType, true),  
        StructField("name", StringType, true),  
        StructField("age", IntegerType, true)  
      )  
    )  
    //将RDD映射到rowRDD  
    val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).toInt))  
    //将schema信息应用到rowRDD上  
    val personDataFrame = sqlContext.createDataFrame(rowRDD, schema)  
    //注册表  
    personDataFrame.registerTempTable("t_person")  
    //执行SQL  
    val df = sqlContext.sql("select * from t_person order by age desc limit 4")  
    //将结果以JSON的方式存储到指定位置  
    df.write.json(args(1))  
    //停止Spark Context  
    sc.stop()  
  }  
}  

将程序打成jar包，上传到spark集群，提交Spark任务

/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit \

--class cn.itcast.spark.sql.InferringSchema \

--master spark://node1.itcast.cn:7077 \

/root/spark-mvn-1.0-SNAPSHOT.jar \

hdfs://node1.itcast.cn:9000/person.txt \

hdfs://node1.itcast.cn:9000/out1

查看结果

hdfs dfs -cat hdfs://node1.itcast.cn:9000/out1/part-r-*

阅读全文

0 0