spark之基础学习篇:load文件 — WordCount

来源:互联网 发布:网络语言一米是多少钱 编辑:程序博客网 时间:2024/06/02 04:40


摘   自: http://bbs.easysoo.cn/?p=463



本节主要讲解spark加载不同的文件格式的方法,并且从local模式和cluster模式进行说明。

1、加载txt文件

1234567891011121314151617
/** * txt格式:以空格分割 */import org.apache.spark.{SparkContext, SparkConf}object WordCount {  def main(args: Array[String]) {     val conf = new SparkConf().setAppName("txtwd") val path = "file:///usr/local/spark/sbin/p.txt"    //local模式    //val path = "hdfs://usr/spark/p.txt"    //集群模式    val sc = new SparkContext(conf)    sc.textFile(path).flatMap(_.split(" ")).map(x => (x, 1))           .reduceByKey(_ + _).take(10).foreach(println)    sc.stop()  }}

2、加载json文件

123456789101112131415161718192021
/** * json格式:{"name":"xxx","age":12} */import org.apache.spark.SparkContextobject TestSql {  def main(args: Array[String]) {     val sc = new SparkContext()    val sqlContext = new org.apache.spark.sql.SQLContext(sc)     val path = "file:///usr/local/spark/sbin/p.json"//local模式    //val path = "hdfs://usr/spark/p.json" //集群模式     val people = sqlContext.jsonFile(path)     people printSchema()    people.registerTempTable("people")     sqlContext.sql("select name,age from people where age > 10").collect.foreach(println)  }}

3、加载parquet文件

   >>>>未完,请浏览下节

0 0
原创粉丝点击