spark之基础学习篇：load文件 — WordCount

来源：互联网发布：网络语言一米是多少钱编辑：程序博客网时间：2024/06/02 04:40

摘自: http://bbs.easysoo.cn/?p=463

本节主要讲解spark加载不同的文件格式的方法，并且从local模式和cluster模式进行说明。

1、加载txt文件

1234567891011121314151617

/** * txt格式：以空格分割 */import org.apache.spark.{SparkContext, SparkConf}object WordCount {  def main(args: Array[String]) {     val conf = new SparkConf().setAppName("txtwd") val path = "file:///usr/local/spark/sbin/p.txt"    //local模式    //val path = "hdfs://usr/spark/p.txt"    //集群模式    val sc = new SparkContext(conf)    sc.textFile(path).flatMap(_.split(" ")).map(x =&gt; (x, 1))           .reduceByKey(_ + _).take(10).foreach(println)    sc.stop()  }}

2、加载json文件

123456789101112131415161718192021

/** * json格式：{"name":"xxx","age":12} */import org.apache.spark.SparkContextobject TestSql {  def main(args: Array[String]) {     val sc = new SparkContext()    val sqlContext = new org.apache.spark.sql.SQLContext(sc)     val path = "file:///usr/local/spark/sbin/p.json"//local模式    //val path = "hdfs://usr/spark/p.json" //集群模式     val people = sqlContext.jsonFile(path)     people printSchema()    people.registerTempTable("people")     sqlContext.sql("select name,age from people where age &gt; 10").collect.foreach(println)  }}

3、加载parquet文件

>>>>未完，请浏览下节

0 0