spark处理jsonFile
来源:互联网 发布:fkled编辑软件下载 编辑:程序博客网 时间:2024/06/03 19:21
按照spark的说法,这里的jsonFile是特殊的文件:
Note that the file that is offered as jsonFile is not a typical JSON file. Each line must contain a separate, self-contained valid JSON object. As a consequence, a regular multi-line JSON file will most often fail.
它是按行分隔多个JSON对象,否则的话就会出错。
以下是一个jsonFile的内容:
scala> val path = "examples/src/main/resources/people.json"path: String = examples/src/main/resources/people.jsonscala> Source.fromFile(path).foreach(print){"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}
可以获取到一个SchemaRDD:
scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)scala> val jsonFile = sqlContext.jsonFile(path)scala> jsonFile.printSchema()root |-- age: integer (nullable = true) |-- name: string (nullable = true)
针对该SchemaRDD可以做遍历操作:
jsonFile.filter(row=>{val age=row(0).asInstanceOf[Int];age>=13&&age<=19}).collect
既然是SchemaRDD,就可以采用SQL:
scala> jsonFile.registerTempTable("people")scala> val teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")scala> teenagers.foreach(println)
0 0
- spark处理jsonFile
- Spark流处理(WordCount)
- Spark任务处理流程
- Spark任务处理流程
- Spark中的错误处理
- Spark特征处理
- spark处理HDFS文件
- spark异常处理
- spark数据倾斜处理
- spark高级文本处理技术--spark-Machine Learning With Spark
- Spark的流处理-1
- spark文本处理-文章分类
- Spark中的事件处理分析
- Spark CountVectorizer处理文本特征
- Spark流处理项目介绍
- Spark流处理项目介绍
- Spark RPC之RpcResponse处理
- spark sql 处理时间类型
- error C2079: * uses undefined class 'CArray<TYPE,ARG_TYPE>'
- EvaThumber : 基于URL的轻量级图片处理库
- 关于auto_ptr
- 水晶苍蝇拍(14):战胜人性,值得珍藏的投资感悟!
- 将svn服务注册为windows系统服务
- spark处理jsonFile
- http://kb.cnblogs.com/page/516256/
- Qt下编程如何使其能够预编译,加快编译速度
- Ruby正则表达式编辑器
- jmeter OutOfMemoryError 解决方案
- 共享锁(S锁)和排它锁(X锁)
- C++STL容器使用经验总结
- Android 性能优化之使用MAT分析内存泄露问题
- quick cocos2d-x lua解析json文件