Spark Python API 学习(2)

来源:互联网 发布:木工设计软件 编辑:程序博客网 时间:2024/06/16 15:25

常用API讲解-文件的读取与存储

SparkAPI–本地文本文件的读取和保存(文本文件指txt文件)
1.读取本地文本文件

    input = sc.textFile("想要打开的文件路径") #此时的input就整个文本文件的一个RDD

2.当我们对input这个RDD进行数次转换操作和行动操之后,我们需要对运算完的结果进行保存

    result.saveAsTextFile("需要保存的文件路径")

注:Spark还支持多种文件格式(包括JOSN,CSV等),这些文件的读取和保存与文本文件类似,
用到时候再查就可以,但是还是应该了解JOSN和CSV等文件的组织形式
补充:创建RDD还可以直接输入创建,但是这种方式不常用,方法如下:

    lines = sc.parallelize(["pandas","i like pandas"])
0 0
原创粉丝点击