Spark textFile

来源:互联网 发布:视觉检测软件免费 编辑:程序博客网 时间:2024/05/06 12:48

Spark 支持 text files ,SequenceFiles 和任何 hadoop inputFormat 格式,使用 textFile() 方法可以将本地文件或者HDFS文件转换成RDD。

  • 如果读取本地文件,各节点都要有该文件,或者使用网络共享文件
  • 支持整个文件目录的读取,如 textFile(“/my/directory”)
  • 压缩文件读取,如textFile(“/my/directory/*.gz”)
  • 通配符文件读取,如textFile(“/my/directory/*.txt”)
  • textFile() 有可选的第二个参数 slice ,默认情况下,为每个block创建一个分片,用户也可以通过slice指定更多的分片,但是不能使用少于block数的分片。

  1. 使用 wholeTextFiles() 读取目录里面的小文件,返回(文件名,内容)对
  2. 使用 sequenceFile[K,V]() 方法可以将SequenceFile 转化成RDD
  3. 使用hadoopRDD()方法可以将其他任何Hadoop的输入类型转化成RDD
0 0