Spark2.0以下读取csv数据并转化为RDD

来源:互联网 发布:余姚虾米网络 编辑:程序博客网 时间:2024/05/17 02:58

当Spark 版本低于2.0.0时,以及不借助与其他包的情况下,可以用如下方法将csv数据转化成RDD

    sc = SparkContext()    //获取RDD    csvfile = sc.textFile("xxx.csv")    //逗号分隔    all = csvfile.map(lambda line: line.split(","))    //当有标题的时候,过滤掉标题,获取内容    header = all.first()    data = all.filter(lambda line: line[0] != header[0])    sample = data.take(5)    print sample
原创粉丝点击