【spark】编程代码,随笔记录

来源:互联网 发布:淘宝商品美化 编辑:程序博客网 时间:2024/06/11 17:55
  • spark-yarn模式
    –master yarn-cluster
    (只需在spark-submit执行时,添加参数)

  • 速度慢:
    提升cores数(提升并行执行的task);

  • 使用spark-rdd,textFile基于本地系统,linux系统,路径格式简介:
    //hdfs单个文件夹
    val onePath = "hdfs://100.38.101.2:9000//log/month=01/new1.txt"
    //hdfs下所有的month文件夹下的所有txt文件(使用通配符*表示)
    val monAllPath = "hdfs://100.38.101.2:9000//log/month=*/*.txt"
    // hdfs两个文件夹month为10/09下的所有txt文件(使用","隔开)
    val morePath="hdfs://100.38.101.2:9000//log/month=10/*.txt,hdfs://100.38.101.2:9000//log/month=09/*.txt"
    //读取本地文件
    val localPath = "D:/zling/test.txt"
    //读取linux系统下文件
    val liPath = "/root/zling/test.txt"
    //读取路径下的文件
    sc.textFile(onePath).map(line => {})

小编会不定时更新,欢迎大家来撩

原创粉丝点击