Spark2.1.1<standalone模式下的FileNotFoundException>
来源:互联网 发布:淘宝申请定向计划 编辑:程序博客网 时间:2024/06/18 09:42
2017年05月02日spark发布了稳定版2.1.1,据说是2.0+版本的spark替代了之前的JVM然后自己实现了一套JVM,说是更加节省内存了,于是满心欢喜的下载了
安装完成之后跑了Wordcount例子,代码是:
val lines=sc.textFile("file:///root/file.txt")lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)
却得到如下的异常:
[Stage 2:=============================> (1 + 1) / 2]17/06/10 03:36:34 WARN TaskSetManager: Lost task 0.0 in stage 2.0 (TID 4, 172.17.11.86, executor 0): java.io.FileNotFoundException: File file:/root/file.txt does not exist at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:611) at org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:824) at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:601) at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:421) at org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker.<init>(ChecksumFileSystem.java:142) at org.apache.hadoop.fs.ChecksumFileSystem.open(ChecksumFileSystem.java:346) at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:769) at org.apache.hadoop.mapred.LineRecordReader.<init>(LineRecordReader.java:109) at org.apache.hadoop.mapred.TextInputFormat.getRecordReader(TextInputFormat.java:67) at org.apache.spark.rdd.HadoopRDD$$anon$1.liftedTree1$1(HadoopRDD.scala:252) at org.apache.spark.rdd.HadoopRDD$$anon$1.<init>(HadoopRDD.scala:251) at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:211) at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:102) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) at org.apache.spark.rdd.RDD.iterator(RDD.scala:287) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) at org.apache.spark.rdd.RDD.iterator(RDD.scala:287) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) at org.apache.spark.rdd.RDD.iterator(RDD.scala:287) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323) at org.apache.spark.rdd.RDD.iterator(RDD.scala:287) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53) at org.apache.spark.scheduler.Task.run(Task.scala:99) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) at java.lang.Thread.run(Thread.java:748)
最终经过排查发现standalone模式下需要集群中所有机器下相同目录下有相同的要读取的文件(我这里想要读取的文件是/root/file.txt),当我把相同的文件分发到集群中其他机器上相同目录下的时候再次跑wordcount的时候问题得到解决
阅读全文
0 0
- Spark2.1.1<standalone模式下的FileNotFoundException>
- Spark2.1.0的Standalone模式部署
- Spark standalone 模式下的集群部署
- Windows下Trac的安装---本机模式(Standalone)
- Standalone模式下Spark 中通信机制的源码分析
- ZooKeeper源码学习笔记(2)--Standalone模式下的ZooKeeper
- Spark的standalone模式部署
- spark的standalone模式部署
- Standalone模式下Spark任务资源分配
- spark2.2.0搭建standalone集群环境
- Spark运行在Standalone模式下产生的临时目录的问题
- Apache Spark源码走读之15 -- Standalone部署模式下的容错性分析
- Spark Streaming On Yarn/ On StandAlone模式下的checkpointing容错
- 【Spark】Spark的Standalone模式安装部署
- 1-2、Spark的standalone模式安装
- Spark的Standalone模式安装部署
- Spark的StandAlone模式环境搭建
- Flink的standalone 模式简单部署
- Ubuntu 16.04 安装 VNC 及 gnome 桌面环境
- Python 的第一个 hello world 程序!
- Android recyclerView网格布局上拉加载更多视图的设计
- 学会Git玩转Github笔记(一)——Github基本概念 & 仓库管理
- GetSystemDirectory
- Spark2.1.1<standalone模式下的FileNotFoundException>
- PHP设计模式-工厂模式
- FreeMarker的几个重要作用
- Oracle 启动过程
- Android 通过GET请求利用pull解析器获取XML格式数据在ListView控件显示
- 过滤字符串 判断字符 数字判断
- C++/MFC-静态链接库
- 淘淘商城系列——Spring与ActiveMQ的整合及用JmsTemplate发送消息
- Android中读写文件