spark学习:1.textFile函数
来源:互联网 发布:workbench网络培训平台 编辑:程序博客网 时间:2024/05/19 06:16
使用前先修改打印等级,不然结果不好看,输出一堆INFO信息
修改path /conf/log4j.properties配置文件
log4j.rootCategory=WARN, console //改为WARN等级
1.使用 pyspark
本地读取两种方式:
dd = sc.textFile("file:///workdir/bak_conf/hive/hive-site.xml") dd = sc.textFile("/workdir/bak_conf/hive/hive-site.xml")
均出现错误
17/09/05 16:03:31 WARN TaskSetManager: Lost task 0.0 in stage 1.0 (TID 5, 192.168.120.141, executor 1): java.io.FileNotFoundException: File file:/workdir/bak_conf/hive/hive-site.xml does not exist at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:611) at org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:824) at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:601) at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:421) at org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker.<init>(ChecksumFileSystem.java:142) at org.apache.hadoop.fs.ChecksumFileSystem.open(ChecksumFileSystem.java:346) at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:769).......(略)
结论:
pyspark下默认为集群模式(spark-shell等均相同),
如果你是在集群的环境下运行,必须确保所有的节点上的同个文件夹都有该文件,即你这台物理即上和其他集群物理机上在相同的路径下有相同的文件(试过路径加file://和不加都一样),或者你可以使用HDFS
(例sc.textFile(“hdfs://master:9000/workdir/testfile”))就不会出现此问题
2.使用spark-submit
local模式:
conf = SparkConf().setMaster("local").setAppName("My test")
使用hdfs 和 本地都可以
集群模式:
conf=SparkConf().setMaster("spark://master:7077").setAppName("My test")
结果与使用pyspark相同
阅读全文
0 0
- spark学习:1.textFile函数
- Spark textFile
- Spark源码解析之textFile
- Spark中join,union,textFile
- spark textFile 困惑与解释
- TextFile
- Spark Core: sc.textFile vs sc.WholeTextFiles
- Spark从外部读取数据之textFile
- Spark从外部读取数据之textFile
- Spark从外部读取数据之textFile
- Spark算子[05]:parallelize,makeRDD,textFile
- iOS学习 textFile的键盘
- Spark学习(函数)
- hive 0.12读取textfile函数调用栈
- spark中的SparkContext实例的textFile使用的小技巧
- spark中的SparkContext实例的textFile使用的小技巧
- spark中的SparkContext的textFile使用的小窍门
- Spark sc.textFile(...).map(...).count() 执行完整流程
- 金币阵列问题
- 【驱动】GPIO寄存器配置总结
- Gym 101485D 记忆化搜索
- git的常用命令
- 9.5训练日志
- spark学习:1.textFile函数
- Process returned -1073741571 (0xC00000FD) Program received signal SIGSEGV, Segmentation fault.
- jinja2的多继承和多层继承
- 【Java虚拟机】之四 类加载机制
- 关于多态
- 整理的关于DOM的表格(二)
- mysql用户权限管理
- xargs 用法
- 杭电acm45