spark小事记
来源:互联网 发布:js 判断数组 编辑:程序博客网 时间:2024/05/22 11:53
最近在使用spark的过程中遇到一些小事,特此记录
减少运行过程中INFO信息的输出
- 刚刚上手spark,发现执行任意一条指令的时候,就会有铺天盖地的INFO信息输出,这样往往会掩盖程序输出的结果。为了解决此问题,我们可以对spark做出如下修改:
cd spark/confmv log4j.properties.template log4j.properties
将conf
目录下的log4j.properties.template
文件改名为log4j.properties
之后,只需要将后者内容的INFO
全部改为WARN
即可大大限制INFO信息
的输出,这样程序结果就会更加明显,便于观察
提交任务给spark执行
- 下面是一个简单的例子
from pyspark import SparkContextlogFile = "README.md" # Should be some file on your systemsc = SparkContext("local", "Simple App")logData = sc.textFile(logFile).cache()numAs = logData.filter(lambda s: 'a' in s).count()numBs = logData.filter(lambda s: 'b' in s).count()print("Lines with a: %i, lines with b: %i" % (numAs, numBs))
该程序的功能是计数
README.md
文件中字符a
和b
分别出现的次数将
simpleApp.py
以spark-submit
方式提交给spark执行
[zzq@cruise spark]$ ./bin/spark-submit simpleApp.py 15/10/27 22:17:57 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable15/10/27 22:17:59 WARN MetricsSystem: Using default name DAGScheduler for source because spark.app.id is not set.Lines with a: 60, lines with b: 29
- 以上是程序的运行结果。今后还会对spark进行诸多尝试
0 0
- spark小事记
- 开发小事记-4.21
- 人生小事记
- 过年小事记
- android小事记
- php小事日常记
- 小事
- 小事
- 小事
- 小事
- 小事
- 小事
- 记一则很bug的小事
- 记一次log4j日志文件小事故
- qt小事记2——菜单栏
- 决定将所有小事,偶发的小问题,spark,及其解决方案,全作为一种记录,发到博客上。
- 记今天看到的和做的小事
- 心情小事
- 5.变址寄存器-ESI和EDI寄存器与其用途
- SQL语句优化技术分析
- disk management
- LoadRunner参数化详解
- 怎么修改button切换选中状态的时候背景出现一个小蓝点的问题
- spark小事记
- HDU4607(最大直径 树DP)
- 工作中遇见的问题总结
- SQL中GROUP BY、HAVING操作
- hdoj Minimum Transport Cost 1385 (floyd++路径输出)
- mfc ocx 控件开发需要注意的问题
- POJ 3274:Gold Balanced Lineup 做了两个小时的哈希
- iOS轻量级多线程实现
- Java基础文章列表