[hadoop+spark+python]大数据实战随手笔记
来源:互联网 发布:access2003数据库教程 编辑:程序博客网 时间:2024/05/22 10:57
1.提交任务
指令(我配置了spark-submit的环境变量)
spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.12.233:7077 --executor-memory 10G --total-executor-cores 10 fielname
- 逐条解释如下:
(1)–class org.apache.spark.examples.SparkPi
设置运行的环境,java或者yarn
(2)–master spark://192.168.12.233:7077
设置spark服务的地址,格式为 spark:// +
(3)–executor-memory 10G
分配内存,这个属性每个worker都会分配10G,根据实际情况分配
(4)–total-executor-cores 10
分配运行cpu核数,不超过总核数即可
(5)fielname
要运行的文件,相对路径或者绝对路径都可以,如果是python文件一定要能在命令行环境运行,requirment和包环境都要满足才行,我一般是把项目打包写好setup.py先编译一遍在运行主程序
阅读全文
0 0
- [hadoop+spark+python]大数据实战随手笔记
- 大数据Spark企业级实战版【学习笔记】---Spark简介
- 大数据Spark企业级实战版【学习笔记】----Spark术语
- 大数据Spark企业级实战版【学习笔记】----Spark Streaming
- 大数据Spark企业级实战版【学习笔记】----Spark Streaming
- 1 大数据实战系列-spark+hadoop集成环境搭建
- 基于hadoop与spark的大数据分析实战——第一章 Hadoop部署与实践
- 大数据Spark企业级实战版【学习笔记】----Spark技术生态系统之Spark Core
- 大数据Spark企业级实战版【学习笔记】----Spark Shark& Spark SQL
- hadoop,spark,大数据,数据分析,实战内部培训视频资料价值W+
- 大数据Spark企业级实战版【学习笔记】----Spark R& MLBase
- 大数据Spark企业级实战版【学习笔记】----Spark速度为何如此快
- 大数据Spark企业级实战版【学习笔记】-----Spark Streaming 的构架
- 大数据Spark企业级实战版【学习笔记】-----Spark Streaming的编程模式
- 大数据Spark企业级实战版【学习笔记】-----Spark Streaming案例分析
- 大数据Spark企业级实战版【学习笔记】-----交互式SQL处理框架Spark SQL
- 【备忘】基于Hadoop,Spark大数据技术的推荐系统算法实战教程
- 【备忘】基于Hadoop,Spark大数据技术的推荐系统算法实战教程
- redis的持久化方式RDB和AOF的区别
- 2017-08-08 DBA日记,使用python模拟高并发访问数据库
- 获取资源文件, Android res getIdentifier
- 阿里云OSS上传thinkphp
- seg_accuracy_layer.cpp
- [hadoop+spark+python]大数据实战随手笔记
- windows7+caffe 仅CPU
- Python常用操作(二)之文件处理
- 使用递归-分治方法解决汉诺塔问题
- 关于低功耗蓝牙的连接参数更新
- redis分布式缓存实现
- 系统默认路径位置
- 高性能Js—加载及执行
- Js中将字符串转为对象或数组的方法