[hadoop+spark+python]大数据实战随手笔记

来源：互联网发布：access2003数据库教程编辑：程序博客网时间：2024/05/22 10:57

1.提交任务
指令(我配置了spark-submit的环境变量)

spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.12.233:7077 --executor-memory 10G --total-executor-cores 10  fielname

逐条解释如下:
(1)–class org.apache.spark.examples.SparkPi
设置运行的环境,java或者yarn
(2)–master spark://192.168.12.233:7077
设置spark服务的地址,格式为 spark:// +
(3)–executor-memory 10G
分配内存,这个属性每个worker都会分配10G,根据实际情况分配
(4)–total-executor-cores 10
分配运行cpu核数,不超过总核数即可
(5)fielname
要运行的文件,相对路径或者绝对路径都可以,如果是python文件一定要能在命令行环境运行,requirment和包环境都要满足才行,我一般是把项目打包写好setup.py先编译一遍在运行主程序

阅读全文

0 0

[hadoop+spark+python]大数据实战随手笔记
大数据Spark企业级实战版【学习笔记】---Spark简介
大数据Spark企业级实战版【学习笔记】----Spark术语
大数据Spark企业级实战版【学习笔记】----Spark Streaming
大数据Spark企业级实战版【学习笔记】----Spark Streaming
1 大数据实战系列-spark+hadoop集成环境搭建
基于hadoop与spark的大数据分析实战——第一章 Hadoop部署与实践
大数据Spark企业级实战版【学习笔记】----Spark技术生态系统之Spark Core
大数据Spark企业级实战版【学习笔记】----Spark Shark& Spark SQL
hadoop,spark,大数据,数据分析,实战内部培训视频资料价值Ｗ＋
大数据Spark企业级实战版【学习笔记】----Spark R& MLBase
大数据Spark企业级实战版【学习笔记】----Spark速度为何如此快
大数据Spark企业级实战版【学习笔记】-----Spark Streaming 的构架
大数据Spark企业级实战版【学习笔记】-----Spark Streaming的编程模式
大数据Spark企业级实战版【学习笔记】-----Spark Streaming案例分析
大数据Spark企业级实战版【学习笔记】-----交互式SQL处理框架Spark SQL
【备忘】基于Hadoop，Spark大数据技术的推荐系统算法实战教程
【备忘】基于Hadoop，Spark大数据技术的推荐系统算法实战教程
redis的持久化方式RDB和AOF的区别
2017-08-08 DBA日记，使用python模拟高并发访问数据库
获取资源文件， Android res getIdentifier
阿里云OSS上传thinkphp
seg_accuracy_layer.cpp
[hadoop+spark+python]大数据实战随手笔记
windows7+caffe 仅CPU
Python常用操作（二）之文件处理
使用递归-分治方法解决汉诺塔问题
关于低功耗蓝牙的连接参数更新
redis分布式缓存实现
系统默认路径位置
高性能Js—加载及执行
Js中将字符串转为对象或数组的方法