spark数据导入导出
来源:互联网 发布:网络语168是什么意思 编辑:程序博客网 时间:2024/05/29 07:03
【场景】
1、数据导入:结构化数据,hive中
2、代码提交:
(1) spark-shell的方式
(2) spark-submit的方式,代码已经编译好。
(3) zeppelin,spark编码的方式
3、数据输出:
(1) csv,json
(2) 本地化,hive
【实现】
1、spark-shell:
交互式编程,涉及到外包包依赖时,将需要的jar包都下载好,spark-shell执行的时候,指定依赖的jars。
一般在idea里面写好代码,粘到spark-shell分步执行调试。
./spark-shell --master yarn-client --jars /home/xx/xx/spark-csv_2.10-1.5.0.jar,/home/xx/xx/commons-csv-1.1.jar,/home/xx/xx/univocity-parsers-1.5.1.jar --num-executors 6 --executor-memory 4g
2、spark-submit:
(1)、直接编码,依赖包直接包含。
(2)、通过spark-submit提交任务,指定执行的jar包,主类,调节资源分配等参数。
(3)、spark job相关的配置,如果在spark-submit中和jar包代码中都设置了,会使用代码中的设置。
./spark-submit --class xxx --driver-memory 4g --num-executors 6 --executor-memory 4g /home/xx/xx/xx-1.0-SNAPSHOT-jar-with-dependencies.jar
3、zeppelin
(1) 参数通过解释插件来配置。
(2) spark job提交的时候,后台还是调用的spark-shell。所以sc,sqlContext变量也可以直接使用。
【输出】
1、csv、json:dataframe.write.format.save
通过spark-shell直接提交的时候,如果输出格式是csv,则需要带上csv相关的几个jar包。
2、本地化、hive保存:
通过hadoop的filesystem相关的api,将数据从hive保存到本地文件系统。
- spark数据导入导出
- oracle10g数据导入导入导出
- SQL数据导入导出
- 数据导入导出
- Oracle数据导入导出
- MySQL--数据导入导出
- 重要数据导入导出
- 数据的导入导出
- 数据导入导出
- SQL数据导入导出
- excel导入、导出数据
- 导出导入MySql数据
- 数据导入导出大全
- mysql导出、导入数据
- SQL数据导入导出
- 数据导入导出
- Oracle数据导入导出
- 数据导入与导出
- Golang 依赖包下载时候代理设置
- VC6.0编译jpeglib库
- C++ golang Centos7.4 vim 编码环境
- 图像处理中的采样与量化
- java springMVC session与cookie
- spark数据导入导出
- js window.onlload 自遐想
- window对象
- 【Tools】Windows创建WIFI热点
- Spring boot
- nodejs基础教程-简单blog(3)-vue
- 有AI加持的这款智能运动耳机,不信你high不起来!
- 太给力!“千校计划”助力培养百万3D小创客
- 聆听自然之声,业内首款全实木动圈耳机上线