spark第2天

来源:互联网 发布:杭州淘宝模特培训学校 编辑:程序博客网 时间:2024/05/15 10:19

接上文,讲到IntelliJ IDEA 2017教程
导入maven项目、新建项目、导入GitHub项目、个性化配置中安装插件以及配置自己的 Maven 插件等等。这里列举的都是以后可以再回过头参考的链接,还有快捷键等也可以回去在目录中进去这里就不一一列举。


在简书网站中发现另一个IntelliJ IDEA 教程,版本是2017.2,比上一个2017.1更新,也看了一下。有关于汉化、编写java类、编写jsp、新建数据库、新建maven项目等可以做参考。


于是再次回到我看到的第一篇文章,已经非常遥远了(在时间上)。列出接下来文章的一些信息点:

  • building spark

building spark官网文档

在将 Spark 工程导入 IDEA 之前,最好先 build 一遍Spark,至少完成编译步骤。这是因为编译过程中还会自动生成一些源码。尤其是 Spark 2.0中 SQL parser 改用 ANTLR实现。如果不经编译直接将工程导入 IDEA,parser 相关的 class 会出现引用缺失。

build Spark 其实不需要单独安装 Scala 和 SBT。Spark 源码中的 build/sbt 脚本会自动下载指定版本的 SBT,而 SBT 在 build Spark 的过程中又会自动下载指定版本的 Scala。所以除非你需要脱离 Spark 单独使用Scala,否则无须另行安装。对于 Maven,build/mvn 脚本的行为也类似。

  • 工程导入

Spark 同时使用 Maven 和 SBT 两套 build 系统,用 Maven 和 SBT 都可以顺利导入。博主个人倾向:工程导入用 Maven,build 和 test 用 SBT。

maven导入IDEA工程:File / Open,选定 Spark 根目录下的 pom.xml,确定即可。

  • 调试

如何在 IDEA 中调试 Spark:远程调试。文中以监听模式(listen mode)为例演示如何在 IDEA 内“远程”调试本地 SBT 内启动的 Spark test case。


此网页上的第二篇文章分享了Windows + IDEA + SBT 打造Spark源码阅读环境。其中提供了各类所需工具的下载链接,如IDEA、Git、Scala、sbt以及Spark Source Code(Spark源码)等(准备动手了就在这里开始)。


此网页上的第三篇文章,带着走了一遍官网源码的Apache Spark 源码阅读流程。可以跟着走一遍。


网页第四篇文章,让我觉得之前的功课都白做了,文中说道:

文章针对的是需要了解 spark 源码的情况下的开发环境配置。如果只是需要写 spark job, 而并不想trace到源码里面去看运行上下文, 那么有很多资料讲这个的了: 无非是下载 spark 的 jar, 新建一个 scala/python/R 项目,花式把这个 jar 设置成依赖就可以开始写了。具体怎么运行 spark job, 在官方文档中已经写得很清楚了。

我不禁怀疑是不是就不应该进入这个“阅读spark源码”的这个坑当中?而是乖乖看个跑spark job的实例?除此之外,和第三篇类似,可以对比着来。


第五篇文章也是和第三、四篇一样,Spark源码分析调试环境搭建。

今天就到这里啦\(^o^)/~明天继续把马住的教程浏览一遍,然后用其他关键词搜一搜。尽量把各种软件先下一下,干脆用最新的耶无所谓,大不了卸了再装QAQ。
阅读全文
0 0
原创粉丝点击