我的SPARK学习之旅

来源:互联网 发布:临时水电计算软件 编辑:程序博客网 时间:2024/06/06 21:05

这是一个总体的规划:

从这里http://spark.apache.org/ 开始。

1、大致了解Spark

2、学习MLlib

  • 基于DataFrame的ML包,和基于RDD的MLlib包的选择(选后者,公司调试方便,后期可以试试前者)
  • 每个算法,研究算法的理论知识、调包实现、参数调节、注意事项、优劣点、Scala源码(重中之重)

3、疑问点、待学习的知识点的记录笔记


0 0