许鹏-Spark源代码阅读经验和C++经典书籍资料推荐

来源：互联网发布：建筑业网络快报编辑：程序博客网时间：2024/06/05 20:52

CSDN：多年C和C++项目开发及管理，有什么经验可以分享给这个领域的工作者？在程序员修养方面，他们又应该注意什么，多学些什么，多看些什么？

许鹏：尽管从事C和C++开发多年，我还是不敢说自己非常精通。有的只是一点点的感悟和体会，如果是进行Linux平台下的C语言开发，最好还是就下面几个问题多做一些试验，多读一些相关的书。

1. 程序的运行和加载，推荐程序员的自我修养一书。

2. 内存分配，推荐阅读Ptmalloc源码分析，无论是C还是C++程序员，这一部分是最容易踩雷的，多读一点基础的东西，会在解决实际问题的时候，不至于手足无措。以这些为基础，再结合Valgrind或Purify，相信效果会更好。

3. 多读一点C和C++开发的成功产品，如Apache Http Server和Nginx，这样就容易搞清楚在设计一个系统的时候需要有哪些关注点。

是单进程还是多进程，是单进程多线程还是多进程单线程
进程间通信采用什么方式
消息的encoding/decoding以及message passing，每次都要自己写一次，不累吗，有没有好的开源实现，如Protobuffer、Thrift
对于一个Network Server来说，基本构架大体上还是相同的，acceptor→dispatcher→worker

4. 《深入理解计算机系统》真的是一本非常不错的书，为什么要这么说，软件的设计还是要以物理设备支持的特性为基础的，这本书让我们在CPU的级别来进一步思考程序设计。

阅读源代码的经验

CSDN：大量开源项目使用和学习经验，您对开源运动怎么看？如何才能更好的学习一个开源项目？开源项目使用时又该注意些什么？

许鹏： 开源项目离不开大家的广泛参与和支持，要让一个开源项目取得成功，有多个方面的因素。

产品本身的创新功能
在实际项目中的应用和推广，业界大佬企业的积极参与
教育培训市场的积极跟进，也是一个开源项目最终能够长久生存下来的必备因素

CSDN：能否分享一些您对当下大数据的看法？

许鹏： 大数据要解决的两大基本问题是“数据存储”和“数据分析”，在数据存储领域，开源实现方面似乎大家都已经首肯HDFS的方式，不再怀疑。

而在数据分析的计算框架方面，目前还有大量的竞争或博弈出现。Spark就是一例，分析领域除了基于传统关系型数据库的分析方式，还有图计算相关和机器学习为代表的数据挖掘。显然机器学习是一个大热门，这一方面个人所知甚少，不敢胡说八道，但门槛似乎很高，数学底子一定要好，决不是简简单单的调用几个API就完事了的。

云计算是大数据的支撑，虽然脱胎于虚拟化，不乏商业宣传的味道，但是大量机器的安装部署，如果全部使用物理机一台台去装，肯定会让人发疯，云计算让大规模部署和产品迁移变的更为简单。

CSDN：对于阅读源码您有着丰富的经验，对想阅读源码又不知道如何下手的同学可否做一些分享？

许鹏： 源码阅读其实是一个逆向的工程，这期间必须会遇到种种问题。一般来说，我会遵循这样一个思维范式——Problem domain→model→architecture&implementation→improvement→best practice。

1. 首先搞清楚要分析的产品解决的问题是什么，这个问题在哪个大的范畴里，也就是要搞清楚problem domain。一个著名的开源产品必定在Wikipedia上有相应的条目，所以一开始去看wikipedia是破题的一种极好方式。

2. 清楚要分析产品的大体框架和关键性的概念，也就是理解清楚architecture和key concept。

3. 将分析的产品实实在在的运行起来，我一般选择debian或archlinux作为工作平台，它们提供了丰富的软件包，可以很快的将东西安装并运行。熟悉Linux本身对于开源项目的源码阅读还是大有裨益的。

4. 修改日志级别，得到丰富的日志信息。有了这个为基础，再来开始真正的源码阅读和分析。

5. 源码分析的时候，要始终问这几个问题。

进程以及线程的启动顺序
搞清楚调用关系call flow

这一部分代码是在同一个进程中么，同一个线程中么，运行在同一台机器中么
每一个线程都要问清楚，什么时候启动的，什么时候停止的

消息传递的路径，针对每一个函数，搞清楚，input是谁传给我的，output要传给谁，由哪个来传
搞清楚上述的问题之后，就将最开始提到的对architecture的了解做到具体而微了。有了这个基础之后，再继续往下问

当前实现的性能如何，比如i/o, cpu, network 这个需要做相应的测试方面的试验
当前的解决方案还有优化空间吗，比如针对spark中的scheduling问题，就有sparrow的优化机制提出

6. 碰到具体的问题一时解决不了怎么办

用好google，用好stackoverflow
将碰到的问题模型化，写一些验证性的代码，或者是写一个小的demo来验证，我在解决许多很妖的bug，也是采用类似的思路
找到相应的用户论坛，发帖虚心请教
如果还是不行，就先搁一搁，去看能看懂的地方

7. 编程语言选择

源码阅读中可能遇到的一个问题就是这个语言是新近出来的，我根本没学过，我需要系统去掌握该语言之后，才能来看源码么。我的看法是可以边看边学，在掌握语言的过程中，牢牢把握住这几个问题

基本语法：数据类型、控制语句、函数定义
是否支持FP
多态和继承

现代编程语言基本上都混合了面向过程，面向对象和函数式编程的特点，即便是C++或新近的java8都如此。
Storm用Clojure来编写，而Spark使用Scala，就语言的偏好来说，我更喜欢Clojure一些。

稍微总结一下，我想源码分析心中要有两幅大图，将整体与局部很好的结合起来思考

一是太极图，要有整体性的思维，要对architecture有掌握，对其在整个生态系统中的定位要清楚，东方式的思维强调整体性
二是数学中常见的笛卡尔坐标体系，将大的问题拆分之后一一研究，做到具体而微，西方式的思维强调个性

0 0