大数据分析处理实践的一点心得

来源:互联网 发布:看电影啥软件好? 编辑:程序博客网 时间:2024/05/18 02:17

最近的项目中,需要对海量的原始数据进行加工处理。并且数据的来源也不尽相同,数据处理链条很长。针对这种实际应用中的场景,有几点小小的新的体会,特意总结一下。

1.最重要的是,编码之前尽可能多地搞清楚原始数据各字段的含义。越是原始数据复杂,越是数据多,越是数据大,越是需要从业务角度理解数据的含义。否则可能因为一个小小的细节,会让你痛不欲生,白白浪费好多时间,而且debug过程的痛苦,你懂的。
2.编码前,尽可能定义清楚所需要的数据结构。经典理论里面的编码就是算法+数据结构,由此可见数据结构的重要性。
3.个人的观点是项目开始阶段,数据结构越简单越好,这样编码的难度,代码的可读性以及可维护性都比较好。使用复杂数据结构的好处就是方便以后的扩展,大部分时候,我们项目的复杂度不会太高,所以初始阶段还是采用简单的数据结构为好。
4.数据量大了以后跑一个MR任务或者Spark任务的代价都不小。快的话十分钟,慢的话一个小时甚至几个小时,而且还需要依赖集群的资源。这个时候,可以采用抽样的方式先快速观察代码的输出,以提高调试效率。另外,尽可能减少不必要的输入数据,注意集群的日志输出,也非常重要。

先想到这么几点,以后有心得再补充。

0 0
原创粉丝点击