相关关系与因果关系之探讨——大数据时代读后感(1)

来源:互联网 发布:java ffmpeg 视频转码 编辑:程序博客网 时间:2024/06/05 11:42

        维克托.迈尔.舍恩伯格的《大数据时代》一书如雷贯耳,决心要拜读一番。本打算读英文原版,考虑到时间有限,中文版的也许看得快一些,所以还是读中文版的吧。简单读了几页之后,发现无论译者周涛的文笔,还是其在序言和译文中展现的思路,都令人耳目一新。看来中文翻译确实有做得很好的。

        序言中关于“相关关系比因果关系更重要”这个问题就让我纠结起来。译者表示,其不太赞同作者的这个观点。作者的观点是,在海量的没有什么规律的数据中,发现其相关性,必研究这些相关性之间的原因更为要。拿身边的例子讲,通过对海量的住房交易记录进行分析,人们发现了月份与房屋交易量之间的这样一个相关性“金九银十”,也就是说,九月和十月是住房交易的黄金季节。但是为什么会这样,则似乎很少有人在意。这是否是作者观点的一个例子?而译者的反对观点,则表述得很清楚:“认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。”

        诚如作者所说,机器学习是只注重相关性而不注重结果的一个典型代表。本人曾研究过一段时间的机器学习,主要是分析编译器优化相关的内容,就是程序的特征值与编译器的优化选择之间的关系。通过大量的训练数据,以达到能自动为程序选择优化的编译选项的目的。而特征值与优化选项之间的因果关系,确实没有关注过。至于为什么没有关注,是因为其原因过于复杂,牵涉到cache结构、内存大小、指令特点等体系结构相关的问题,无法有一个模型来描述这种因果关系。

        因此,个人的观点是:因果关系很重要,但是在没有能力研究出因果关系的情况下,只能先分析出相关性了,至于因果关系,可以暂时搁置,留待下一代人的智慧来解决。