大数据时代(一)观念的转变

来源:互联网 发布:处理淘宝中差评公司 编辑:程序博客网 时间:2024/05/02 15:58

       大数据时代,数据的收集存储能力得到了大幅度的提升,计算机硬件更新换代的速度更成为了驱动大数据向前发展的强大动力,要想不被时代所抛弃,我们必须紧跟它的脚步,而首当其冲的便是我们观念的改变。就如当初改革开放一般,只有从思想上发生转变才有机会真正的发展,视线才能放远,视野才能开阔。
 全体
       在大数据时代,我们有大量的数据,快速的处理器,拥有这些有利条件,我们可以尽可能多地利用收集到的数据,甚至是全体数据,我们不必像以前一样拘泥于少的可怜的内存,如今我们可以用内存换速度,极大化我们对大量数据处理的能力。我们不必像以前一样挑选出有代表意义的数据进行分析,那样我们无法看到更多的细节,甚至在数据挑选阶段就加入了我们的个人偏见,对于“数据废气”我们不必再抛弃,我们也可将其收集作为数据的一部分进行收集,使“全体”数据更丰富充实。基于大数据,我们利用简单的算法就能达到当初基于小数据的复杂算法达到的目的。因此我们要将野心放大,不要局限于小数据的思维,更多的数据暗含着更多的未知与信息。数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。对大数据全体进行挖掘,使数据利益最大化。
 混杂
       大数据之中难以避免混杂着错误与混乱的信息,对每一个错误与混乱的信息进行处理的成本无疑十分巨大。但是我们是否想过错误与混乱只是我们依据主流观点进行的一项判断,错误与混乱的信息也是信息,当我们换个角度思考也许当初认为的错误与混乱的信息拥有着极大的利用价值,凡是信息,既有其存在的价值。再者,在许多技术和社会领域,我们更倾向于纷繁混杂。据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个从未涉足的世界的窗户。大数据混杂的价值就像印象派的画风一样,近看画中的每一笔都感觉是混乱的,但是退后一步你就会发现这是一幅伟大的作品,因为你退后一步的时候就能看出画作的整体思路了。
相关
       “我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系”这一点在《Big Date:大数据时代》一书中提出却饱受争议。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。书中认为,拥有了大数据,我们不需要再对一个现象刨根究底,只要掌握大体的发展方向即可。相关关系的核心是量化两个数据值之间的数理关系,诚然这样可以直观的得到我们需要的趋势,但是我们无法得知是谁驱动了谁,也即两者之间的因果关系,而谁驱动了谁这一点可谓是预测之中的重中之重,如果否定了因果关系,也就否定了这一点,而预测就是无稽之谈了。
其次,对于相关关系与因果关系的探求,我觉得导弹系统的在线算法与离线算法可以比较好的用来分析。在线算法灵活,容易调整参数和模型,但速度慢。在线算法对应于寻求相关关系,能灵活的应对各种数据,得到较好的预测模型。离线算法事先计算好,实时使用查询方式,不需计算,速度极快。离线算法对应于寻求因果关系,有了因果关系我们只需将数据作为“因”,而“果”便可不费吹灰之力得到,当然寻求因果关系的途中需要耗费较多的让人力与物力。
       寻求相关与因果各有千秋, 我觉得不应该完全的偏向一方,万事不能太绝对,面对大数据时代,我们应该灵活的运用两种方式,最大化挖掘与利用数据。
0 0
原创粉丝点击