大数据语录 节选

来源:互联网 发布:前锦网络信息技术公司 编辑:程序博客网 时间:2024/06/06 04:33

学习大数据,要清楚大数据能做什么,不擅长做什么,大数据不是万金油。

首先粗略了解下大数据:

大数据目前的技术和应用都是在数据分析、数据仓库等方面,主要针对OLAP(OnlineAnalyticalSystem),从技术角度来说,包含我总结的两条腿:一条腿是批量数据处理(包括MR、MPP等),另一条腿实时数据流处理(Storm、内存数据库等)。 
  在此基础上,部分场景又发现MR框架或实时框架不能很好的满足近线、迭代的挖掘需要,故又产生了目前非常火的基于内存数据处理Spark框架。很多企业目前的大数据框架是,一方面以Hadoop2.0之上的Hive、Pig框架处理底层的数据加工和处理,把按照业务逻辑处理完的数据直接送入到应用数据库中;另一方面以Storm流处理引擎处理实时的数据,根据业务营销的规则触发相应的营销场景。同时,用基于Spark处理技术集群满足对于实时数据加工、挖掘的需求。 
  以上描述可以看出,大数据说白了就是还没有进入真正的交易系统,没有在OLTP(OnlineTransactionsystem)方面做出太大的贡献。至于很多文章把大数据和物联网、泛在网、智慧城市都联系在一起,我认为大数据不过是条件之一,其余的OLTP系统是否具备,物理网络甚至组织架构都是重要因素。 
  最后还想说,大数据处理技术,再炫如Google的Dataflow或成熟如Hadoop2.0、数据仓库、Storm等,本质上都是数据加工工具,对于很多工程师来说,只需要把数据处理流程搞清楚就可以了,在这个平台上可以用固定的模版和脚本进行数据加工已经足够。毕竟数据的价值70%以上是对业务应用而言的,一个炫词对于业务如果没有帮助,终将只是屠龙之术。任何技术、IT架构都要符合业务规划、符合业务发展的要求,否则技术只会妨碍业务和生产力的发展。


2、大数据落地面临的困难 
  应该说,全球来看,对大数据认识、研究和应用还都处于初期阶段。特别是对我国来说,大数据真正落地,还需要迈过三道坎。   

1)数据是否足够丰富和开放 
  丰富的数据源是大数据产业发展的前提。而我国数字化的数据资源总量远远低于美欧,每年新增数据量仅为美国的7%,欧洲的12%,其中政府和制造业的数据资源积累远远落后于国外。就已有有限的数据资源来说,还存在标准化、准确性、完整性低,利用价值不高的情况,这大大降低了数据的价值。 
  同时,我国政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,系统之间缺乏统一的标准,形成了众多“信息孤岛”,而且受行政垄断和商业利益所限,数据开放程度较低,以邻为壑、共享难,这给数据利用造成极大障碍。制约我国数据资源开放和共享的一个重要因素是政策法规不完善,大数据挖掘缺乏相应的立法,无法既保证共享又防止滥用,一方面欠缺推动政府和公共数据的政策,另一方面数据保护和隐私保护方面的制度不完善抑制了开放的积极性。因此,建立一个良性发展的数据共享生态系统,是我国大数据发展需要迈过去的第一道砍。 
  2)是否掌握强大的数据分析工具 
  要以低成本和可扩展的方式处理大数据,这就需要对整个IT架构进行重构,开发先进的软件平台和算法。这方面,国外又一次走在我们前面。特别是近年来以开源模式发展起来的Hadoop等大数据处理软件平台,及其相关产业已经在美国初步形成。 
  而我国数据处理技术基础薄弱,总体上以跟随为主,难以满足大数据大规模应用的需求。如果把大数据比作石油,那数据分析工具就是勘探、钻井、提炼、加工的技术。我国必须掌握大数据关键技术,才能将资源转化为价值。应该说,要迈过这道坎,开源技术为我们提供了很好的基础。 
  

3)管理理念和运作方式能否适配数据化决策 
  大数据开发的根本目的是以数据分析为基础,帮助人们做出更明智的决策,优化企业和社会运转。哈佛商业评论说,大数据本质上是“一场管理革命”。大数据时代的决策不能仅凭经验,而真正要“拿数据说话”。因此,大数据能够真正发挥作用,深层次看,还要改善我们的管理模式,需要管理方式和架构的与大数据技术工具相适配。这或许是我们最难迈过的一道坎了。



0 0
原创粉丝点击