读《大数据日知录:架构与算法》感想

来源:互联网 发布:工业数据库 编辑:程序博客网 时间:2024/05/16 19:37

        综观社会发展的趋势,很明显大数据会是目前肉眼可及的视野范围里能看到的最大趋势之一。大数据已经成为当今企业的核心竞争力,拥有大数据并智慧地使用和运营数据成为企业不可缺少的成功要素。从传统IT业到互联网、互联网到移动互联网,从以智能手机和Pad为主要终端载体的移动互联网到可穿戴设备的移动互联网,然后再到万物互联的物联网,这一定是不可违抗的发展规律和前进方向。伴随着这个趋势必然有越来越多、形态越来越丰富的超量数据不断产生,而大数据明显是由此衍生出来的明确且必然的发展趋势。如今,谷歌、淘宝、百度、京东等底层都应用大数据处理技术,越来越多的企业急需引入大数据的技术人才。

        现今,大数据已经不再是计算、统计学科的专宠,它已经深入贯彻到各行业。我接触到的大数据处理技术主要是Hadoop,它是一个分布式系统架构,是Appach的一个用java语言实现的开源软件框架。Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

       目前作为一名技术开发人员,我最想了解的大数据架构应该是底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。通过对底层原理知识的掌握,在项目开发实践中慢慢应用,积累相关经验,目前,海量数据日志数据处理、海量数据存储、大规模数据处理一直是我最想了解和深入的大数据架构,由于在开发项目中目前还没有用到这些技术,不过我认为要想以后进大公司,在公司发展的话,掌握大数据的处理技术是相当有必要的。

       Hadoop扩容能力强、成本低、高效率、可靠性好,项目开发中在云计算中用Hadoop 架构的比较多,业界曾这样形容:Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理);它主要是包括:HDFS分布式文件系统、HBase分布式数据库以及MapReduce API(Map,Reduce),借助Hadoop 框架及云计算
核心技术MapReduce 来实现数据的计算和存储,并且将HDFS 分布式文件系统和HBase 分布式数据库很好的融入到云计算框架中,从而实现云计算的分布式、并行计算和存储,并且得以实现很好的处理大规模数据的能力。类似于Hadoop这种大型数据处理的架构和方式,越来越多的大型电商、企业、公司都运用到了大数据处理,因此,大数据处理必将在未来的互联网发展中,占有举足轻重的作用,它会提高企业的核心竞争力和产品竞争力,在某种层次上,越来越多的企业急需引入大型数据处理相关的技术人才。随着云技术的发展,互联网行业变化的日新月异,这种大数据处理肯定会引入到企业、公司等的大型项目当中去。由于现在还没有真正做到简单实用,致使人才缺失严重,很多技术人才在项目中并没有真正用到大数据的处理,因此,这需要很多技术人员不断学习和加强自身能力,包括有志向在大型公司发展的也需要好好学习了,另外,各高校或技术培训学校在传道授业的时候,大数据处理并没有开展起来,所以在技术人才上面的培养上,还应不断的深入和贯彻。

      通过试读《大数据日知录:架构与算法》,对于大数据处理中图数据技术和大数据的算法、架构有了一定的了解。书中讲到图数据处理一般通过在线查询和离线挖掘两种方式,本章通过的Facebook的TAO为例,介绍了图数据处理的基本设计思路,如何对百亿级图数据进行数据分片、图计算的计算泛型与编程模型,以及若干具有代表性的图数据库系统。章节中详细介绍了在线查询类图数据库体系的三层架构、TAO图数据库的架构、关系、在进行读写等方面的特点、常见的图挖掘问题;阐述了比如:单源最短路径算法、二部图最大匹配、切边法、切点法等数据算法;以及一些诸如:GAS的数据处理模型、同步执行模型、异步执行模型等模型的特点;书中对相关算法和模型介绍详细,在结尾,对于算法通过编程代码的方式展示给读者,一目了然,书中深入浅出,包罗万象的介绍了大数据处理的相关技术,从数据、算法、策略、应用和系统架构等多个维度进行剖析,是一本值得阅读和学习的好书籍。

0 0