初步学习大数据

来源:互联网 发布:淘宝金牌卖家入口 编辑:程序博客网 时间:2024/06/03 12:12

大数据时代的到来
  计算机技术不断增长,数字传感器技术不断进步,使得信息更容易被获取采集,各行各业的各种数据都在飞速增长,每天都会产生大量的数据,数据的总量更是变得非常庞大,数据的计量单位也从Byte、KB、MB、 GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB。而这些海量数据,则促进了大数据时代的到来。
  最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

数据的结构
  在开始接触大数据之前,不妨先了解了解数据的分类。在大数据中,数据包括结构化,半结构化和非结构化数据。其中非结构化数据指的是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。看了这个定义,我们不难发现,这不就是我们生活中、工作中无时无刻不在产生的数据吗?这些数据没有格式,没有统一的规范,单个来看,似乎没有一点意义,但是把海量的这种类型的数据结合起来,便蕴含了无尽的信息。由此,非结构化数据越来越成为数据的主要部分,据IDC的调查报告显示,企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

大数据是什么?
  对于“大数据”(Big data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

特点
  上面也提到了大数据的四个“V”,即Volume,Variety,Value,Velocity,分别指的是数据量大,数据类型繁多,价值密度低,处理速度快、时效要求高。大数据也有一些其他的特点,比如可变性(Variability),真实性(Veracity),复杂性(Complexity)等等。

大数据与云计算
  大数据的数据量如此庞大,必然无法用人脑来推算估测,甚至也无法用单台计算机处理,必须采用分布式计算架构,依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术,因此,大数据的挖掘和处理必须要使用到云技术。

大数据需要的技术
  首先,便是云计算,这在上面已经提到了。除了云技术之外,还需要分布式处理技术。分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务。比如,常用的框架Hadoop,它实现了MapReduce模式,能够对大量数据进行分布式处理。MapReduce是一种云计算的核心计算模式,是一种分布式运算技术。
  而与Hadoop密切相关的有HDFS,即Hadoop分布式文件系统;sqoop,用于在Hadoop与传统的数据库之间进行数据的传递。
  此外,大数据还需要有预处理,ETL(extract,transform,load),这是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
  数据仓库,顾名思义,即数据的仓库,但它与我们常常听到的数据库不同的是,数据仓库是面向分析的存储,其特点之一是面向主题,是为了对各种繁杂业务中抽象出来的分析主题进行分析而建立的。
  NoSQL数据库,泛指非关系型数据库,四大分类有:键值存储数据库,列存储数据库,文档型数据库,图形数据库。
  CAP理论,即Consistency一致性、Availability可用性、Partition-tolerance分区可容忍性,是NOSQL数据库的基石。NoSQL系统通常注重性能和扩展性,而非事务机制(事务就是强一致性的体现)。如果将CAP理论中的一致性C理解为读写一致性、事务与关联操作的综合,则可以认为关系型数据库选择了C与A,而NoSQL数据库则全都是选择了A与P。
  其他的还有批处理,流式计算等等。

大数据的作用
  在了解大数据的作用之前,先来看看数据,信息,知识,智能之间的联系。
  我们获得了数据之后,其实得到的东西并不多,我们需要对数据进行分析,找出之间的联系,即信息。在获取了信息之后,我们需要甄别出其中对我们有用的信息,这些都是知识。在有了许多的知识之后,我们能够总结出来一些规律,这就是智能了。由此,我们也不难发现,大数据和人工智能之间其实也有不可分割的联系。

数据、信息、知识、智能
  而我们如果得到了这些规律,便能够做很多事情了。比如如果我们获取的是一个人一段时间之内的购物数据,便能够了解到他大概的需求。比如如果他在一个段之内连续多次都购买了尿不湿,我们便能够推断他家中,或者他周围的人家中有婴儿,我们便能够给他推荐许多其他的婴儿用品。
  大数据的应用有很多,比如BI(商业智能),医疗保健,精准广告投放,精准营销,商家推荐,P2P,O2O推广,交友推荐等等,不胜枚举。
  刚刚开始接触大数据,有很多概念还不是很清晰,如果有哪里写错了,还请各位大神指点!

原创粉丝点击