大数据概述

来源:互联网 发布:湖南省湘知司法鉴定所 编辑:程序博客网 时间:2024/05/17 22:56

大数据概述


   “大数据”是最近来的一个技术热点。历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。然而大数据作为一个专有名词成为热点。主要应归功于互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每秒都在产生数据、数以亿计的用户的互联网服务时时刻刻在产生巨量的交互。要处理的数据量实在是太大、增长的太快了,而业务需求和竞争压力对数据的处理实时性、有效性有提出了更高的要求,传统的常规技术手段根本无法应付。

   在这种情况下,技术人员纷纷研发和采用一批新技术,主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSql分布式存储方案等。

    时至今日,科学届对大数据还没有给出一个完整准确的定义,不同领域的科学家们都从不同的视角诠释了大数据的基本含义。但是,纵观大数据发展的前世今生,以及今后的发展趋势,大数据的含义可以归结为:
    大数据是人类认知世界的技术理念,是在信息技术支撑下,利用全新的数据分析处理方法,在海量、复杂、散乱的数据集合中提取有价值信息的技术处理过程,其核心就是对数据进行智能化的信息挖掘,并发挥其作用。

    要学习大数据技术就不得不了解结构化数据和非结构化数据。能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;无法用数字或统一的结构表示,如文本、图像、声音、XML、HTML等,我们称之为非结构化数据。结构化数据属于非结构化数据,是非结构化数据的特例。

  大数据有以下几点特征:
   1. 海量的数据规模(Volume)。具有当前任何一种单体设备难以直接存储、管理和使用的数据量,大数据中所说的“大”也包括数据的全面性。
   2.快速的数据流转和动态的数据变化(Velocity)。数据会随着时间和环境发生变化。
   3.多样的数据类型(Variety)。刻画特定事物特征或规律的数据是以多种形式存在的。
   4.巨大的数据价值(Value)。数据就是资源,许多看似杂乱无章的数据,其潜在蕴含着巨大的价值,数据的价值是由不同的应用目的而体现。但是价值密度低

  最后有必要提下数据仓库。数据仓库是一个面向主题的(用于为特定主题的功能提供信息)、集成的(可从多个数据库系统中集成信息)、相对稳定的、反应历史变化的(按周期更新数据)数据集合,用于支持管理决策。它有一下两个特点:
  1.首先数据仓库是用于支持决策的,帮助人对数据进行分析处理,这一点它有别于操作型数据库。
  2.数据仓库是多个异构数据源的有效集成,集成够按照主题进行重组,为了方便分析,它包含历史数据,而且存放在数据仓库中的数据一般不再修改。
  企业数据仓库的建设是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们作出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理、归纳和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。

原创粉丝点击