大数据概述

来源:互联网 发布:杜兰特对位科比数据 编辑:程序博客网 时间:2024/05/17 23:58

大数据Big Data),指的是传统数据处理应用软件不足以处理的大或复杂的数据集的术语。在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等;这样的用途正是大型数据集盛行的原因。

大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”(计算机集群是其中一种常用方式)


大数据的特点

1.海量的数据规模。在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合

2.快速度一是数据产生得快。有的数据是爆发式产生;二是数据处理得快。

3.多样性在大数据时代,数据格式变得越来越多样,涵盖了文本、音频、图片、视频、模拟信号等不同的类型;数据来源也越来越多样,不仅产生于组织内部运作的各个环节,也来自于组织外部。

4.真实性。追求高数据质量是一项重要的大数据要求和挑战,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如,人的感情和诚实性、天气形势、经济因素以及未来。在处理这些类型的数据时,数据清理无法修正这种不确定性,然而,尽管存在不确定性,数据仍然包含宝贵的信息。我们必须承认、接受大数据的不确定性,并确定如何充分利用这一点,例如,采取数据融合,即通过结合多个可靠性较低的来源创建更准确、更有用的数据点,或者通过鲁棒优化技术和模糊逻辑方法等先进的数学方法。

5.价值密度低。大数据虽然拥有海量的信息,但是真正可用的数据可能只有很小一部分,从海量的数据中挑出一小部分数据本身就是各巨大的工作量,所以大数据的分析也常和云计算联系到一起。只有集数十、数百或甚至数千的电脑分析能力于一身的云计算才能完成对海量数据的分析。


原创粉丝点击