大数据

来源：互联网发布：网络阅读的弊端编辑：程序博客网时间：2024/04/29 23:17

大数据的概念：
SNIA 定义：数据量特别巨大，在最强大的标准计算平台上都无法对全部数据进行有效处理的数据集。
Gartner 对大数据的定义：大数据是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
bigdata

大数据的数据来源：
(1)视屏、图片、文字数据
(2)社交网络数据
(3)科学研究数据
(4)商业交易数据
(5)用户行为数据

大数据的4V特点：
　　1、Volume（大量）
　　据统计，互联网一天产生的全部内容可以制作1.68亿张DVD，一天发出2940亿邮件以及200万个帖子……这些数据都表明，互联网时代，社交网络、电子商务与移动通信把人类带入了一个以“PB”为单位的新时代。
　　2、Variety（多样）
　　在大数据这个房间里，住着各种各样的“人”，它们分别叫做视频、聊天记录、人口普查结果、天气预报……
　　3、Velocity（高速）
　　以一个存储1PB的数据为例，即使带宽（网速）能达到1G/s，且电脑的容量足够且24小时运行，要将1PB的数据存入电脑也需要12天。大数据通过云计算，可以实现将12天才能存储完毕的数据，在20分钟之内完成。
　　4、Value（价值）
　　大数据能做一个预言家。谷歌和推特都曾用大数据，提前7天到一个月，在2009年准确预测当年的流感趋势。
　　价值密度低。

从数据结构特征来分类，主要可以分为：结构化数据、非结构化数据和半结构化数据

结构化数据
可以用二维表结构来逻辑表达实现的数据，简单来说就是数据库。比如ERP系统、财务系统、客户关系管理数据库等存储的都是结构化数据。
非结构化数据
不方便用数据库二维表来逻辑表达实现的数据。非结构化数据包括办公文档、文本、图片、XML、HTML、各类报表、图像，音频和视频等数据。比如医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器（PDM/FTP）和媒体资源管理等存储的非结构化数据。
半结构化数据
包括邮件、HTML、报表、资源库等等，典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。

对象存储技术：
对象存储是一个新兴的存储技术。对象存储是在块存储之上构建了对象管理层，与文件系统相比，对象系统层是扁平的，扩展限制少，因此拥有近乎无限的扩展性。对象由唯一的Key，文件，数据（文件），元数据，自定义元数据构成，由于包含了自管理信息，因此更加智能。对象存储采用兼容标准互联网协议的接口，可以跨地域传输。对象存储适用于面向互联网服务的存储场景，以及企业内部的归档、备份场景。
在对象存储系统中，元数据服务器（MDS）存储了文件与对象设备之间的映射关系以及目录和文件的组织关系。MDS提供了诸如文件查找，文件创建，文件和目录属性处理等操作。从客户端的角度去看，MDS就好像是文件的逻辑窗口，而对象存储设备（OSD）就是文件的物理窗口。当用户对某个文件进行操作，首先文件系统从MDS上获取到文件的实际存储地址，然后根据这个地址到OSD上进行存取操作，后续的I/O操作都不需要再访问MDS，这样减少了MDS的负担，从而为系统的扩展提供了可能性。
传统文件系统的存储采用目录树的形式，当文件数量比较大，或者文件巨大的时候，对根节点的压力比较大。当查找一个文件或者文件内部的某部分内容时，需要耗费比较长的时间，从而降低了文件系统的性能。对象存储采用扁平化的结构，采用去中心化的思想。所以，即使有海量的文件或者文件巨大，访问数据的性能也不会受到影响，而且系统也很容易扩容。
采用对象接口，灵活分割数据：
对象存储系统不需要知道数据存储的物理方法。传统的存储设备存储SCSI块，而且存储设备以扇区为最小存储单位，典型的扇区大小在512B~4KB之间。对象存储可以将任何大小的对象存储到对象存储设备中，对象存储支持一个对象的存储范围从几个字节到几个TB的大小。
特性：
(1)对象扁平化，易于访问和扩展：
扁平化的数据结构允许对象存储容量从TB级扩展到EB级，对象存储系统通常在一个横向扩展（或网格硬件）架构上构建一个全局的命名空间，这使得对象存储非常适用在云计算环境中使用。一些对象存储系统支持升级、扩容过程中业务零中断。
(2)自动化管理：
对象存储支持从应用角度基于业务需求设置对象/容器的属性（元数据）策略，这使得对象存储具备云的自服务特征同时，有效的降低运维管理的成本。
(3)多租户：
多租户特性可以使用同一种架构,同一套系统为不同用户和应用提供存储服务,并分别为这些用户和应用设置数据保护、数据存储策略，并确保这些数据之间相互隔离。
(4)数据完整性和安全：
对象存储系统一般通过连续后台数据扫描、数据完整性校验、自动化对象修复等技术，新型的技术应用大大提高数据的完整性和安全性。

hadoop：
大数据处理解决方案的一个选择是Hadoop。Hadoop是一个开源的分布式海量数据处理的技术架构。Hadoop项目开始于2005年，随后就加入了Apache 社区。Hadoop的设计采用简单的硬件，来运行复杂的数据管理任务。它可以使用几乎所有的存储设备来存储数据，使用多个主机来执行计算任务。因此，在处理非结构化数据时，与传统的大型机相比，Hadoop有明显的性能和成本优势。

Hadoop 包含了三个组件：
(1)Hadoop分布式文件系统(HDFS)
(2)非关系型数据库(HBase)
(3)MapReduce分布式并行处理架构
结构化和非结构化大数据解决方案架构的主要区别体现在数据库的管理不同。

0 0