大数据相关

来源:互联网 发布:python做数据分析应用 编辑:程序博客网 时间:2024/06/01 16:11

大数据相关

  1. 结构化与非结构化处理手段
  2. 什么是大数据
  3. 数据仓库
#注意 以下内容转自百度百科

结构化

  • 结构化数据,简单来所就是数据库
  • 基本包括高速存储应用需求、数据备份需求、数据共享需求、以及数据容灾需求

    概述

    结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进彳存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。

    作用

    结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记,便能使网站在搜索结果中良好地展示丰富网页摘要。

    标记方式

    1、使用HTML代码标记
    HTML代码标记的方式主要有3种:微数据、微格式和RDFa。但对于一些外贸站站来说,标记是以微数据为主,少许时候也会用到微格式,视不用的页面类型而定吧。
    2、使用微数据标记 使用微数据标记的话,有两种代码格式:http://data-vocabulary.org/ 和
    http://schema.org/。由于data-vocabulary标记只支持谷歌搜索,而schema同时支持谷歌、雅虎、Bing等搜索,因而我们不妨称data-vocabulary为旧版标记,schema为新版标记。

非结构化

  • 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
  • 包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

    概述

    包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

    作用

    计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

    采集

    非结构化数据的采集是信息进一步处理的基础。现在有许多开源库己经实现了从非结构化文档中采集关键信息的功能,但针对不同格式的文档,所用的开源库不尽相同。

    查询

    随着计算机、互联网和数字媒体等的进一步普及,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,面对如此巨大的信息海洋,特别是非结构化数据信息,如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。传统关系数据库主要面向事务处理和数据分析应用领域,擅长解决结构化数据管理问题,在管理非结构化数据方面存在某些先天不足之处,尤其在处理海量非结构化信息时更是面临巨大挑战。为了应对非结构化数据管理的挑战,出现了各种非结构化数据管理系统,例如基于传统关系数据库系统扩展的非结构化数据管理系统,基于NoSQL的非结构化数据管理系统等。

    存储

    据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。据报道指出:平均只有1%-5%的数据是结构化的数据。如今,这种迅猛增长的从不使用的数据在企业里消耗着复杂而昂贵的一级存储的存储容量。如何更好的保留那些在全球范围内具有潜在价值的不同类型的文件,而不是因为处理它们却干扰日常的工作?云存储是越来越多的IT公司正在使用的存储技术。

大数据

概念

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

特征

  • 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
  • 种类(Variety):数据类型的多样性;
  • 速度(Velocity):指获得数据的速度;
  • 可变性(Variability):妨碍了处理和有效地管理数据的过程。
  • 真实性(Veracity):数据的质量
  • 复杂性(Complexity):数据量巨大,来源多渠道
  • 价值(value):合理运用大数据,以低成本创造高价值

数据仓库

概述

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

发展

数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

特点

  1. 数据仓库是面向主题的
  2. 数据仓库是集成的
  3. 数据仓库是不可更新的
  4. 数据仓库是随时间而变化的
  5. 汇总的
  6. 大容量。
  7. 非规范化的。
  8. 元数据。
  9. 数据源。
原创粉丝点击