“关系型数据库”和“基于海量数据的分布式非关系数据库”

来源:互联网 发布:2017支付宝秒余额源码 编辑:程序博客网 时间:2024/05/18 00:24

转自:http://www.cnblogs.com/yitongtianxia59/archive/2009/07/27/1531659.html

http://bi.hitsz.edu.cn/Research/Res_results/hadoop.html


1.关系型数据库的概念

所谓关系型数据库,是指采用了关系模型来组织数据的数据库。关系模型是在1970年由IBM的研究员E.F.Codd博士首先提出,在之后的几十年中,关系模型的概念得到了充分的发展并逐渐成为数据库架构的主流模型。简单来说,关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。下面列出了关系模型中的常用概念。

关系:可以理解为一张二维表,每个关系都具有一个关系名,就是通常说的表名。

元组:可以理解为二维表中的一行,在数据库中经常被称为记录。

属性:可以理解为二维表中的一列,在数据库中经常被称为字段。

域:属性的取值范围,也就是数据库中某一列的取值限制。

关键字:一组可以唯一标识元组的属性。数据库中常称为主键,由一个或多个列组成。

关系模式:指对关系的描述,其格式为:关系名(属性1,属性2,…,属性N)。在数据库中通常称为表结构。

2.关系型数据库的优点

关系型数据库相比其他模型的数据库而言,有着以下优点:

容易理解:二维表结构是非常贴近逻辑世界的一个概念,关系模型相对网状、层次等其他模型来说更容易理解。

使用方便:通用的SQL语言使得操作关系型数据库非常方便,程序员甚至于数据管理员可以方便地在逻辑层面操作数据库,而完全不必理解其底层实现。

易于维护:丰富的完整性(实体完整性、参照完整性和用户定义的完整性)大大降低了数据冗余和数据不一致的概率。

=====================================================

基于海量数据的分布式非关系数据库平台

简介

基于海量数据的分布式非关系数据库平台的突出特点是将分布式数据库与非关系数据库进行融合,用以存储和管理海量数据信息。以Hadoop为开发平台载体。Hadoop是Google Map/Reduce算法模型的一个Java实现,它让程序自动分布到一个由普通机器组成的超大集群上并发执行,主要表现在三个方面:
Ø海量数据的管理
Ø非关系数据库的特征
Ø分布式数据库特征
 

Hadoop平台的核心:

Ø文件管理系统(HDFS)
Ø map/reduce
 

分布式非关系数据库优点:

 

扩容能力:能可靠地存储和处理千兆字节(PB)数据。

成本低:可以通过普通机器组成的服务器群来分发以及处理数据。这些服

务器群总计可达数千个节点。

高效率:通过分发数据,Hadoop可以在数据所在的节点上并行地(parallel)

处理它们,这使得处理非常的快速。

可靠性:Hadoop能自动地维护数据的多份复制,并且在任务失败后能自动

地重新部署计算任务。

 

重点研究方向

 

海量数据的分布式非关系数据库的查询优化:通过建立局部查询与分布式全局查询有机结合的方式对查询进行优化。同时,查询优化方式还包括数据的动态融合、移动计算等。

分布式数据库的负载均衡问题: 智能化地根据任务特征、机器负载信息和网络通信等情况,实时调整分布式数据库硬件资源的分配,最终实现资源的近似最优分配

非关系数据库的数据库模型研究:通过对非关系数据库特征的研究总结,建立起针对针对非关系数据库的系统性数据库模型。

 

典型应用方向:

 

web挖掘方面:在web文本搜索,web日志分析等方面有了很广泛的应用。

海量数据的云计算方面:通过对大规模数据的map操作和reduce操作使得平台具有计算高度并行化和简单规约的能力,这些特点在云计算方面有着重要价值。

物联网方面:物联网数据具有属性关系松散、数据规模庞大、一次读入等特点,传统数据库及典型分布式数据库和非关系数据库是无法满足其数据的管理和挖掘方面的需要。因此,结合分布式非关系数据库的特点,其在物联网方面应用前景广泛。