范式简介

来源:互联网 发布:eclipse写java程序 编辑:程序博客网 时间:2024/05/18 04:01

最终总结:

1)第二范式解决了多对多的问题,比如多个学生选同一个课程,一门课有多个学生选,解决的办法是将学生和课程分成两个表。

2)但是第二范式虽然解决了多对多的问题,但是依旧存在一对多的冗余信息,比如:一个学生只能隶属于一个系,但是一个系可以有很多学生。以学生学号为主键是完全满足第二范式的,但是存在冗余信息,每个学生都对应院系名、院系地址、院系联系方式等,而实际上院系地址、院系联系方式依赖于院系名,院系名依赖于学号,这也就是传递依赖问题,解决的办法是将院系单独建立一张表,可以进一步减少冗余信息。

总结:

1)第一范式,强调属性的不可分割性,即数据库的每一列(字段)都是具有不可分割的原子属性。这个单一属性由基本类型构成,包括整型、实数、字符型、逻辑型、日期型等。

2)对第二范式的理解要透彻,第二范式的主要目的是规范数据库的设计,避免冗余信息以及因此造成的插入、删除、更改造成的异常(这里所指的异常,仅仅是可能存在的问题,和效率低下的问题,但是功能性是可以实现的)。

针对第二范式主要抓住两点:a.每个记录存在唯一标识的主键,该主键可以由一个属性或是多个属性组成(一般违反第二范式都是因为主键由多个属性组成,而非主键属性又部分依赖主键)。b. 属性完全依赖于主键,所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系。

a.每一名学生的学号、姓名、系名、系主任这些数据重复多次。每个系与对应的系主任的数据也重复多次——数据冗余过大

b.假如学校新建了一个系,但是暂时还没有招收任何学生(比如3月份就新建了,但要等到8月份才招生),那么是无法将系名与系主任的数据单独地添加到数据表中去的(注1)——插入异常

注1:根据三种关系完整性约束中实体完整性的要求,关系中的码(注2)所包含的任意一个属性都不能为空,所有属性的组合也不能重复。为了满足此要求,图中的表,只能将学号与课名的组合作为码,否则就无法唯一地区分每一条记录。

注2:码:关系中的某个属性或者某几个属性的组合,用于区分每个元组(可以把“元组”理解为一张表中的每条记录,也就是每一行)。

c.假如将某个系中所有学生相关的记录都删除,那么所有系与系主任的数据也就随之消失了(一个系所有学生都没有了,并不表示这个系就没有了)。——删除异常

d.假如李小明转系到法律系,那么为了保证数据库中数据的一致性,需要修改三条记录中系与系主任的数据。——修改异常。

3)第三范式解决的是,任何非主属性不得传递依赖于主属性。


设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小。

目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。

满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多规范要求的称为第二范式(2NF),其余范式以次类推。一般说来,数据库只需满足第三范式(3NF)就行了。

第一范式(1NF)

所谓第一范式(1NF)是指在关系模型中,对域添加的一个规范要求,所有的域都应该是原子性的,即数据库表的每一列都是不可分割的原子数据项,而不能是集合,数组,记录等非原子数据项即实体中的某个属性有多个值时,必须拆分为不同的属性。在符合第一范式(1NF)表中的每个域值只能是实体的一个属性或一个属性的一部分。简而言之,第一范式就是无重复的域。

说明:在任何一个关系数据库中,第一范式(1NF)是对关系模式的设计基本要求,一般设计中都必须满足第一范式(1NF)。不过有些关系模型中突破了1NF的限制,这种称为非1NF的关系模型。换句话说,是否必须满足1NF的最低要求,主要依赖于所使用的关系模型。

第二范式(2NF)

第二范式(2NF)是在第一范式(1NF)的基础上建立起来的,即满足第二范式(2NF)必须先满足第一范式(1NF)。第二范式(2NF)要求数据库表中的每个实例或记录必须可以被唯一地区分。选取一个能区分每个实体的属性或属性组作为实体的唯一标识。例如在员工表中的身份证号码即可实现每个一员工的区分,该身份证号码即为候选键,任何一个候选键都可以被选作主键。在找不到候选键时,可额外增加属性以实现区分,如果在员工关系中,没有对其身份证号进行存储,而姓名可能会在数据库运行的某个时间重复,无法区分出实体时,设计辟如ID等不重复的编号以实现区分,被添加的编号或ID选作主键。(该主键的添加是在ER设计时添加,不是建库时随意添加)

第二范式(2NF)要求实体的属性完全依赖于主关键字。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系。为实现区分通常需要为表加上一个列,以存储各个实例的唯一标识。

简而言之,第二范式就是在第一范式的基础上属性完全依赖于主键。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系。为实现区分通常需要为表加上一个列,以存储各个实例的唯一标识。简而言之,第二范式就是在第一范式的基础上属性完全依赖于主键。

第三范式(3NF)

在1NF基础上,任何非主属性不依赖于其它非主属性(在2NF基础上消除传递依赖)

第三范式(3NF)是第二范式(2NF)的一个子集,即满足第三范式(3NF)必须满足第二范式(2NF)。简而言之,第三范式(3NF)要求一个关系中不包含已在其它关系已包含的非主关键字信息。例如,存在一个部门信息表,其中每个部门有部门编号(dept_id)、部门名称、部门简介等信息。那么在员工信息表中列出部门编号后就不能再将部门名称、部门简介等与部门有关的信息再加入员工信息表中。如果不存在部门信息表,则根据第三范式(3NF)也应该构建它,否则就会有大量的数据冗余。简而言之,第三范式就是属性不依赖于其它非主属性,也就是在满足2NF的基础上,任何非主属性不得传递依赖于主属性。

巴斯-科德范式(BCNF)

Boyce-CoddNormal Form(巴斯-科德范式)

在1NF基础上,任何非主属性不能对主键子集依赖(在3NF基础上消除对主码子集的依赖)

巴斯-科德范式(BCNF)是第三范式(3NF)的一个子集,即满足巴斯-科德范式(BCNF)必须满足第三范式(3NF)。通常情况下,巴斯-科德范式被认为没有新的设计规范加入,只是对第二范式与第三范式中设计规范要求更强,因而被认为是修正第三范式,也就是说,它事实上是对第三范式的修正,使数据库冗余度更小。这也是BCNF不被称为第四范式的原因。某些书上,根据范式要求的递增性将其称之为第四范式是不规范,也是更让人不容易理解的地方。而真正的第四范式,则是在设计规范中添加了对多值及依赖的要求。

定义:关系模式R<U,F>∈1FNF,若X→Y且Y不是X的子集时X必含有码,则R<U,F>∈BCNF。也就是说,关系模式R<U,F>中,若每一个决定因素都包含码,则R<U,F>∈BCNF。

由BCNF的定义可以得到结论,一个满足BCNF的关系模式有:

-所有非主属性对每一个码都是完全函数依赖。

-所有主属性对每一个不包含它的码也是完全函数依赖。

-没有任何属性完全函数依赖于非码的任何一组属性。

若R∈BCNF,按定义排除了任何属性对码的传递依赖与部分依赖,所以R∈3NF。[1]

一般关系型数据库设计中,达到BCNF就可以了!

 

范式应用实例

下面以一个学校的学生系统为例分析说明,这几个范式的应用。

第一范式(1NF)

数据库表中的字段都是单一属性的,不可再分。这个单一属性由基本类型构成,包括整型、实数、字符型、逻辑型、日期型等。在当前的任何关系数据库管理系统(DBMS)中,傻瓜也不可能做出不符合第一范式的数据库,因为这些DBMS不允许你把数据库表的一列再分成二列或多列。因此,你想在现有的DBMS中设计出不符合第一范式的数据库都是不可能的。

首先我们确定一下要设计的内容包括那些。学号、学生姓名、年龄、性别、课程名称、课程学分、系别、学科成绩,系办地址、系办电话等信息。为了简单我们暂时只考虑这些字段信息。我们对于这些信息,所关心的问题有如下几个方面。

学生有那些基本信息?

学生选了那些课,成绩是什么?

每个课的学分是多少?

学生属于那个系,系的基本信息是什么?

第二范式(2NF)

首先我们考虑,把所有这些信息放到一个表中(学号,学生姓名、年龄、性别、课程、课程学分、系别、学科成绩,系办地址、系办电话)下面存在如下的依赖关系。

(学号, 课程名称) → (姓名, 年龄, 成绩, 学分)

问题分析

这里(学号, 课程名称)构成主键,而姓名,年龄仅依赖学号,学分仅依赖课程名称,这就违背了第二范式,因此要将表进行拆分。

因此不满足第二范式的要求,会产生如下问题:

数据冗余:同一门课程由n个学生选修,"学分"就重复n-1次;同一个学生选修了m门课程,姓名和年龄就重复了m-1次。

更新异常:

1)若调整了某门课程的学分,数据表中所有行的"学分"值都要更新,否则会出现同一门课程学分不同的情况。

2)假设要开设一门新的课程,暂时还没有人选修。这样,由于还没有"学号"关键字,课程名称和学分也无法记录入数据库。

删除异常:假设一批学生已经完成课程的选修,这些选修记录就应该从数据库表中删除。但是,与此同时,课程名称和学分信息也被删除了。很显然,这也会导致插入异常。

解决方案

把选课关系表SelectCourse改为如下三个表:

学生:Student(学号,姓名,年龄,性别,系别,系办地址、系办电话);

课程:Course(课程名称,学分);

选课关系:SelectCourse(学号,课程名称,成绩)。

第三范式(3NF)

接着看上面的学生表Student(学号,姓名,年龄,性别,系别,系办地址、系办电话),关键字为单一关键字"学号",因为存在如下决定关系:

(学号)→(姓名,年龄,性别,系别,系办地址、系办电话

但是还存在下面的决定关系:

(学号)→ (系别)→(系办地点,系办电话)

即存在非关键字段"系办地点"、"系办电话"对关键字段"学号"的传递函数依赖。

它也会存在数据冗余、更新异常、插入异常和删除异常的情况。

根据第三范式把学生关系表分为如下两个表就可以满足第三范式了:

学生:(学号,姓名,年龄,性别,系别);

系别:(系别,系办地址、系办电话)。

上面的数据库表就是符合I,Ⅱ,Ⅲ范式的,消除了数据冗余、更新异常、插入异常和删除异常。

原创粉丝点击