UniCode与非UniCode的区别

来源:互联网 发布:linux 查看开机启动项 编辑:程序博客网 时间:2024/04/28 18:00

           在数据库中我们通常会遇到字符串与Unicode字符串,对于想我这样的初学者很多人是有很多疑问的,对此我把这个问题整理一下,方便自己与大家对知识的掌握。

                          字符串:(1)Char:固定长度,长度为n个字节,取值范围1~8 000,存储大小是n个字节。

                                          (2)Varchar:可变长度,n 的取值范围为1-8 000 。max 指定最大存储大小是 2^31-1 个字节。存储大小是输入数据的实际长度加两个字节。所输入数据的长度可以为0个字符。

                                          (3)Text:长度可变,最大长度为2^31-1(2 147 483 647)个字符。

           Unicode字符串:(1)Nchar:n 个字符的固定长度的Unicode字符数据。n值必须在1~4 000 之间。存储大小为两倍的n字节。

                                           (2)Nvarchar:长度可变的Unicode字符数据。n 值在1~4 000 之间。max 指定最大存储大小为2^30-1 个字节。存储大小是所输入字符个数的两倍加两个字节。所输入数据的长度可以为0 个字符。

                                           (3)Ntext:长度可变的Unicode数据,最大长度为2^31-1(1 073 741 823)个字符。存储大小是所输入字符个数的两倍(以字节为单位)。

             它们的用法是一样的,但是Unicode支持的字符范围更大,存储 Unicode 字符所需要的空间更大。
              Unicode 数据
                         Unicode 标准为全球商业领域中广泛使用的大部分字符定义了一个单一编码方案。所有的计算机都用单一的 Unicode 标准 Unicode 数据中的位模式一致地翻译成字符。这保证了同一个位模式在所有的计算机上总是转换成同一个字符。数据可以随意地从一个数据库或计算机传送到另一个数据库或计算机,而不用担心接收系统是否会错误地翻译位模式。
                         对于用一个字节编码每个字符的数据类型,存在的问题之一就是此数据类型只能表示 256 个不同的字符。这就迫使对于不同的字母表(例如相对较小的欧洲字母表)采用多重编码规格(或者代码页)。而且也不可能处理象日文汉字或韩国文字这样具有数千个字符的字母表。
                         每个 Microsoft SQL Server 排序规则都有一个对表示 char、varchar 和 text 值中的每个字符定义位模式进行定义的代码页。可为个别的列和字符常量指派不同的代码页。客户端计算机使用与操作系统区域设置相关联的代码页解释字符位模式。有很多种不同的代码页。一些字符出现在某些代码页上,但并不出现在其它的代码页上。某些字符在一些代码页上用一个位模式定义,而在其它的代码页上却用另一个位模式定义。当您设计必须处理不同语言的国际性系统时,为了满足不同国家/地区的语言需求,给所有的计算机挑选代码页就变得困难了。要保证每一台计算机与使用不同代码页的系统交互时都进行正确的翻译也是困难的。
                         Unicode 规格通过采用两个字节编码每个字符使这个问题迎刃而解。转换最通用商业语言的单一规格具有足够多的 2 字节的模式 (65,536)。因为所有的 Unicode 系统均一致地采用同样的位模式来代表所有的字符,所以当从一个系统转到另一个系统时,将不会存在未正确转换字符的问题。通过在整个系统中使用 Unicode 数据类型,可尽量减少字符转换问题。