C++11

来源：互联网发布：上门提亲怎么说知乎编辑：程序博客网时间：2024/06/15 16:57

标准C++提供了两种字符串字面值。第一种，包含有双引号，产生以空字符结尾的const char数组。第二种有着前标L，产生以空字符结尾的const wchar_t数组，其中wchar_t代表宽字符。对于Unicode编码的支持尚付阙如。

为了加强C++编译器对Unicode的支持，类别char的定义被修改为其大小至少能够存储UTF-8的8位编码，并且能够容纳编译器的基本字符集的任何成员。

C++11 将支持三种Unicode编码方式：UTF-8，UTF-16，和UTF-32。除了上述char定义的变更， C++11将增加两种新的字符类别：char16_t和char32_t。它们各自被设计用来存储UTF-16 以及UTF-32的字符。

以下展示如何产生使用这些编码的字符串字面值：

u8"I'm a UTF-8 string."u"This is a UTF-16 string."U"This is a UTF-32 string."

第一个字符串的类别是通常的const char[]；第二个字符串的类别是const char16_t[]；第三个字符串的类别是const char32_t[]。

当创建Unicode字符串字面值时，可以直接在字符串内插入Unicode codepoints。C++11提供了以下的语法：

u8"This is a Unicode Character: \u2018."u"This is a bigger Unicode Character: \u2018."U"This is a Unicode Character: \u2018."

在’\u’之后的是16个比特的十六进制数值；它不需要’0x’的前标。识别字’\u’代表了一个16位的Unicode codepoint；如果要输入32位的codepoint，使用’\U’和32个比特的十六进制数值。只有有效的Unicode codepoints能够被输入。举例而言，codepoints在范围U+D800—U+DFFF之间是被禁止的，它们被保留给UTF-16编码的surrogate pairs。

阅读全文

0 0