Unicode字符类

来源:互联网 发布:软件生命周期模型定义 编辑:程序博客网 时间:2024/06/16 17:29

Unicode 通用类别:

http://msdn.microsoft.com/zh-cn/library/20bw873z(VS.80).aspx

类别 说明

Lu

字母,大写

Ll

字母,小写

Lt

字母,词首字母大写

Lm

字母,修饰符

Lo

字母,其他

Mn

标记,非间距

Mc

标记,间距组合

Me

标记,封闭

Nd

数字,十进制数

Nl

数字,字母

No

数字,其他

Pc

标点,连接符

Pd

标点,短划线

Ps

标点,开始

Pe

标点,结束

Pi

标点,前引号(根据用途可能表现为类似 Ps 或 Pe)

Pf

标点,后引号(根据用途可能表现为类似 Ps 或 Pe)

Po

标点,其他

Sm

符号,数学

Sc

符号,货币

Sk

符号,修饰符

So

符号,其他

Zs

分隔符,空白

Zl

分隔符,行

Zp

分隔符,段落

Cc

其他,控制

Cf

其他,格式

Cs

其他,代理项

Co

其他,私用

Cn

其他,未赋值(不存在任何字符具有此属性)

.NET Framework 提供其他类别,用于表示一组 Unicode 字符类别,如下表所示。

类别 表示

C

(所有控制字符)CcCfCsCoCn

L

(所有字母)LuLlLtLmLo

M

(所有附加符号标记)MnMcMe

N

(所有数字)NdNlNo

P

(所有标点)PcPdPsPePiPfPo

S

(所有符号)SmScSkSo

Z

(所有分隔符)ZsZlZp

UnicodeCategory 枚举

http://msdn.microsoft.com/zh-cn/library/system.globalization.unicodecategory.aspx 成员

  成员名称 说明 Lu UppercaseLetter 指示字符是大写字母。 Ll LowercaseLetter 指示字符是小写字母。 Lt TitlecaseLetter 指示字符是词首字母大写字母。 Lm ModifierLetter 指示字符是修饰符字母,它是独立式的间距字符,指示前面字母的修改。 Lo OtherLetter 指示字符是字母,但它不是大写字母、小写字母、词首字母大写或修饰符字母。 Mn NonSpacingMark 指示字符是非间距字符,这指示基字符的修改。 Mc SpacingCombiningMark 指示字符是间距字符,这指示基字符的修改并影响该基字符的标志符号的宽度。 Me EnclosingMark 指示字符是封闭符号,封闭符号是非间距组合字符,它环绕直到基字符(并包括基字符)的所有前面的字符。 Nd DecimalDigitNumber 指示字符是十进制数字,即在范围 0 到 9 内。 Nl LetterNumber 指示字符是由字母表示的数字,而不是十进制数字,例如,罗马数字 5 由字母“V”表示。 No OtherNumber 指示字符是数字,但它既不是十进制数字也不是字母数字,例如分数 1/2。 Zs SpaceSeparator 指示字符是空白字符,它不具有标志符号,但不是控制或格式字符。 Zl LineSeparator 指示字符用于分隔文本各行。 Zp ParagraphSeparator 指示字符用于分隔段落。 Cc Control 指示字符是控制代码,其 Unicode 值是 U+007F,或者位于 U+0000 到 U+001F 或 U+0080 到 U+009F 范围内。 Cf Format 指示字符是格式字符,格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。 Cs Surrogate 指示字符是高代理项还是低代理项。代理项代码值在范围 U+D800 到 U+DFFF 内。 Co PrivateUse 指示字符是专用字符,其 Unicode 值在范围 U+E000 到 U+F8FF 内。 Pc ConnectorPunctuation 指示字符是连接两个字符的连接符标点。 Pd DashPunctuation 指示字符是短划线或连字符。 Ps OpenPunctuation 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的开始字符。 Pe ClosePunctuation 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的封闭字符。 Pi InitialQuotePunctuation 指示字符是开始或前引号。 Pf FinalQuotePunctuation 指示字符是封闭或后引号。 Po OtherPunctuation 指示字符是标点,但它不是连接符标点、短划线标点、开始标点、结束标点、前引号标点或后引号标点。 Sm MathSymbol 指示字符是数学符号,例如“+”或“=”。 Sc CurrencySymbol 指示字符是货币符号。 Sk ModifierSymbol 指示字符是修饰符符号,这指示环绕字符的修改。例如,分数斜线号指示其左侧的数字为分子,右侧的数字为分母。 So OtherSymbol 指示字符是符号,但它不是数学符号、货币符号或修饰符符号。 Cn OtherNotAssigned 指示字符未被分配给任何 Unicode 类别。
 备注

UnicodeCategory 枚举用于支持 Char 方法,例如 IsUpper(Char)。这种方法可确定指定的字符是否属于特定的 Unicode 通用类别的成员。Unicode 通用类别用于定义字符的一般分类,即将字符指定为字母、十进制数字、分隔符、数学符号、标点符号等类型。

此枚举基于 Unicode 标准 5.0 版。有关更多信息,请参见位于 Unicode Character Database(Unicode 字符数据库)上的“UCD File Format”(UCD 文件格式)和“General Category Values”(通用类别值)副主题。

Unicode 标准定义以下方面:

代理项对是单个抽象字符的编码字符表示形式,此序列包含两个代码单元,第一个单元是高代理项,第二个单元是低代理项。高代理项是范围 U+D800 到 U+DBFF 中的 Unicode 码位,低代理项是范围 U+DC00 到 U+DFFF 中的 Unicode 码位。

组合字符序列是基字符和一个或多个组合字符的组合。代理项对表示基字符或组合字符。组合字符可以是间距字符或非间距字符。在呈现时,间距组合字符自身会占据一个间距位置,而非间距组合字符则不是这样。例如,音调字符就是非间距组合字符之一。

修饰符字母是独立式的间距字符,它与组合字符相似,指示前面字母的修改。

括号是非间距组合字符,它将直到基字符(并包括基字符)的前面的所有字符括起来。

格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。

Unicode 标准定义某些标点符号的若干变体。例如,连字符可以是表示一个连字符的若干代码值之一,如 U+002D(减号连字符)、U+00AD(软连字符)、U+2010(连字符)或 U+2011(不间断连字符)。这同样适用于短划线、空白字符和引号。

Unicode 标准还将代码分配给十进制数字的表示形式,这些表示形式特定于给定的书写符号或语言,例如 U+0030(数字零)和 U+0660(阿拉伯-印度数字零)。

 

統一碼 5.0.0 版區塊名稱表(Block Names for Unicode 5.0.0)

 

http://www.geocities.com/chukl000/unicode/unicode5-0-0.html 區塊位置
Block Positons 區塊名稱
Block Names English Names 中文譯名 0000-007F Basic Latin 基本拉丁字母 0080-00FF Latin-1 Supplement 拉丁字母補充-1 0100-017F Latin Extended-A 拉丁字母擴充-A 0180-024F Latin Extended-B 拉丁字母擴充-B 0250-02AF IPA Extensions 國際音標擴充 02B0-02FF Spacing Modifier Letters 進格修飾字元 0300-036F Combining Diacritical Marks 組合音標附加符號 0370-03FF Greek and Coptic 希臘字母 0400-04FF Cyrillic 西里爾字母 0500-052F Cyrillic Supplement 西里爾字母補充 0530-058F Armenian 亞美尼亞文 0590-05FF Hebrew 希伯來文 0600-06FF Arabic 基本阿拉伯文 0700-074F Syriac 敘利亞文 0750-077F Arabic Supplement 阿拉伯文補充 0780-07BF Thaana 塔納文 07C0-07FF N’Ko   0900-097F Devanagari 天城體梵文字母 0980-09FF Bengali 孟加拉文 0A00-0A7F Gurmukhi 古爾穆基文 0A80-0AFF Gujarati 古吉拉特文 0B00-0B7F Oriya 奧里亞文 0B80-0BFF Tamil 泰米爾文 0C00-0C7F Telugu 泰盧固文 0C80-0CFF Kannada 卡納達文 0D00-0D7F Malayalam 馬拉亞拉姆文 0D80-0DFF Sinhala 僧伽羅文 0E00-0E7F Thai 泰文 0E80-0EFF Lao 老撾文;寮文 0F00-0FFF Tibetan 藏文 1000-109F Myanmar 緬甸文 10A0-10FF Georgian 格魯吉亞文 1100-11FF Hangul Jamo 諺文字母 1200-137F Ethiopic 埃塞俄比亞文 1380-139F Ethiopic Supplement 埃塞俄比亞文補充 13A0-13FF Cherokee 切羅基文 1400-167F Unified Canadian Aboriginal Syllabics 加拿大土著統一音節文字 1680-169F Ogham 歐甘文 16A0-16FF Runic 北歐古文 1700-171F Tagalog 他加祿文 1720-173F Hanunoo 哈努諾文 1740-175F Buhid 布希德文 1760-177F Tagbanwa 塔格巴努亞文 1780-17FF Khmer 高棉文 1800-18AF Mongolian 蒙古文 1900-194F Limbu 林布文 1950-197F Tai Le 傣哪文;德宏傣文 1980-19DF New Tai Lue 新傣仂文 19E0-19FF Khmer Symbols 高棉符號 1A00-1A1F Buginese 布吉文 1B00-1B7F Balinese 巴厘文 1D00-1D7F Phonetic Extensions 音標擴充 1D80-1DBF Phonetic Extensions Supplement 音標擴充補充 1DC0-1DFF Combining Diacritical Marks Supplement 組合音標附加符號 1E00-1EFF Latin Extended Additional 拉丁字母擴充附加 1F00-1FFF Greek Extended 希臘文擴充 2000-206F General Punctuation 一般標點符號 2070-209F Superscripts and Subscripts 下標及上標 20A0-20CF Currency Symbols 貨幣符號 20D0-20FF Combining Diacritical Marks for Symbols 符號用組合附加符號 2100-214F Letterlike Symbols 似字母符號 2150-218F Number Forms 數字形式 2190-21FF Arrows 箭頭符號 2200-22FF Mathematical Operators 數學運算符號 2300-23FF Miscellaneous Technical 混合專門符號;零雜技術符號 2400-243F Control Pictures 控制圖像 2440-245F Optical Character Recognition 光學字元識別 2460-24FF Enclosed Alphanumerics 圈型字母數字 2500-257F Box Drawing 製表符 2580-259F Block Elements 區塊元件 25A0-25FF Geometric Shapes 幾何形狀 2600-26FF Miscellaneous Symbols 混合什錦符號;零雜符號 2700-27BF Dingbats 什錦符號 27C0-27EF Miscellaneous Mathematical Symbols-A 混合數學符號-A;零雜數學符號-A 27F0-27FF Supplemental Arrows-A 補充性箭頭符號-A 2800-28FF Braille Patterns 盲文;盲人點字 2900-297F Supplemental Arrows-B 補充性箭頭符號-B 2980-29FF Miscellaneous Mathematical Symbols-B 混合數學符號-B;零雜數學符號-B 2A00-2AFF Supplemental Mathematical Operators 補充性數學運算符號 2B00-2BFF Miscellaneous Symbols and Arrows 混合什錦符號和箭頭符號;零雜符號與箭頭 2C00-2C5F Glagolitic 格拉哥爾字母 2C60-2C7F Latin Extended-C 拉丁字母擴充-C 2C80-2CFF Coptic 科普特文 2D00-2D2F Georgian Supplement 格魯吉亞文補充 2D30-2D7F Tifinagh 提非納格字母 2D80-2DDF Ethiopic Extended 埃塞俄比亞文擴充 2E00-2E7F Supplemental Punctuation 補充性標點符號 2E80-2EFF CJK Radicals Supplement 中日韓部首補充 2F00-2FDF Kangxi Radicals 康熙部首 2FF0-2FFF Ideographic Description Characters 漢字結構描述字符 3000-303F CJK Symbols and Punctuation 中日韓符號和標點 3040-309F Hiragana 平假名 30A0-30FF Katakana 片假名 3100-312F Bopomofo 注音符號 3130-318F Hangul Compatibility Jamo 諺文相容字母 3190-319F Kanbun 漢文標註號 31A0-31BF Bopomofo Extended 注音符號擴充 31C0-31EF CJK Strokes 中日韓筆畫部件 31F0-31FF Katakana Phonetic Extensions 片假名音標擴充 3200-32FF Enclosed CJK Letters and Months 括號中日韓字母及月份;圈型中日韓字母及月份 3300-33FF CJK Compatibility 中日韓相容字元 3400-4DBF CJK Unified Ideographs Extension A 中日韓統一表意文字擴充A 4DC0-4DFF Yijing Hexagram Symbols 易經六十四卦象 4E00-9FFF CJK Unified Ideographs 中日韓統一表意文字 A000-A48F Yi Syllables 彝文音節 A490-A4CF Yi Radicals 彝文字母 A700-A71F Modifier Tone Letters 聲調符號 A720-A7FF Latin Extended-D 拉丁字母擴充-D A800-A82F Syloti Nagri   A840-A87F Phags-pa 八思巴字母 AC00-D7AF Hangul Syllables 諺文音節 D800-DB7F High Surrogates 高半代用區 DB80-DBFF High Private Use Surrogates 高半專用代用區 DC00-DFFF Low Surrogates 低半代用區 E000-F8FF Private Use Area 專用區 F900-FAFF CJK Compatibility Ideographs 中日韓相容表意文字 FB00-FB4F Alphabetic Presentation Forms 字母變體顯現形式 FB50-FDFF Arabic Presentation Forms-A 阿拉伯文變體顯現形式-A FE00-FE0F Variation Selectors 字型變換選取器 FE10-FE1F Vertical Forms 豎式標點 FE20-FE2F Combining Half Marks 組合半形標示 FE30-FE4F CJK Compatibility Forms 中日韓相容形式 FE50-FE6F Small Form Variants 小寫變體 FE70-FEFF Arabic Presentation Forms-B 阿拉伯文變體顯現形式-B FF00-FFEF Halfwidth and Fullwidth Forms 半形及全形字符 FFF0-FFFF Specials 特殊區域 10000-1007F Linear B Syllabary 線形文字B音節文字 10080-100FF Linear B Ideograms 線形文字B表意文字 10100-1013F Aegean Numbers 愛琴數字 10140-1018F Ancient Greek Numbers 古希臘數字 10300-1032F Old Italic 古意大利文 10330-1034F Gothic 哥特文 10380-1039F Ugaritic 烏加里特楔形文字 103A0-103DF Old Persian 古波斯文 10400-1044F Deseret 猶他大學音標 10450-1047F Shavian 肅伯納字母 10480-104AF Osmanya   10800-1083F Cypriot Syllabary 塞浦路斯音節文字 10900-1091F Phoenician 腓尼基字母 10A00-10A5F Kharoshthi 佉盧字母 12000-123FF Cuneiform 楔形文字 12400-1247F Cuneiform Numbers and Punctuation 楔形文字數字及標點 1D000-1D0FF Byzantine Musical Symbols 東正教音樂符號 1D100-1D1FF Musical Symbols 音樂符號 1D200-1D24F Ancient Greek Musical Notation 古希臘音樂譜記號 1D300-1D35F Tai Xuan Jing Symbols 太玄經符號 1D360-1D37F Counting Rod Numerals 算籌記數式 1D400-1D7FF Mathematical Alphanumeric Symbols 數學用字母數字符號 20000-2A6DF CJK Unified Ideographs Extension B 中日韓統一表意文字擴充B 2F800-2FA1F CJK Compatibility Ideographs Supplement 中日韓相容表意文字補充 E0000-E007F Tags 語言編碼標籤 E0100-E01EF Variation Selectors Supplement 字型變換選取器補充 FFF80-FFFFF Supplementary Private Use Area-A 補充專用區-A 10FF80-10FFFF Supplementary Private Use Area-B 補充專用區-B

 

标准CJK文字
http://www.unicode.org/Public/UNIDATA/Unihan.html

 

http://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/

















































Code point range Block name Release U+3400..U+4DB5 CJK Unified Ideographs Extension A 3.0 U+4E00..U+9FA5 CJK Unified Ideographs 1.1 U+9FA6..U+9FBB CJK Unified Ideographs 4.1 U+F900..U+FA2D CJK Compatibility Ideographs 1.1 U+FA30..U+FA6A CJK Compatibility Ideographs 3.2 U+FA70..U+FAD9 CJK Compatibility Ideographs 4.1 U+20000..U+2A6D6 CJK Unified Ideographs Extension B 3.1 U+2F800..U+2FA1D CJK Compatibility Supplement 3.1  

0 0