BiDi 排版算法

来源：互联网发布：淘宝开学季编辑：程序博客网时间：2024/05/21 17:29

http://blog.csdn.net/wind_zsu/article/details/3792055

说明

本文内容参考 The Bidiretional Algorithm

本文并不是对The Bidirection Algorithm的翻译，而是将比较常碰到的问题摘录下来。同时从比较简单的例子来说明这个算法是应用的。因此也并没有覆盖里面所讲的每一个细节。同时比较可以借鉴的是我对算法的理解（当然，也有可能因理解的不准确而有偏差）。

目前网页的排版基本上分成LTR（从左到右，left-to-right）和RTL（从右到左，right-to-left）。比较多的语言默认的排版是LTR，比较典型的RTL有阿拉伯文和希伯来文。这里就是介绍如果两种不同的排版的文字在同一段文章里面是如何排版的。本文主要基于网页的排版，当然，很多其他软件的排版也是基于这种算法来排版的。

以下的例子都以阿拉伯文和英文来举例。其中大写字母表示阿拉伯文，比如AB C。小写字母表示英文，比如abc。同时因为LTR的排版比较简单，将基本上以RTL为例子。

术语介绍

首先是RLE和LRE。RLE是指嵌入在一段LTR文字中的RTL文字。例如 english text "I AM ARABIC" at the end，其中的"I AM ARABIC"就可以认为是RLE。反之为LRE。RLE和LRE是用来把一段文章分成不同层次的句子来处理的。比如刚才的句子中，在算法的处理过程中，会分成三个句子来分别处理，english text作为第0层的句子，I AM ARABIC作为第1层的句子，at the end 作为第2层的句子。

上面谈到的层是算法中比较关键的一个概念。其中分成嵌入层次(Embedding Level)和算法处理得将要结束的时候得到的每个字符的层次(Resolved Implicit Level)。嵌入层次由上面提到的RLE和LRE决定。

然后是RLM和LRM。英文里面叫Right-to-Left-Mark和Left-to-Right-Mark，是不可见的特殊字符。RLM可以认为是RTL排版的语言里面的一个强字符，而LRM可以认为是LTR排版的语言里面的一个强字符。

上面提到的强字符是也是一种很关键的概念。所谓强字符表示排版的系统知道这个字符是RTL的字符，任何一个阿拉伯的字符和希伯来的字符都可以认为是强字符(其类型为RTL)，其他LTR语言的字母，文字也是强字符（其类型为LTR)。相对应的是弱字符，即排版系统不知道这个字符属于RTL还是LTR的字符，这种字符的排版取决于很多的因素（就是下面的算法的关键了）。比如数字 - 1，2，3...。还有一种是中性字符，比如标点符号 - 括号，逗号，句号...；空格。注意：引号并不总是（其实我还不太确定不成双成对的引号的处理办法，但如果引号是成双成对的话，那肯定是作为嵌入句子的分符号）代表中性字符，因为引号用来区分开不同的各个不同层的句子，以后会出现回各个不同句子的分割处。

排版最后要区分出来的是每个字符的方向，分成R和L两种。R表示向右，L表示想左。RTL强字符的方向是R，LTR强字符的方向是L。

算法步骤

1. 拆分文章成一行一行

排版的开始需要将一段话分配到不同的行，不管是从左到右，还是从右到左，每行能够容纳的字符的数量是定的。因此系统会从第一个字符开始，一个一个字符计算宽度，当累积的宽度超过一行时，就从当前的字符断开，将之前所有的字符作为下面处理的基础。根据断行的不同，最终的排版的效果可能会有很根本的区别。
比如：

abc "I AM ARABIC" 2 ARABIC

如果到2的时候就断行，则abc "I AM ARABIC" 2会作为一行句子处理，这时候2会认为是前面I AM ARABIC" 2 的一部分，第一行会分成abc 和 I AM ARABIC" 2两句话（注意第一个引号作为嵌入的标志而移出了，第二个引号因为后面跟的是2，并不认为是嵌入的结束，因此作为句子的一部分进行处理了）；而如果是到2前面断行，则第一行会分成 abc 和 I AM ARABIC两句（两个引号都认为是嵌入的标志）。

2. 拆分一行为不同层次的句子

根据引号（包括单双引号），把句子分成不同层次的句子。

比如：

abc "ARABIC english text" HEBREW TEXT

分成三个句子，

abc
ARABIC english text
HEBREW TEXT

3. 决定每个句子的层次和方向

首先要从段落的初次层次说起。段落的初始层次可以是0和1，取决于当前段落的基本方向，如果基本方向是L，则为0，或者为1。当前段落的基本方向由段落中第一个强字符的方向决定，比如abc ARABIC 的初始层次为0，而(23) A abc的初始层次为1。但是如果在段落的更高层次的地方声明了段落的方向，则由声明的方向决定。

比如HTML中的dir属性，就可以定义段落的方向。<div dir="rtl">abc</div>将段落的方向定义为R，其初始层次为1。
然后每个句子的初始层次分别递增。

比如以上abc "ARABIC english text" HEBREW TEXT会分层以下的层次

0: abc
1: ARABIC english text
2: HEBREW TEXT

4.确定一行中每个句子开始的方向和结束的方向

句子开始的方向和结束的方向是用来决定句子的开头或者结尾没有的弱字符。如123ab()这里的123就要根据句子开始的方向来决定（如何决定下面会提到），()则要根据句子结束的方向辅助来判断。
算法大概是这样的，一行最开始的句子的方向为段落的方向，结束的方向与开始的方向相反，以此类推下去。但一行最后一个句子结束的方向也和段落的方向一样。
我们用sor (start of level run)来表示句子的开始的方向，eor表示句子结束的方向。

比如abc "ARABIC english text" HEBREW TEXT如果段落的方向为R，则

sor=R      abc                                        eor=L
sor=L      ARABIC english text               eor=R
sor=R      text                                        eor=R

最后一个eor=R是因为段落的方向为R。

5. 标记每个句子中每个强字符的方向

强字符的方向是很容易确定的，RTL强字符的方向是R，LTR强字符的方向是L。
比如：

步骤 0 b c 空格 1 2 3 空格 A ( 4 d 5 ) B C 6 .
第5步后
LL

R

L

RR

6. 标记弱字符的方向

弱字符主要是数字。从弱字符往前面查抄，知道找到上一步标记的L，R或sor为止。如果找到L（如果sor为L，也算），则将弱字符标记成L。
比如 (当前句子的sor为R)

步骤 0 b c 空格 1 2 3 空格 A ( 4 d 5 ) B C 6 .
第5步后
LL

R

L

RR

第6步后
LL
LLL
R

LL
RR

上面例子中，0找到的sor（为R），不标记。1，2，3都找到字符c，其为L，因此标记为L。5找到d，也为L。4找到A（为R），不标记。6找到C（为R），不标记。

7. 标记中性字符的方向

两个R之间的中性字符标记成R，两个L之间的中性字符标记成L。注意，因为在第6步的时候所有的数字，如果表现为L的话，都已经标记成了L了，所以现在剩下的所有的数字都表现（这里用表现表示其行为上一致，但因为后面有和R不同的行为，所以不标记成R）为R，我们可以将数字表示成EN（European Number）（实际上有AN和EN之分，AN表示Arabic Number，为现在阿拉伯文字中用的数字-不同于我们熟悉的阿拉伯数字；EN表示欧洲标准的数字，其实就是我们熟悉的阿拉伯数字。但因为这两者没有排版上的根本区别，这里都用EN表示）。同时在这一步的时候，sor作为第一个字符的相邻字符，eor作为最后一个字符的相邻字符。
在上面的步骤之后，其他剩下的与sor的方向一样。

比如 (当前句子的sor为R)

步骤 0 b c 空格 1 2 3 空格 A ( 4 d 5 ) B C 6 .
第5步后
LL

R

L

RR

第6步后
LL
LLL
R

LL
RR

第7步后 RLLLLLLRRRENLLRRRENR

0因为相邻的sor和b分别为R和L，取sor方向。第一个空格因为相邻的都为L，方向为L。第二个空格相邻的3和A分别为L和R，取sor方向。"（"相邻的A和4都为R（4也认为是R），方向为R。"）"相邻的5和B分别为L和R，取sor方向。"."相邻为6和eor，都为R，取R。

8.标记每个字符的层次

根据当前句子的层次（用EL表示），标记每个字符的层次：

字符的

方向（类型）

句子的层次偶数奇数LELEL+1REL+1ELENEL+2EL+1

如果当前的层次为1，则

步骤 0 b c 空格 1 2 3 空格 A ( 4 d 5 ) B C 6 .
第5步后
LL

R

L

RR

第6步后
LL
LLL
R

LL
RR

第7步后 RLLLLLLRRRENLLRRRENR
第8步后122222211122211121

如果当前的层次为0，则

步骤 0 b c 空格 1 2 3 空格 A ( 4 d 5 ) B C 6 .
第5步后
LL

R

L

RR

第6步后
LL
LLL
R

LL
RR

第7步后 RLLLLLLRRRENLLRRRENR
第8步后100000011120011121

9. 根据层次反转字符

从当前句子的最高的层次开始，反转当前和以上层的字符。一直到第1层为止。

比如
如果当前的层次为1，则

步骤 0 b c 空格 1 2 3 空格 A ( 4 d 5 ) B C 6 .
第5步后
LL

R

L

RR

第6步后
LL
LLL
R

LL
RR

第7步后 RLLLLLLRRRENLLRRRENR
第8步后122222211122211121
开始0bc 123 A(4d5)BC6.反转第2层0321 cb A(5d4)BC6.反转第1层以上.6CB(4d5)A bc 1230

如果当前的层次为0，则

步骤 0 b c 空格 1 2 3 空格 A ( 4 d 5 ) B C 6 .
第5步后
LL

R

L

RR

第6步后
LL
LLL
R

LL
RR

第7步后 RLLLLLLRRRENLLRRRENR
第8步后100000011120011121
开始0bc 123 A(4d5)BC6.反转第2层0bc 123 A(4d5)BC6.反转第1层以上0bc 1234(A d5.6CB)

例子及修正方法

1. 例子一

注意：一下的例子中大写字母不再表示阿拉伯文，这种字符 ينمتم 才是阿拉伯文
在阿拉伯的网页中，我们有以下的文字要显示 English (UK)，因为当前的网页由以下的声明<div dir="rtl">，因此我们的段落的基本方向为R，这句直接作为一个句子进行处理。其sor为R，eor为R。

步骤 E n g l i s h 空格 ( U K ) 第5步后L L L L L L L

L L 第6步后L L L L L L L

L L 第7步后LLLLLLLLLLLR第8步后222222222221开始English (UK)反转第2层KU( hsilgnE)反转第1层以上)English (UK

因此字符会显示成 ")English (UK" （实际上会显示成 "(English (UK" 因为显示的时候会根据字符的特性作一些自身的反转，比如")"会被反转成"(").

如何修正呢？

我们可以在左括号的前面几上一个RLM字符（&#x200F），右括号的后面加上一个RLM字符。RLM字符并不会显示。这样计算就变成

步骤 E n g l i s h 空格 RLM( U K ) RLM 第5步后L L L L L L L
R
L L
R 第6步后L L L L L L L
R
L L
R 第7步后LLLLLLLRRR LLR R 第8步后2222222111221 1 开始English (UK)反转第2层hsilgnE (KU)反转第1层以上(UK) English

因此字符会显示成 (UK) English，就是我们在RTL里面想要的排版。