用UltraEdit把98年人民日报语料转换成CRF++输入的格式（巧用正则表达式）

来源：互联网发布：天天助手计划软件编辑：程序博客网时间：2024/06/15 18:56

98年人民日报或者微软亚洲研究院的语料格式都是这样的，例如：

我们行程接近尾声才算领教到了/O 北京/LOC 的狂风沙尘。/O

”北京“是地名，”/LOC“是实体类型，其他所有内容都属于other，即在北京前面的所有内容都标记为”/O“，北京后面的所有内容也标记为”/O“.

CRF++的格式是一行一个字，例如：

领 O

教 O

到 O

了 O

北 B-LOC

京 E-LOC

的 O

狂 O

所以，需要用正则把每个汉字后面加上一个换行，UltraEdit里面的换行符是”^p“，常用的匹配汉字的正则表达式是[\u4e00-\u9fa5]，但是直接这样写是匹配不到内容的，因为那是Unicode的编码，正确的表达式应该是[^一-龥]，别看他长得古怪，但却是管用。

到此为止，匹配汉字还是会有问题，因为会把汉字拆成半个半个字符，需要改下UltraEdit的设置：

1.另存为“UTF-16”格式

2.选择Unix风格的正则表达式。方法：高级——配置——搜索，选中右侧的“Unix风格的正则表达式”

3.高级——设置代码页/本地，“系统中已安装的代码页”，选择“936（ANSI/OEM-简体中文GBK）”；“系统已安装的地区”选择"中文（中国）中国人们共和国"。

（参见：http://hi.baidu.com/stonewang/item/2a90de33e6663720b3c0c56b）

现在，可以正确的匹配每一个汉字了。接下来就是在匹配到的汉字后面加一个换行符，这里需要用到UltraEdit的逆向引用，意思就是说把用正则匹配到的内容取出来。语法就是，把要取出来的那部分内容用小括号括起来，OK！那怎么引用呢？用反斜杠加数字！例如“\1”，这表示第一个小括号匹配到的那部分内容，“\2”表示第二层小括号匹配到的那层内容。

匹配每个汉字，并在汉字后面加换行符，具体如下：

查找：([^一-龥])

替换为：\1^p