用UltraEdit把98年人民日报语料转换成CRF++输入的格式(巧用正则表达式)

来源:互联网 发布:天天助手计划软件 编辑:程序博客网 时间:2024/06/15 18:56

98年人民日报或者微软亚洲研究院的语料格式都是这样的,例如:

我们行程接近尾声才算领教到了/O 北京/LOC 的狂风沙尘。/O

”北京“是地名,”/LOC“是实体类型,其他所有内容都属于other,即在北京前面的所有内容都标记为”/O“,北京后面的所有内容也标记为”/O“.

CRF++的格式是一行一个字,例如:

领 O

教 O

到 O

了 O

北 B-LOC

京  E-LOC

的 O

狂 O

所以,需要用正则把每个汉字后面加上一个换行,UltraEdit里面的换行符是”^p“,常用的匹配汉字的正则表达式是[\u4e00-\u9fa5],但是直接这样写是匹配不到内容的,因为那是Unicode的编码,正确的表达式应该是[^一-龥],别看他长得古怪,但却是管用。

到此为止,匹配汉字还是会有问题,因为会把汉字拆成半个半个字符,需要改下UltraEdit的设置:

1.另存为“UTF-16”格式

2.选择Unix风格的正则表达式。方法:高级——配置——搜索,选中右侧的“Unix风格的正则表达式”

3.高级——设置代码页/本地,“系统中已安装的代码页”,选择“936(ANSI/OEM-简体中文GBK)”;“系统已安装的地区”选择"中文(中国)中国人们共和国"。

(参见:http://hi.baidu.com/stonewang/item/2a90de33e6663720b3c0c56b)

现在,可以正确的匹配每一个汉字了。接下来就是在匹配到的汉字后面加一个换行符,这里需要用到UltraEdit的逆向引用,意思就是说把用正则匹配到的内容取出来。语法就是,把要取出来的那部分内容用小括号括起来,OK!那怎么引用呢?用反斜杠加数字!例如“\1”,这表示第一个小括号匹配到的那部分内容,“\2”表示第二层小括号匹配到的那层内容。

匹配每个汉字,并在汉字后面加换行符,具体如下:

查找:([^一-龥])

替换为:\1^p

原创粉丝点击