用UltraEdit把98年人民日报语料转换成CRF++输入的格式(巧用正则表达式)
来源:互联网 发布:天天助手计划软件 编辑:程序博客网 时间:2024/06/15 18:56
98年人民日报或者微软亚洲研究院的语料格式都是这样的,例如:
我们行程接近尾声才算领教到了/O 北京/LOC 的狂风沙尘。/O
”北京“是地名,”/LOC“是实体类型,其他所有内容都属于other,即在北京前面的所有内容都标记为”/O“,北京后面的所有内容也标记为”/O“.
CRF++的格式是一行一个字,例如:
领 O
教 O
到 O
了 O
北 B-LOC
京 E-LOC
的 O
狂 O
所以,需要用正则把每个汉字后面加上一个换行,UltraEdit里面的换行符是”^p“,常用的匹配汉字的正则表达式是[\u4e00-\u9fa5],但是直接这样写是匹配不到内容的,因为那是Unicode的编码,正确的表达式应该是[^一-龥],别看他长得古怪,但却是管用。
到此为止,匹配汉字还是会有问题,因为会把汉字拆成半个半个字符,需要改下UltraEdit的设置:
1.另存为“UTF-16”格式
2.选择Unix风格的正则表达式。方法:高级——配置——搜索,选中右侧的“Unix风格的正则表达式”
3.高级——设置代码页/本地,“系统中已安装的代码页”,选择“936(ANSI/OEM-简体中文GBK)”;“系统已安装的地区”选择"中文(中国)中国人们共和国"。
(参见:http://hi.baidu.com/stonewang/item/2a90de33e6663720b3c0c56b)
现在,可以正确的匹配每一个汉字了。接下来就是在匹配到的汉字后面加一个换行符,这里需要用到UltraEdit的逆向引用,意思就是说把用正则匹配到的内容取出来。语法就是,把要取出来的那部分内容用小括号括起来,OK!那怎么引用呢?用反斜杠加数字!例如“\1”,这表示第一个小括号匹配到的那部分内容,“\2”表示第二层小括号匹配到的那层内容。
匹配每个汉字,并在汉字后面加换行符,具体如下:
查找:([^一-龥])
替换为:\1^p
- 用UltraEdit把98年人民日报语料转换成CRF++输入的格式(巧用正则表达式)
- 把普通语料整理成微软格式的CRF语料
- 用正则表达式实现生日输入格式的判断
- mahout处理路透社语料步骤,转换成需要的格式
- 用UltraEdit把文本转换成字符串常量
- UltraEdit (UEStudio)的正则表达式
- UltraEdit 正则表达式的妙用
- 【Java】输入指定格式的邮箱(正则表达式)
- Python+CRF处理2014年人民日报语料库
- 日期格式转换的正则表达式实现
- Java用正则表达式判断输入的电话号码格式是否正确
- Java用正则表达式判断输入的电话号码格式是否正确
- 正则表达式把用逗号分开的字符串转换成数组
- 用正则表达式匹配指定的格式
- 用UltraEdit的正则表达式替换功能来格式化网页源代码
- UltraEdit的正则表达式查找与替换
- UltraEdit+删除空行的正则表达式
- UltraEdit正则表达式
- 定义一个一维数组,写5个函数来完成相应功能,在主函数中调用这5个函数。(要求,函数形参都为指针变量)
- VS 2010 MSDN 独立安装方法
- 请不要绝对相信Microsoft的代码
- 在Web上运行Linux
- SharePoint 2013 配置 查询拼写纠错(Query Spelling Correction)
- 用UltraEdit把98年人民日报语料转换成CRF++输入的格式(巧用正则表达式)
- windows机器连接mac
- log4j配置文件中的additivity属性
- js字符串详解
- linux ll命令参数的详解
- ADO连接本机本地SQLSERVER数据库[基本]
- strdup
- libnet/libnids库函数介绍
- php socket讲解与实例