java 处理人民日报98年语料库处理复合标注词
来源:互联网 发布:dnf 登陆器源码 编辑:程序博客网 时间:2024/05/16 03:14
主要处理nz i l
public static void main(String[] args) {
// TODO Auto-generated method stubStringBuffer sb = new StringBuffer();
String tempstr = null;
try {
FileWriter fp = new FileWriter("E:/text/destext.txt");
String path = "E:/text/srctext.txt";
File file = new File(path);
if (!file.exists())
throw new FileNotFoundException();
Pattern pattern1 = Pattern.compile("\\[.*?]n");
Pattern pattern0 = Pattern.compile("\\[.*?]i");
Pattern pattern2 = Pattern.compile("\\[.*?]l");
Pattern pattern3 = Pattern.compile("\\[.*?]nz");
FileInputStream fis = new FileInputStream(file);
BufferedReader br = new BufferedReader(new InputStreamReader(fis));
while ((tempstr = br.readLine()) != null) {
String line = "";
String line1 = "";
// sb.append(tempstr);
Matcher matcher = pattern1.matcher(tempstr);
while (matcher.find()) {
String src = "";
String tmp = "";
for (int j = 0; j <= matcher.groupCount(); j++) {
// System.out.print( matcher.group(j) +" ");
src = matcher.group(j);
tmp = matcher.group(j);
tmp = tmp.replaceAll("/\\w+", "");
tmp = tmp.replaceAll(" ", "");
tmp = tmp.replaceAll("\\[", "");
tmp = tmp.replaceAll("\\]", "/");
System.out.println(tmp);
}
tempstr = tempstr.replace(src, tmp);
System.out.println();
}
Matcher matcher1 = pattern0.matcher(tempstr);
while (matcher1.find()) {
String src = "";
String tmp = "";
for (int j = 0; j <= matcher1.groupCount(); j++) {
src = matcher1.group(j);
tmp = matcher1.group(j);
tmp = tmp.replaceAll("/\\w+", "");
tmp = tmp.replaceAll(" ", "");
tmp = tmp.replaceAll("\\[", "");
tmp = tmp.replaceAll("\\]", "/");
System.out.println(tmp);
}
tempstr =tempstr.replace(src, tmp);
System.out.println();
}
Matcher matcher2 = pattern2.matcher(tempstr);
while (matcher2.find()) {
String src="";
String tmp ="";
for (int j = 0; j <= matcher2.groupCount(); j++)
{
// System.out.print( matcher.group(j) +" ");
src = matcher2.group(j);
tmp= matcher2.group(j);
tmp = tmp.replaceAll("/\\w+", "");
tmp = tmp.replaceAll(" ", "");
tmp = tmp.replaceAll("\\[", "");
tmp = tmp.replaceAll("\\]", "/");
System.out.println(tmp);
}
tempstr =tempstr.replace(src, tmp);
System.out.println();
}
fp.write(tempstr + "\n");
}
fp.close();
} catch (IOException ex) {
System.out.println(ex.getStackTrace());
}
}
0 0
- java 处理人民日报98年语料库处理复合标注词
- python处理人民日报语料库
- Python+CRF处理2014年人民日报语料库
- 人民日报1998年中文标注语料库及读取代码
- 人民日报1998年中文标注语料库及读取代码
- 人民日报1998年中文标注语料库及读取代码
- 人民日报1998年中文标注语料库及读取代码
- 1998年人民日报语料库,词的最长,最短匹配 提取问题,
- 人民日报语料库抓取python实现
- 如何处理标注打架
- 【毕业设计_day06】语料库处理_思路
- python自然语言处理-就职演说语料库
- python自然语言处理之加载本地语料库
- 自然语言处理 之 语料库相关(三)
- 自然语言处理基于java实现(2) 之 词性标注
- arcgis文本标注换行处理
- ArcGis地点名标注处理
- Hibernate复合主键的处理
- Tinker热修复学习笔记
- 团战可以输、提莫必须死
- bgsave出错原因分析
- JavaScript基础
- 【OA】——hibernate映射关系编写技巧
- java 处理人民日报98年语料库处理复合标注词
- No write since last change (add ! to override)
- 利用jackson在json~bean~list之间的转换
- Struts框架(二)——对象
- TCP/IP三次我手四次挥手过程与对应状态转移图
- ZOJ - 2477 dfs [kuangbin带你飞]专题二
- Android 内核--Context对象
- Linux学习笔记
- IIR滤波器设计(调用MATLAB IIR函数来实现)