java 将英文文章 按句子,标点符号分割,正则表达式
来源:互联网 发布:淘宝上哪个冒菜好吃 编辑:程序博客网 时间:2024/05/22 12:04
package com.gao;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStreamReader;import java.nio.charset.Charset;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;public class TestMain {private static final int MIN_THRESHOLD = 50;private static final int MAX_THRESHOLD = 80;private static List<String> list = new ArrayList<String>();/** * @param args */public static void main(String[] args) {String str = null;try {InputStreamReader isr = new InputStreamReader(new FileInputStream(new File("D:\\Users\\gao\\Desktop\\1.txt")),Charset.defaultCharset());BufferedReader br = new BufferedReader(isr);StringBuffer sb = new StringBuffer(MAX_THRESHOLD);while ((str=br.readLine())!=null) {//String [] substrs = str.split("。|\\?|\\!|\\?|\\.|!");/*正则表达式:句子结束符*/String regEx="[。?!?.!]";Pattern p =Pattern.compile(regEx);Matcher m = p.matcher(str);/*按照句子结束符分割句子*/String[] substrs = p.split(str);/*将句子结束符连接到相应的句子后*/if(substrs.length > 0){ int count = 0; while(count < substrs.length) { if(m.find()) { substrs[count] += m.group(); } count++; }}// //String [] substrs = str.split("[。?!?.!]"); for (int i=0;i<substrs.length;i++) {if (substrs[i].length()<MIN_THRESHOLD) {//语句小于要求的分割粒度sb.append(substrs[i]);//sb.append("||");if (sb.length()>MIN_THRESHOLD) {//System.out.println("A New TU: " + sb.toString());list.add(sb.toString());sb.delete(0, sb.length());}}else {//语句满足要求的分割粒度if(sb.length()!=0)//此时如果缓存有内容则应该先将缓存存入再存substrs[i]的内容 以保证原文顺序{list.add(sb.toString());//System.out.println("A New Tu:"+sb.toString());sb.delete(0, sb.length());}list.add(substrs[i]);//System.out.println("A New Tu:"+substrs[i]);}}}br.close();isr.close();//将分割好的tu放入List中以便传入数据库for (Iterator i = list.iterator(); i.hasNext();){ System.out.println(i.next()); }} catch (FileNotFoundException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}}}
0 0
- java 将英文文章 按句子,标点符号分割,正则表达式
- 句子分割 保留标点符号
- java 正则表达式去除标点符号
- java正则表达式验证标点符号
- java正则表达式去掉标点符号
- java 正则表达式去除标点符号
- java 正则表达式去除标点符号
- Java清除标点符号的正则表达式
- Java清除标点符号的正则表达式
- 正则表达式匹配标点符号
- 正则表达式匹配标点符号
- 标点符号的正则表达式
- 正则表达式-匹配标点符号
- 正则表达式-匹配标点符号
- 用正则表达式去掉多余的空格与标点符号 Java
- 读入一行英文句子,将每个单词倒置后,输出这个单词倒置后的句子,空格和标点符号不做处理
- 去掉英文句子中重复出现的单词和标点符号
- 将英文句子 按单词拆分 并获取range、index
- 内存对齐
- C和指针第一章
- 初学Java,使用swicth与c#的不同(三)
- 面试
- nand
- java 将英文文章 按句子,标点符号分割,正则表达式
- 简介获取图片
- [LeetCode] Reverse Integer
- 1014.排名
- FS:0与FS:[0]
- SRM 616
- uboot完全注释
- MySQL:vs2008下c#连接MySQL数据库
- 匈牙利算法