分词IKAnalyze
来源:互联网 发布:windows虚拟机软件 编辑:程序博客网 时间:2024/05/05 11:00
英文分词
“`JAVA
public class Test {
public static void main(String[] args) {
try {
File file = new File(“E:\workspace\try\src\english.txt”);
FileReader stopWords = new FileReader(“E:\workspace\try\src\stopword.txt”);
Reader reader = new FileReader(file);
Analyzer a = new StandardAnalyzer(Version.LUCENE_20,stopWords);
TokenStream ts = a.tokenStream(“”, reader);
Token t = null;
int n = 0;
while(ts.incrementToken()){
n ++ ;
CharTermAttribute charTermAttribute = ts.getAttribute(CharTermAttribute.class);
System.out.println(“词条”+n+”的内容为 :”+charTermAttribute.toString());
}
System.out.println(“== 共有词条 “+n+” 条 ==”);
} catch (Exception e) {
e.printStackTrace();
}
}
}
中文分词(加载停用词)
“`JAVA
String stopWordTable = “src\stopword.txt”;
BufferedReader StopWordFileBr = new BufferedReader(new FileReader(stopWordTable));
Set stopWordSet = new HashSet();
String stopWord = null;
for(; (stopWord = StopWordFileBr.readLine()) != null;){
stopWordSet.add(stopWord);
}
//开始分词
IKAnalyzer analyzer = new IKAnalyzer(true);
analyzer.setUseSmart(true);
ArrayList cutedString = new ArrayList();
StringReader reader = new StringReader(str);
TokenStream tokenStream = analyzer.tokenStream(“text”, reader);
tokenStream.addAttribute(CharTermAttribute.class);
try {
while (tokenStream.incrementToken()) {
CharTermAttribute charTermAttribute = tokenStream
.getAttribute(CharTermAttribute.class);
if(stopWordSet.contains(charTermAttribute.toString())) {
continue;
}
cutedString.add(charTermAttribute.toString());
}
} catch (IOException e) {
e.printStackTrace();
}
reader.close();
System.out.print(“分词结果:”);
for(String word : cutedString){
System.out.print(word+’|’);
}
- 分词IKAnalyze
- 分词
- 分词
- 分词
- 分词
- 分词
- 分词
- 分词
- 分词:分词词典CIPP_JS
- lucene分词器分词
- PHP分词
- 中文分词
- 中文分词
- 中文分词
- lucene分词
- Java分词
- 分词系统
- 中文分词
- MySQL——InnoDB锁问题(六)
- Spark Yarn-cluster 与 Yarn-client
- PHP Ajax 跨域问题
- uva11722 Joining with Friend
- 基于dialog的可移动的自定义键盘
- 分词IKAnalyze
- intent详解(二)
- k-近邻算法(Python实现)
- 使用JAVA向微软消息队列(MSMQ)发送和接收消息
- 使用nginx+tomcat负载均衡
- Java 编程题自动评分技术的研究与实现(一)
- 分库分表中间件
- 相机校正
- php伪静态--mod_rewrite 详解