lucene-亚洲语种和unicode字符分析
来源:互联网 发布:手机html源码 编辑:程序博客网 时间:2024/04/30 18:09
1、unicode字符
在lucene内部,所有的字符都是以标准UTF-8编码的,JAVA会在字符串对象内对Unicode编码进行自动处理,从而把我们从这个繁琐的处理任务中解放出来。
2、亚洲语种分析
汉语、日语及韩语(CJK)等亚洲语种一般使用表意文字,需要使用不同的分析方法来识别和分隔语汇单元。
Lucene的Sandbox中有两个用于亚洲语言分析的分析器。使用IndexSearcher查询时跟对英文进行查询的代码一样,但是查询代码所在的JAVA源程序代码必须保存为UTF-8格式的文档。如Hitshits=searcher.search(new TermQuery(new Term("contents","道")));
3、一个示例程序ChineseDemo
public class ChineseDemo{
privatestatic String[] strings=("道德经");
privatestatic Analyzer[] analyzer={
new SimpleAnalyzer(),
new StandardAnalyzer(),
new ChineseAnanlyzer(),//Sandbox的中文分析器
new CJKAnanlyzer()//sandbox的中文分析器
};
publicvoid main(String args[]) throws Exception{
for (int i=0;i<strings.length;i++){
String string=strings[i];
for (int j=0;j<ananlyzer.length;j++){
Analyzer analyzer=analyzer[j];
analyzer(string,analyzer);
}
}
}
privatestatic void analyze(String string,Ananylzer analyzer) throwsIOException{
StringBuffer buffer=new StringBuffer();
Token[]tokens=AnalyzerUtils.tokenSFromAnalysis(analyzer,string);
for(int i=0;i<tokens.length;i++){
buffer.append("[");
buffer.append(tokens[i].termText());
buffer.append("]");
}
String output=buffer.toString();
System.out.println(output);
}
}
结果是:
SimpleAnalyzer输出[道德经]
StandardAnalyzer输出[道][德][经]
ChineseAnalyzer输出[道][德][经]
CJKAnaylyzer输出[道德][德经]
可见CJK将前后相连的字符组合在一起,这样容易产生汉字词组,但同时产生了大量不是词组的词组
- lucene-亚洲语种和unicode字符分析
- 字符转成网页Unicode码的方法,可用于在一个网页上显示多种语种.
- ANSI字符和UNICODE字符
- ANSI和Unicode字符处理
- Unicode和字符编码总结
- ANSI字符和UNICODE字符的转换
- Unicode字符和ANSI字符转换
- str字符和unicode字符的区别
- 分析Unicode和UTF-8
- 分析Unicode和UTF-8
- unicode字符和String类型相互转换
- ANSI 和 Unicode 字符函数对照表
- 字符编码:ASCII,Unicode和UTF-8
- 字符编码:ASCII,Unicode和UTF-8
- unicode字符和String类型相互转换
- 字符编码ANSI和Unicode的比较
- 字符基础 ASCII,DBCS和Unicode
- ANSI、UNICODE和UTF8之间字符转换
- 客观看待ViewState对Asp.net程序作用和影响
- ASCII码表
- lucene-Nutch分析
- 一个诡异的游戏
- 银行业务名词介绍
- lucene-亚洲语种和unicode字符分析
- Ubuntu下删除不用的内核和配置文件
- lucene-词干分析与保留空位和停用词
- CSS凹陷文字
- 隐藏tr
- 支付宝内部的Alipay Tech Day上午场分享
- lucene-语汇单元的位置分析
- lucene-同义词分析器
- yinpan