【分享】Lucene.Net的中文分词组件AdvancedChineseAnalyzer
来源:互联网 发布:ubuntu安装bootrepair 编辑:程序博客网 时间:2024/05/05 11:14
库名称:AdvancedChineseAnalyzer 高级中文文本分析器
描述:A Chinese Analyzer that utilizes HMM. 基于隐马尔科夫模型的中文分析器。
运行环境:Microsoft .Net Framework 2.0
依存软件:Lucene.Net
作者:Kelvin ZHANG (kelvin.cn{@t}56.com)
授权:Free for noncommercial use 对非盈利使用免费
下载:
http://www.cnblogs.com/Files/KelvinZhang/AdvancedChineseAnalyzer.part1.rar
http://www.cnblogs.com/Files/KelvinZhang/AdvancedChineseAnalyzer.part2.rar
http://www.cnblogs.com/Files/KelvinZhang/AdvancedChineseAnalyzer.part3.rar
【1】为什么要分词?
减小索引大小,减少搜索开销,提高响应速度,改善搜索结果的相关性。
【2】与以往Lucene.Net的NLS包中提供的ChineseAnalyzer有什么不同?
NLS中的ChineseAnalyzer只简单地将连续字串两两组合,例如,对“文本分析器”进行分析,将得到“文本”、“本分”、“分析”和“析器”。而使用AdvancedChineseAnalyzer分析,将得到“文本”、“分析器”两个Tokens。AdvancedChineseAnalyzer的分词算法有两种,一种基于“上下文无关的词频优选”,第二种则是基于“一阶隐马尔科夫模型(HMM)”。
【3】这两种算法的分词正确率和速度各如何?
排除人名,地面等专有未登录词不算,HMM模式下切分正确率达到98%,非HMM模式下达到94%左右。HMM模式每秒可以处理75kbps文本,非HMM模式速度在100kbps左右。两种模式可以自由切换。
【4】怎样才能将AdvancedChineseAnalyzer结合Lucene.Net使用?
【5】AdvancedChineseAnalyzer是免费的吗?
是的,个人以非盈利目的的使用是免费的。但作者不提供技术支持,也不保证AdvancedChineseAnalyzer没有问题。Use it at your own risk.
【6】如何开启HMM模式?
【7】为何输入文本和输出的不一样,少了很多(见图)?
已经过滤了停用词。常见的无意义虚词、标点符号、英文停用词等都已经过滤掉了。
描述:A Chinese Analyzer that utilizes HMM. 基于隐马尔科夫模型的中文分析器。
运行环境:Microsoft .Net Framework 2.0
依存软件:Lucene.Net
作者:Kelvin ZHANG (kelvin.cn{@t}56.com)
授权:Free for noncommercial use 对非盈利使用免费
下载:
http://www.cnblogs.com/Files/KelvinZhang/AdvancedChineseAnalyzer.part1.rar
http://www.cnblogs.com/Files/KelvinZhang/AdvancedChineseAnalyzer.part2.rar
http://www.cnblogs.com/Files/KelvinZhang/AdvancedChineseAnalyzer.part3.rar
【1】为什么要分词?
减小索引大小,减少搜索开销,提高响应速度,改善搜索结果的相关性。
【2】与以往Lucene.Net的NLS包中提供的ChineseAnalyzer有什么不同?
NLS中的ChineseAnalyzer只简单地将连续字串两两组合,例如,对“文本分析器”进行分析,将得到“文本”、“本分”、“分析”和“析器”。而使用AdvancedChineseAnalyzer分析,将得到“文本”、“分析器”两个Tokens。AdvancedChineseAnalyzer的分词算法有两种,一种基于“上下文无关的词频优选”,第二种则是基于“一阶隐马尔科夫模型(HMM)”。
【3】这两种算法的分词正确率和速度各如何?
排除人名,地面等专有未登录词不算,HMM模式下切分正确率达到98%,非HMM模式下达到94%左右。HMM模式每秒可以处理75kbps文本,非HMM模式速度在100kbps左右。两种模式可以自由切换。
【4】怎样才能将AdvancedChineseAnalyzer结合Lucene.Net使用?
1 Lucene.Net.Analysis.Analyzer objCA = new Lucene.Net.Analysis.China.ChineseAnalyzer();
然后把objCA传递给IndexWriter的构造函数就可以了。【5】AdvancedChineseAnalyzer是免费的吗?
是的,个人以非盈利目的的使用是免费的。但作者不提供技术支持,也不保证AdvancedChineseAnalyzer没有问题。Use it at your own risk.
【6】如何开启HMM模式?
1 Lucene.Net.Analysis.China.ConfigParameter.UseHmm = true;
【7】为何输入文本和输出的不一样,少了很多(见图)?
已经过滤了停用词。常见的无意义虚词、标点符号、英文停用词等都已经过滤掉了。
- 【分享】Lucene.Net的中文分词组件AdvancedChineseAnalyzer
- 【分享】Lucene.Net的中文分词组件AdvancedChineseAnalyzer
- 分享Lucene中文分词组件"IK Analyzer V3.2.8"
- Lucene.net中文分词探究
- Lucene.net中文分词探究
- Lucene.net中文分词探究
- Lucene.net中文分词探究
- Lucene.net中文分词探究
- Lucene.net中文分词探究
- .Net下的中文分词IKAnalyzerNet(基于Lucene.Net)
- Lucene中文分词组件JE-Analysis1.4.0
- Lucene中文分词组件 JE-Analysis
- lucene之 MMAnalyzer 中文分词组件
- 关于Lucene.net中文分词后的结果着色问题
- lucene的中文分词器
- Lucene 中文分词的理解
- Lucene中文分词的链接
- lucene的中文分词器
- Lucene.Net初识(2)
- ORACLE的tns配置
- 利用Lucene.net搜索引擎进行多条件搜索的做法
- Struts控制器组件-Action
- .NET2.0抓取网页全部链接【月儿原创】
- 【分享】Lucene.Net的中文分词组件AdvancedChineseAnalyzer
- 用Lucene.Net轻松创建最简单的搜索引擎
- Lucene.net多字段(Fields)、多索引目录(IndexSearcher)搜索
- ORACLE的系统表
- 利用Lucene.Net进行文档递归查询
- Lucene与Tag图
- 如何制作jar文件
- 关键字解析——const
- 发布我的下棋作品--Monkey黑白棋(AI还可以,战胜了不少其它的黑白棋程序)