在DNN中集成ICTCLAS中文分词功能
来源:互联网 发布:.net linux服务器 编辑:程序博客网 时间:2024/05/16 12:04
DNN中默认的分词功能是根据空格来分词,不支持中文和其他语言的分词功能。具体解释可以参看:
DNN搜索引擎研究 http://www.cnblogs.com/Athos/archive/2007/01/19/624979.html
我这里不多说,因为时间关系,我通过简单的修改DNN中的Provider.Search.DataStore工程中的Split处为ICTCLAS的分词功能来实现中文分词。
我采用的是NICTCLAS,具体见下:
http://blog.csdn.net/web718/archive/2008/04/15/2292930.aspx
我在NICTCLAS上添加了以下一个方法和属性,以便实现灵活地加载数据字典。
具体可以参看代码。
因为时间关系,还没做更好的一些改进,主要觉得以下几方面需要改进:
1. 词库词条再多增加点
2. 实现查询结果关键词高亮显示
3. 对于查询结果的排序优化。目前感觉DNN中的查询结果只是根据出现次数以及位置2个参数进行查询结果的排序,感觉不是很好。另外不能实现基于不同类型设置优先级别。
csdn的博客不支持添加附件,所以如有有需要的留邮件在我评论当中。
有以下文件:
SearchDataStore.rar 源代码
nictclas_microdream_alter.rar 修改后的nictclas
DNN_NICTCLAS.rar 编译好的,可以直接用于DNN网站
- 在DNN中集成ICTCLAS中文分词功能
- 在CLucene-2.3.3.4中加入ICTCLAS实现中文分词
- 在lucene中使用ictclas算法 实现对中文分词索引
- CLucene加入ICTCLAS中文分词
- VS C++在工程中添加ICTCLAS分词系统
- 在eclipse中使用NLPIR(ICTCLAS)2013进行分词
- 中科院ICTCLAS中文分词工具C++源码
- 应用ICTCLAS的中文分词小程序
- 【文本分类】最强中文分词系统ICTCLAS
- Python调用PYNIPIR(ICTCLAS)进行中文分词
- 【中文分词】基于ICTCLAS的Python中文分词
- solr中集成中文分词 mmseg4j
- 全文检索4(关于中文分词ICTCLAS分词系统)
- ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注
- ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注
- 在PyCharm(Python集成开发环境)中安装jieba中文分词工具包
- Nutch中如何实现中文分词功能
- Nutch中如何实现中文分词功能
- 金山毒霸9英文版 180天免费试用
- FLUENT Scheme 脚本
- 校内网推出开放平台 创新、共享成就互联网的将来
- log4j
- SQL条件表达式
- 在DNN中集成ICTCLAS中文分词功能
- JavaScript相关知识
- Win CE 平台上java虚拟机CrE-ME的安装
- QPSK调制
- oracle常用函数
- 开源数据库软件hsqldb
- 开博了.呵呵呵
- 基于Windows CE的嵌入式Java解决方案
- Cuyahoga的动态模型分析