分词:提高分词准确性的考虑
来源:互联网 发布:淘宝新店采集神器 编辑:程序博客网 时间:2024/05/01 10:01
中科院的ICTCLAS的分词流程为:
一、分词 "张/华/平/欢迎/您"
二、posTagging "张/q 华/j 平/j 欢迎/v 您/r"
三、NE识别:人名识别,音译名
四、重新分词:"张华平/欢迎/
五、重新posTagging:
在流程上进一步作了优化。首先FSA处理有明显特征的项(如域名、日期等);然后ChineseDigitalFilter处理中英文数字(基数、序数、分数、小数);BigramFileter的跌代实现上述概率模型来;最后FMMFilter在已经分好的分词结果的基础上在做一次最大匹配查漏补缺(主要针对“停词”及人名)。其中,BigramFileter为核心部分,在实现是,借助于二元跌代切分的方法实现。
从中我们可以看出:
1)为了提高分词的准确性,可以综合考虑分词,词性标注,实体识别的方法
2)分词的过程的可以考虑采用循环迭代使用上述方法,即:多次拆分和合并
3)分词辞典可以用多个,另外还可能有词性标注辞典,实体辞典
4)分词中应综合考虑编码(简繁,中英及其他语言)
5)分词的对象上:对于数字,日期,百分比等等可以特殊考虑和单独处理
6)分词过程中的多个处理步骤又可以考虑使用多重不同的方法,可以选择最适合的算法来提高准确性
- 分词:提高分词准确性的考虑
- Lucene中文分析器的中文分词准确性和性能比较
- Lucene中文分析器的中文分词准确性和性能比较
- Lucene中文分析器的中文分词准确性和性能比较
- 分词
- 分词
- 分词
- 分词
- 分词
- 分词
- 分词
- 什么是中文分词-中文分词的应用
- 分词:几个免费的中文分词模块
- 分词---几个免费的中文分词模块
- Python分词:结巴分词的安装使用
- 关于中文分词的一元分词讨论
- 关于中文分词的一元分词讨论
- 用nltk colocation功能抽取中文短语和专业词汇增加分词准确性
- asp结合数据库实现无限级分类的存储、再现、管理的源码
- 网页特效
- SQL SERVER学习,太复杂了!
- Anti-Virus Software Gone Wrong
- C#新特性
- 分词:提高分词准确性的考虑
- 如何学好C# 开篇浅论3
- Ajax程序设计入门
- [zz]破解求pi的怪异程序
- symbian数据类型转换
- windows mobile2003se
- 如何编写SMTP邮件服务器
- 六神科技2007第11期重点推荐32码
- 李开复:算法的力量