如何分词?
来源:互联网 发布:snow序列密码算法 编辑:程序博客网 时间:2024/04/28 07:30
常用的分词算法有正向最大匹配、逆向最大匹配、双向最大匹配、最佳匹配法、最少分词法、词网格算法等等。
最大匹配法(Forward Maximum Matching method, FMM法):选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。
逆向最大匹配法(Backward Maximum Matching method, BMM法):匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。
双向匹配法(Bi-direction Matching method, BM法):比较MM法与RMM法的切分结果,从而决定正确的切分。
最佳匹配法(Optimum Matching method, OM法):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。
- 如何分词?
- PHP如何进行中文分词?
- sphinx中文分词检索 如何让分词的精确度更高
- Lucene.net+盘古分词:如何做到按需分词,新增盘古分词词库
- 分词
- 分词
- 分词
- 分词
- 分词
- 分词
- 分词
- Nutch中如何实现中文分词功能
- Nutch中如何实现中文分词功能
- Elasticsearch如何安装中文分词插件ik
- Elasticsearch如何安装中文分词插件ik
- ES中如何使用逗号来分词
- 如何使用word2vec进行分词训练
- 如何构建高性能分词系统?(手把手教你做分词系统)
- LINUX下面挂载windows盘的方法
- 噢~已二十四了。。。
- 环形缓冲区的实现原理
- 第一篇文章
- 在centos5下安装配置VNC
- 如何分词?
- skip_list(推荐篇文章)
- apache
- (转载) Xmodem 协议
- lucene-2.9.0发布新版
- fatal error LNK1103: debugging information corrupt; recompile module
- TrueType和OpenType字库简介
- 克制浮躁的法宝
- 求助,想用VB将二进制文件转为文本文件,怎么转呢?