NLP-汉语分词
来源:互联网 发布:swift for windows 编辑:程序博客网 时间:2024/05/20 19:32
这一次的作业是对汉语句子进行分词。原理很简单,就是将字典中存在的词组存起来。再将句子中可能的切分方式依次进行比对,找出字典中存在的最大匹配项作为一次分词。因为不涉及到歧义消除,所以只需要将词组分出来即可。需要进行两种方法,正向最大匹配(FMM)和逆向最大匹配(RMM)。
我用的是最简单、复杂度应该是最高的方法。就是有两个下标,一个开始下标、一个结束下标。分别移动下标来找匹配的分词,找到一个匹配分词就记录下来,然后再继续移动结束下标。如果发现更大的匹配词就丢弃前一个,记录下这一个。如果一直到句子最后都没有更大的匹配词,则说明当前记录下的那一个就是最大的匹配词。然后将已经匹配的词存起来,接着处理之后的句子。需要特别注意的就是下标的移动,很容易就会出现越界的情况。
还有一些新的认识: 使用UTF-8编码输入中文之后,每一个下标对应一个汉字。 而不是C中的一个汉字占两个字节,所以需要两个下标。
调程序的时候遇到一个很奇怪的问题,就是用标准输入流接受字符串输入的时候,第一次没问题,第二次接收输入字符串,然后存进String对象里,再输出出来的时候,前面就会莫名其妙的多一些英文字母。后来想到了一个解决的办法,就是每次接收输入之后,都把输入流reset()一下,就再也没有出现过这种情况了。
0 0
- NLP-汉语分词
- 汉语分词
- NLP分词
- NLP分词
- 《NLP汉语自然语言处理原理与实践》第三章 词汇与分词技术
- NLP汉语自然语言处理原理与实践 3 词汇与分词技术
- 汉语分词算法
- 汉语自动分词
- 汉语分词标准汇总
- NLP:中文分词
- 初识nlp (1 (分词
- nlp技能,jieba分词
- [转载]汉语分词技术综述
- 汉语自动分词研究评述
- 计算语言学之汉语分词
- 使用NLPIR汉语分词系统进行分词
- 【NLP】中文分词:原理及分词算法
- NLP中的中文分词技术
- 2014科技十大名词——如果之前你不知道,证明你是行外人,如果你只是听说,证明你只是是爱好者
- Spring注解@Component、@Repository、@Service、@Controller区别
- 浅谈OCR之Tesseract
- Ubuntu开机时出现"没有正确安装GNOME电源管理器的默认配置
- C#设计模式之备忘录模式(Memento Pattern)
- NLP-汉语分词
- HDU 5072 Coprime
- HDU 1712 - ACboy needs your help(分组背包)
- ubuntu 14.04 amd 64 的JDK的路径配置
- 开篇记
- android平台UniversalImageLoader(异步加载大量图片
- HDU 4804 Campus Design
- Hero
- Hadoop 1.X & Hadoop 2.X 默认端口对比