stanford segmenter加入自定义用户词典

来源：互联网发布：网络兼职打码员编辑：程序博客网时间：2024/06/06 12:28

用stanford segmenter在命令行的方式下对一个文本文件的句子进行分词处理,其中输入文件为：preprocess-$1.txt，输出文件为：$1_seged.txt，命令如下所示：

java -mx1g -cp seg.jar edu.stanford.nlp.ie.crf.CRFClassifier     -sighanCorporaDict data     -loadClassifier data/ctb.gz     -testFile preprocess-$1.txt     -inputEncoding UTF-8     -sighanPostProcessing true     -serDictionary data/dict-chris6.ser.gz,data/cedict.txt,data/ntusd.txt     -keepAllWhitespaces false >$1_seged.txt

其中data/dict-chris6.ser.gz为自带的词典库压缩文件，data/cedict.txt,data/ntusd.txt为用户自定义的两个词典文件，词典文件的数据格式是每一行为一个词。

stanford segmenter加入自定义用户词典
Stanford Word Segmenter使用
Stanford Word Segmenter使用
stanford-segmenter的使用
NLPIR Java 加入用户词典
Stanford Chinese Segmenter 的使用
stanford-segmenter一个简单例子
stanford-segmenter中文分词基本使用
使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现中文命名实体识别
使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现英文命名实体识别
使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现中文命名实体识别
使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现中文命名实体识别
使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现中文命名实体识
python调用jieba(结巴)分词加入自定义词典和去停用词功能
google向bing学习加入用户自定义皮肤功能
smack+openfire自定义协议获取当前用户加入的群
S60自定义词典
paoding自定义词典使用
java关于Timer schedule执行定时任务
学习笔记之关键字static
linux yum命令详解
c++新书电子版下载
关于一种HASH值公式（一句话，不割）
stanford segmenter加入自定义用户词典
Java Timer的使用（timer.schedule定时执行）
COM学习笔记（三）IUnknown接口
更新sdk时提示重名失败，安装失败
Java 单例模式详解
XMPP协议实现原理介绍
黑马程序员-面向对象编程基础
排序算法之选择排序
Java子类与父类的初始化，父类子类內部程序的执行顺序