stanford segmenter加入自定义用户词典
来源:互联网 发布:网络兼职打码员 编辑:程序博客网 时间:2024/06/06 12:28
用stanford segmenter在命令行的方式下对一个文本文件的句子进行分词处理,其中输入文件为:preprocess-$1.txt,输出文件为:$1_seged.txt,命令如下所示:
其中data/dict-chris6.ser.gz为自带的词典库压缩文件,data/cedict.txt,data/ntusd.txt为用户自定义的两个词典文件,词典文件的数据格式是每一行为一个词。
java -mx1g -cp seg.jar edu.stanford.nlp.ie.crf.CRFClassifier -sighanCorporaDict data -loadClassifier data/ctb.gz -testFile preprocess-$1.txt -inputEncoding UTF-8 -sighanPostProcessing true -serDictionary data/dict-chris6.ser.gz,data/cedict.txt,data/ntusd.txt -keepAllWhitespaces false >$1_seged.txt
其中data/dict-chris6.ser.gz为自带的词典库压缩文件,data/cedict.txt,data/ntusd.txt为用户自定义的两个词典文件,词典文件的数据格式是每一行为一个词。
- stanford segmenter加入自定义用户词典
- Stanford Word Segmenter使用
- Stanford Word Segmenter使用
- stanford-segmenter的使用
- NLPIR Java 加入用户词典
- Stanford Chinese Segmenter 的使用
- stanford-segmenter一个简单例子
- stanford-segmenter中文分词基本使用
- 使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现中文命名实体识别
- 使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现英文命名实体识别
- 使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现中文命名实体识别
- 使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现中文命名实体识别
- 使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)实现中文命名实体识
- python调用jieba(结巴)分词 加入自定义词典和去停用词功能
- google向bing学习加入用户自定义皮肤功能
- smack+openfire自定义协议获取当前用户加入的群
- S60自定义词典
- paoding自定义词典使用
- java关于Timer schedule执行定时任务
- 学习笔记之关键字static
- linux yum命令详解
- c++新书电子版下载
- 关于一种HASH值公式 (一句话,不割)
- stanford segmenter加入自定义用户词典
- Java Timer的使用(timer.schedule定时执行)
- COM学习笔记(三)IUnknown接口
- 更新sdk时提示重名失败,安装失败
- Java 单例模式详解
- XMPP协议实现原理介绍
- 黑马程序员-面向对象编程基础
- 排序算法之选择排序
- Java子类与父类的初始化,父类子类內部程序的执行顺序