jcseg中文分词器去除不需要的分词
来源:互联网 发布:淘宝花王海外旗舰店 编辑:程序博客网 时间:2024/05/16 11:43
今天观察我的网站省淘网时,发现好多相关搜索结果,都是关键词“的”的命中。
一开始想自己把字符串里的“的”replace掉得了,但是一想,jcseg应该有这个功能吧。
翻阅了说明文档后,最终发现,默认的配置文件没有开启自动过滤停止词(其实就是去掉不想要的分词)
具体设置:
默认的配置文件在jcseg-core-1.9.1.jar包里:jcseg.properties
#是否自动过滤停止词(0 关闭, 1 开启)
jcseg.clearstopword=1
这个配置默认是0,改成1,重启后就开始了。
具体的停止词,在词库文件:lib/lexicon/lex-stopword.lex
自己想要的可以加,我加了一些符号。
一开始想自己把字符串里的“的”replace掉得了,但是一想,jcseg应该有这个功能吧。
翻阅了说明文档后,最终发现,默认的配置文件没有开启自动过滤停止词(其实就是去掉不想要的分词)
具体设置:
默认的配置文件在jcseg-core-1.9.1.jar包里:jcseg.properties
#是否自动过滤停止词(0 关闭, 1 开启)
jcseg.clearstopword=1
这个配置默认是0,改成1,重启后就开始了。
具体的停止词,在词库文件:lib/lexicon/lex-stopword.lex
自己想要的可以加,我加了一些符号。
0 0
- jcseg中文分词器去除不需要的分词
- 中文分词器 jcseg
- Lucene中文分词Jcseg
- Jcseg分词器的实现详解
- jcseg分词
- 一步一步跟我学习lucene(4)---lucene的中文分词器jcseg和IK Analyzer分词器及其使用说明
- IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
- IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
- IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
- Luence 4.4 Jcseg中文分词简单测试
- word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比
- word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比
- Jcseg分词 介绍
- jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本
- jcseg-1.9.4 发布 - Java轻量级开源中文分词器-检测模式切分
- 搜索引擎:solr--搭建和分析中文分词器。下(jcseg和ICTCLAS)
- lucene的中文分词器
- lucene的中文分词器
- Oracle 深入解析B-Tree索引与Bitmap位图索引的锁代价
- Centos虚拟机上安装VMWare Tools
- linux命令--uname
- VS2008实现QT编程
- 关于Eclipse代码补全的一点小技巧
- jcseg中文分词器去除不需要的分词
- Java 多线程同步 锁机制与synchronized
- 神经网络
- Android 借助aChartEngine实现饼图,折线图,柱状图
- css3 box-shadow
- NSBundle介绍
- 你几乎不用礯啊拍卖会就开了欧罗路
- 核函数方法
- WordNet Interface(Wordnet一些有用的函数,做了一下标注方便查找)