coreseek-3.2.13兼容sphinx-0.9.9的配置
来源:互联网 发布:淘宝7.1.0版本下载 编辑:程序博客网 时间:2024/06/05 04:16
coreseek-3.2.13兼容sphinx-0.9.9的配置,可以不经修改,即可直接使用。
不过,为了更好的针对中文进行检索,则需要使用coreseek新增的配置参数,设置中文分词。
以下是中文分词的核心配置,请仔细阅读,应用到自己的配置之中:
source 数据源名称a{#......#该部分的配置,直接采用sphinx的配置,无需更改即可直接使用#......}
index 索引名称a{#以下部分的配置,直接采用sphinx的配置,无需更改即可直接使用#......source= 数据源名称a #对应到sourcepath= var/data/数据源名称adocinfo= externmlock= 0morphology= nonemin_word_len= 1html_strip= 0#......#以上部分的配置,直接采用sphinx的配置,无需更改即可直接使用#以下部分为中文分词核心配置#stopwords= /path/to/stowords.txt的位置charset_dictpath= /usr/local/mmseg3/etc/charset_type= zh_cn.utf-8#charset_table = .................... #需将原有的该配置注释掉ngram_len = 0#以上部分为中文分词核心配置}
mmseg.ini配置:mmseg配置文件之中,可以配置英文和数字的切分细则(例如设置china2008作为整体还是切分为china、2008),详情请查看mmseg.ini配置
中文分词核心配置说明:
charset_dictpath=/usr/local/mmseg3/etc/
表示词典文件的目录,该目录下必须有uni.lib词典文件存在;
uni.lib词典文件的制作,请参考:mmseg词典的构造;特别注意,更换或者修改词典后,需要重新索引数据并重启searchd才能生效。
因为BSD/linux默认安装在/usr/local/mmseg3/etc下面,则使用/usr/local/mmseg3/etc/即可;
如果是在Windows系统下,则为词典所在的实际路径,结尾必须使用/,例如:F:/coreseek-3.2.13-win32/etc/
测试时,如果出现Unigram dictionary load Error或者Segmentation fault,一般为词典路径设置不正确。
charset_type=zh_cn.utf-8
表示启用中文分词功能;否则中文分词功能无效,使用sphinx的其他处理模式。
启用中文分词功能后,需要source数据源之中,读取的数据编码字符集为UTF-8,否则无法正确处理;
如果是xml,则正确输出为UTF-8编码格式即可;
如果是MySQL,则设置读取数据输出字符集为UTF-8即可:
MySQL4.1起可以通过SET NAMES UTF8设定输出字符集为UTF-8,即使原始数据为GBK也可;
MySQL4.1以下版本,请直接联系我们解决GBK或者Latin1输出为UTF-8问题;
#stopwords=......
表示停止词文件,该文件中的词汇不参与搜索;文件格式为普通UTF-8文本文件,每行一个;
#charset_table=......
ngram_len=0
表示取消原有的一元字符切分模式,不对中文分词产生干扰;
charset_table的配置需要注释掉!
ngram_len的配置需要设置为0!
- coreseek-3.2.13兼容sphinx-0.9.9的配置
- Sphinx 0.9.9/Coreseek 3.2的安装与基于MYSQL的配置
- Sphinx 0.9.9/Coreseek 3.2 参考手册
- Sphinx 0.9.9/Coreseek 3.2 参考手册
- coreseek sphinx 安装配置
- sphinx/coreseek配置说明
- CentOS5.4下搭建Coreseek 3.2 / Sphinx 0.9.9
- sphinx的Coreseek安装
- sphinx的Coreseek安装
- 一个可用的coreseek以及sphinx的csft.conf配置
- sphinx的安装配置和中文分词包coreseek
- sphinx的安装配置和中文分词包coreseek
- sphinx的安装配置和中文分词包coreseek
- sphinx的安装配置和中文分词包coreseek
- windows下全文检索引擎sphinx/coreseek的安装配置
- coreseek及sphinx的.conf典型简单配置
- coreseek for sphinx的使用
- Sphinx(Coreseek)
- CString 操作指南
- 毕业生必读:细数办公室的22条潜规则
- 建立个人品牌价值
- g++ 编译和链接
- 莘纪线好像可以到机场了
- coreseek-3.2.13兼容sphinx-0.9.9的配置
- Timer 计时器的初步使用(实现渐入效果)
- 使用C#实现网站用户登录
- CIO应该考虑的九个外包神话和现实
- 红帽中出现”This system is not registered with RHN”的解决方案
- CSS,浅析position中Relative和Absolute
- linux学习资料(转帖收藏)
- Windows及VC编程命名规则
- android Handler