linux sphinx 中文分词

来源:互联网 发布:网络维护不会可以做吗 编辑:程序博客网 时间:2024/05/18 00:04

1.上传coreseek-3.2.14.tar.gz到用户目录下  
  tar -zxvf coreseek-3.2.14.tar.gz 解压该压缩文件包

2.安装mmseg(中文分词)
  cd coreseek-3.2.14/
  cd mmseg-3.2.14/
  ./configure --prefix=/usr/local/mmseg3
  make && make install 

3.安装coreseek

./configure --prefix=/usr/local/coreseek  --without-unixodbc --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql-includes=/usr/local/server/mysql/include/ --with-mysql-libs=/usr/local/server/mysql/lib/

make & make install
cd /usr/local/coreseek/etc 
cp sphinx.conf.dist csft.conf  将配置文件改名为csft.conf
 vi csft.conf 打开配置文件 更改配置

source xxxx  主源的名称
{
sql_host =localhost
sql_host =root
sql_host =123
sql_host =xxxx
sql_port =3306
sql_sock =/tmp/mysql.sock
sql_query_pre =SET NAMES utf8
sql_query_pre =SET SESSION query_cache_type=OFF
sql_query_pre =select id,title,flag,post,auth,ip,edtime,hits from table表
sql_query_info =SELECT * FROM table WHERE id=$id
}


#source src1throttled:src1  增量源 全部注释
#{
#
#}

index xxxx 主源索引
{
source =xxxx
path =/usr/local/coreseek/var/data/xxx
docinfo = extern
#stopwords 停词    注释掉
#wordforms 文字格式   注释掉
charset_type=zh_cn.utf-8
charset_dictpath=/usr/local/mmseg/etc/
}

#index test1stemmed:test1   增量索引全部注释掉
#{
#
#}

#index dist1分布式索引  全部注释掉
#{
#
#}
indexer  索引生成器  默认就行
{
mem_limit =32M 默认使用内存大小 如果需要可以改大
}
searchd 搜索进程 使用默认
{
}


常用命令:

/usr/local/coreseek/bin/searchd  运行守护进程 

/usr/local/coreseek/bin/searchd --stop 停止服务进程 

/usr/local/coreseek/bin/indexer --all   //创建所有索引

/usr/local/coreseek/bin/indexer index_name  // 创建指定索引

/usr/local/coreseek/bin/search ’关键字搜索‘     //测试搜索





原创粉丝点击