coreseek分词词表那些事
来源:互联网 发布:实用魔术教学软件 编辑:程序博客网 时间:2024/04/29 19:45
0. 默认词表
coreseek会自带一个分词词表,一般位于
/usr/local/mmseg3/etc/uni.lib
对应的明文原始词表一般位于
/usr/local/mmseg3/etc/unigram.txt
1. 原始词表文件格
格式如下:
暂无 1x:1喜羊羊 1x:1灰太狼 1x:1懒羊羊 1x:1
php中,可以用下面函数将一个key转为原始词表文件中的一条
function _format($key){ return sprintf("%s\t1\nx:1\n", $key);}
2. 词表文件(.lib文件)生成
假设有原始词表文件dict.txt,执行下面的命令
mmseg -u dict.txt
会生成名为dict.txt.uni的词典文件。
若要此文件生效,需要
1. 将其重命名为uni.lib
2. 将uni.lib放到配置文件中charset_dictpath指定的目录
3. 重建索引
4. 重启searchd
3.关于词的长度
mmseg默认支持单个最大词长为5个UTF-8汉字。原始词表中的词若大于此长度,在生成词表时会被截断。如果需要修改,可以如下操作:
1. 找到coreseek源代码目录下的mmseg-**/src/csssegmenter.cpp文件
#define MAX_TOKEN_LENGTH 15 //3*5
将MAX_TOKEN_LENGTH改为你需要的值
2. 重启编译mmseg及coreseek
3. 重新生成词表
4. 可能的问题
- charset_dictpath目录中不但要有一份词典文件,还要有mmseg.ini,否则无法正常工作。
- 原始词表中如果有非法字符,会导致无法建重建索引。生成原始词表时,可以用下面的php函数对key进行过虑
function _check($key) { //只有utf8的汉字,字母组成的串才是合法的 if (!preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z]+$/u", $key)){ return false; } return true;}
0 0
- coreseek分词词表那些事
- coreseek分词词表那些事
- coreseek分词
- jieba分词增加自定义词表
- 分词的那些事
- Coreseek:中英文混合分词
- coreseek分词配置
- coreseek添加mmseg分词
- coreseek 中文分词+精准 应用
- coreseek中LibMMsg中文分词
- coreseek+mmseg实现中文分词
- coreseek增加自定义中文分词
- coreseek中LibMMsg中文分词
- Coreseek中自定义mmseg分词
- coreseek 中文分词 and sphinx
- 为coreseek添加mmseg分词
- 为coreseek添加mmseg分词
- 为coreseek添加mmseg分词
- 基于Retinex的低照度增强算法
- Calendar set时间时,天数加1,月份的改变
- 现代操作系统/深入理解计算机系统:虚拟存储管理
- JSP XML 数据处理
- Android学习笔记040之Handler
- coreseek分词词表那些事
- 【47】2求1+2+3+...+n
- EventBus使用详解
- 访问者模式
- laravel路由404 openvpn客户端安装 apache版本查看 ls详细信息及隐藏文件 laravel项目迁移 2016.08.09回顾
- 解决#安卓手机更新软件后悔,如何回退版本#
- HDU1087 最大子序列和
- 全排列的一些总结
- avcodec_decode_video2解码图像不成功分析