sphinx中文分词检索 如何让分词的精确度更高
来源:互联网 发布:越南第三军事强国知乎 编辑:程序博客网 时间:2024/04/30 13:25
大家都知道sphinx自带的一些匹配模式。主要有
setMatchMode:
SPH_MATCH_ALL匹配所有查询词(默认模式)
SPH_MATCH_ANY匹配查询词中的任意一个
SPH_MATCH_PHRASE将整个查询看作一个词组,要求按顺序完整匹配
SPH_MATCH_BOOLEAN将查询看作一个布尔表达式
SPH_MATCH_EXTENDED将查询看作一个Sphinx内部查询语言的表达式
SPH_MATCH_FULLSCAN使用完全扫描,忽略查询词汇
SPH_MATCH_EXTENDED2类似 ,并支持评分和权重.
SPH_MATCH_EXTENDED
通常我们想搜索到尽可能多的一句话中的内容,使用的是SPH_MATCH_ANY,但使用它之后,任何关键词中的字都可能做为一个单独的词进行搜索。这样语义不合适。而且这种匹配模式对词频也很有权重,个人感觉得出来的搜索结果不是很准确。
今天介绍的是SPH_MATCH_EXTENDED2,使用过的朋友可能觉得它也要搜索的关键词同时存在才会被搜索出来。是因为SPHINX默认不是通过空格分词的。而是通过""来分。比如两个关键词:我们 他是。如果单这样写
$sphinx->query('我们 他是',index);使用any模式会折成 我 们 他 是 。似乎是一元分词法。而使用extended2则要搜索的字段同时存在这2个词才可以被搜索到。如果写成 $sphinx->query('"我们"|"他是"',index);那么他就会分成我们和他是2个词。而且同时存在的权重高。比较符合搜索规范。
就这样吧~肯定有说的很不正确的地方。大家一起讨论哈~
0 0
- sphinx中文分词检索 如何让分词的精确度更高
- linux sphinx 中文分词
- sphinx中文分词mmseg的一个bug
- sphinx+mysql+中文分词安装
- sphinx mmseg mysql 中文分词
- coreseek 中文分词 and sphinx
- sphinx分布式配置+中文分词
- 打造自己的中文分词器之如何让Lucene认识自己的分词器
- 打造自己的中文分词器之如何让Lucene认识自己的分词器
- sphinx的coreseek4.0中文分词的安装
- linux 下sphinx的中文分词包mmseg安装
- sphinx中文分词技术在ubuntu服务器下的配置
- sphinx的安装配置和中文分词包coreseek
- sphinx的安装配置和中文分词包coreseek
- sphinx的安装配置和中文分词包coreseek
- sphinx的安装配置和中文分词包coreseek
- 中文检索(分词、同义词、权重)
- 全文检索之中文分词
- Leetcode解题-链表(2.2.1)AddTwoNumbers
- UVA 12300 - Smallest Regular Polygon(计算几何)
- iOS数据持久化
- js判断移动,平板跳转页面
- iOS开发-文件管理(一)
- sphinx中文分词检索 如何让分词的精确度更高
- 类的const和非const成员函数的重载
- Python核心编程阅读笔记(一)
- android开发———数据存储之SharedPreferences
- lucene nutch solr及hadoop的区别和联系
- 第一章
- 关于JQuery重复绑定的问题
- ThreadLocal用法和实现原理
- 重温B/S所学知识(一)—HTML