Sphinx全文检索

来源:互联网 发布:java 0xff 编辑:程序博客网 时间:2024/04/30 09:13
Sphinx全文检索
数据总体分为
结构化数据
非结构化数据 称为全文数据


sphinx的检索大体分为两大部分:索引创建(Indexing)和搜索索引(Search)
创建索引:
全文检索的索引创建过程一般有以下几步:
一些需要创建索引的文章(Documents)。
将原文档传给分词组件(Tokenizer)。
将得到的词元(Token)传给语言处理组件(Linguistic Processor)。
将得到的词(Term)传给索引组件(Indexer))。


如何对索引进行搜索
1.用户输入查询语句。
2.对查询语句进行词法分析,语法分析,及语言处理
3.搜索索引,得到符合语法树的文档
4.根据得到的文档和查询语句的相关性,对结果进行排序。


什么是Sphinx
Shpinx是SQL Phrase Index(查询词组索引)的缩写,Sphinx是一个基于SQL的全文检索引擎
Sphinx 全文检索引擎
Coreseek 支持中文的全文检索引擎


优点:
Sphinx创建索引的速度比mysql生成索引的速度要快


缺点:
必须要有主键
主键必须为整型
不负责数据存储
配置不灵活
原创粉丝点击