关于分词sphinx和cookindex的简单记录

来源：互联网发布：combo端口编辑：程序博客网时间：2024/05/16 11:25

1、sphinx：【SQL PHARSE INDEX】基于 SQL.全文.检索引擎。
支持中文的cookindex
数据分类：
全文检索：
结构化数据。有字段，有长度，sex，char
非结构化数据。eg word，text。也叫全文数据。无固定格式，无固定长度。

对结构化的搜索：对文件名，类型，修改时间的搜索。windows下。
对非结构化数据的搜索：grep -E 通过正则搜索。
可以通过like搜索，like，但是数据量大的情况下，会非常慢。

==对于非结构化的数据搜索也叫对全文数据的检索。

2、对全文数据搜索可以分为：
1、顺序扫描
2、索引扫描--主键索引。把非结构化的数据中的内容提取出来一部分重新组织，让他变的有结构化，这部分我们提取出来的数据叫做索引。
3、全文索引大体分为两个过程：
1、索引创建 indexer：将现实世界中所有的结构化和非结构化数据提取
2、搜索索引 search：响应客户查询请求，搜索创建索引，返回结果。
4、分词步骤：php-sphinx-分词组件-语言处理组件-索引组件-生成索引表【包含关键字和文档主键id，可查看词出现的id和频率】--拿到主键id-再从数据库查询
1、
2、分成独立单词，去标点符号，去除停词，保留实态。（无意义的词：的，是，这个）。
3、将得到的词传给语言处理组件。
4、交给索引主键。
5、注意：必须有主键，必须为整型，不负责数据存储，只存索引。配置不灵活

mysql自带的full text不支持中文，没有sphinx快。

6、配置sphinx比较繁琐：配置文件etc主要包括以下七大快
usr/local/sphinx/etc/sphinx.conf

主数据源，source srcl--数据库，sqlquery语句，
增量数据源暂时不用配置
主数据索引（对主数据源创建索引）
增量数据索引（对增量数据源索引）
分布式索引
索引器 indexer
sphinx守护进程searchd

0 0