关于分词sphinx和cookindex的简单记录

来源:互联网 发布:combo端口 编辑:程序博客网 时间:2024/05/16 11:25
1、sphinx:【SQL PHARSE INDEX】基于 SQL.全文.检索引擎。
支持中文的cookindex
     数据分类:
全文检索:
结构化数据。有字段,有长度 ,sex,char
非结构化数据。eg word,text。也叫全文数据。无固定格式,无固定长度。




对结构 化的搜索:对文件名,类型,修改时间的搜索。windows下。
对非结构化数据的搜索:grep -E 通过正则搜索。
         可以通过like搜索,like,但是数据量大的情况下,会非常慢。


==对于非结构化的数据搜索也叫对全文数据的检索。

2、对全文数据搜索可以分为: 
1、顺序扫描
2、索引扫描--主键索引。把非结构化的数据中的内容提取出来  一部分重新组织,让他变的有结构化,这部分我们提取出来的数据叫做索引。
3、全文索引大体分为两个过程:
1、索引创建 indexer:将现实世界中所有的结构化和非结构化数据提取
2、搜索索引 search:响应客户查询请求,搜索创建索引,返回结果。
4、分词步骤:php-sphinx-分词组件-语言处理组件-索引组件-生成索引表【包含关键字和文档主键id,可查看词出现的id和频率】--拿到主键id-再从数据库查询
1、
2、分成独立单词,去标点符号,去除停词,保留实态。(无意义的词:的,是,这 个)。
3、将得到的词传给语言处理组件。
4、交给索引主键。
5、注意:必须有主键,必须为整型,不负责数据存储,只存索引。配置不灵活


mysql自带的full text不支持中文,没有sphinx快。




6、配置sphinx比较繁琐:配置文件etc主要包括以下七大快
usr/local/sphinx/etc/sphinx.conf

主数据源,source srcl--数据库,sqlquery语句,
增量数据源 暂时不用配置
主数据索引(对主数据源创建索引)
增量数据索引(对增量数据源索引)
分布式索引
索引器 indexer
sphinx守护进程searchd
0 0
原创粉丝点击