关于分词sphinx和cookindex的简单记录
来源:互联网 发布:combo端口 编辑:程序博客网 时间:2024/05/16 11:25
1、sphinx:【SQL PHARSE INDEX】基于 SQL.全文.检索引擎。
支持中文的cookindex
数据分类:
全文检索:
结构化数据。有字段,有长度 ,sex,char
非结构化数据。eg word,text。也叫全文数据。无固定格式,无固定长度。
对结构 化的搜索:对文件名,类型,修改时间的搜索。windows下。
对非结构化数据的搜索:grep -E 通过正则搜索。
可以通过like搜索,like,但是数据量大的情况下,会非常慢。
==对于非结构化的数据搜索也叫对全文数据的检索。
2、对全文数据搜索可以分为:
1、顺序扫描
2、索引扫描--主键索引。把非结构化的数据中的内容提取出来 一部分重新组织,让他变的有结构化,这部分我们提取出来的数据叫做索引。
3、全文索引大体分为两个过程:
1、索引创建 indexer:将现实世界中所有的结构化和非结构化数据提取
2、搜索索引 search:响应客户查询请求,搜索创建索引,返回结果。
4、分词步骤:php-sphinx-分词组件-语言处理组件-索引组件-生成索引表【包含关键字和文档主键id,可查看词出现的id和频率】--拿到主键id-再从数据库查询
1、
2、分成独立单词,去标点符号,去除停词,保留实态。(无意义的词:的,是,这 个)。
3、将得到的词传给语言处理组件。
4、交给索引主键。
5、注意:必须有主键,必须为整型,不负责数据存储,只存索引。配置不灵活
mysql自带的full text不支持中文,没有sphinx快。
6、配置sphinx比较繁琐:配置文件etc主要包括以下七大快
usr/local/sphinx/etc/sphinx.conf
主数据源,source srcl--数据库,sqlquery语句,
增量数据源 暂时不用配置
主数据索引(对主数据源创建索引)
增量数据索引(对增量数据源索引)
分布式索引
索引器 indexer
sphinx守护进程searchd
支持中文的cookindex
数据分类:
全文检索:
结构化数据。有字段,有长度 ,sex,char
非结构化数据。eg word,text。也叫全文数据。无固定格式,无固定长度。
对结构 化的搜索:对文件名,类型,修改时间的搜索。windows下。
对非结构化数据的搜索:grep -E 通过正则搜索。
可以通过like搜索,like,但是数据量大的情况下,会非常慢。
==对于非结构化的数据搜索也叫对全文数据的检索。
2、对全文数据搜索可以分为:
1、顺序扫描
2、索引扫描--主键索引。把非结构化的数据中的内容提取出来 一部分重新组织,让他变的有结构化,这部分我们提取出来的数据叫做索引。
3、全文索引大体分为两个过程:
1、索引创建 indexer:将现实世界中所有的结构化和非结构化数据提取
2、搜索索引 search:响应客户查询请求,搜索创建索引,返回结果。
4、分词步骤:php-sphinx-分词组件-语言处理组件-索引组件-生成索引表【包含关键字和文档主键id,可查看词出现的id和频率】--拿到主键id-再从数据库查询
1、
2、分成独立单词,去标点符号,去除停词,保留实态。(无意义的词:的,是,这 个)。
3、将得到的词传给语言处理组件。
4、交给索引主键。
5、注意:必须有主键,必须为整型,不负责数据存储,只存索引。配置不灵活
mysql自带的full text不支持中文,没有sphinx快。
6、配置sphinx比较繁琐:配置文件etc主要包括以下七大快
usr/local/sphinx/etc/sphinx.conf
主数据源,source srcl--数据库,sqlquery语句,
增量数据源 暂时不用配置
主数据索引(对主数据源创建索引)
增量数据索引(对增量数据源索引)
分布式索引
索引器 indexer
sphinx守护进程searchd
0 0
- 关于分词sphinx和cookindex的简单记录
- sphinx的安装配置和中文分词包coreseek
- sphinx的安装配置和中文分词包coreseek
- sphinx的安装配置和中文分词包coreseek
- sphinx的安装配置和中文分词包coreseek
- sphinx中文分词mmseg的一个bug
- ubuntu sphinx 进行分词的配置
- C# 一个简单分词程序的思路和代码(三) 键树 插入记录
- C# 一个简单分词程序的思路和代码(四) 键树 查询记录
- sphinx中文分词检索 如何让分词的精确度更高
- 二、ubuntu10.0.4下mysql配合sphinx和中文分词的全文搜索
- Linux下带有中文分词的sphinx—coreseek安装和配置--2
- 关于中文分词的统计和规则
- Sphinx中文分词Coreseek+Mmseg安装配置和示例
- 【中文分词-全文搜索】Ubuntu 16.04 Mysql和PHP 配置 Sphinx-for-chinese 及Sphinx的排序筛选分页基本操作
- linux sphinx 中文分词
- sphinx的coreseek4.0中文分词的安装
- 关于AS的简单记录
- 语言模型n-gram
- utf8截取无乱码
- PHP数组排序
- http的安全方法和幂等性
- Android 四大组件生命周期:ContentProvider
- 关于分词sphinx和cookindex的简单记录
- struts2第一个应用
- Android的自动化测试四: 百度的mtc脚本录制工具的使用
- poj 3061
- 关于jvm中字符串的编码解码导致的乱码问题
- Ruby on rails开发从头来(windows)(八)-使用Session创建购物车
- ant 签名android项目 + 打包 android 项目
- 理解Fragment生命周期
- 关于C++中类的占用内存大小