Lucene的分词器? 常用分词器介绍
来源:互联网 发布:手机号码信息查询软件 编辑:程序博客网 时间:2024/06/07 18:35
WhitespaceAnalyzer
仅仅是去掉了空格,没有其他任何操作,不支持中文。
SimpleAnalyzer
讲除了字母以外的符号全部去除,并且讲所有字符变为小写,需要注意的是这个分词器同样把数据也去除了,同样不支持中文。
StopAnalyzer
这个和SimpleAnalyzer类似,不过比他增加了一个的是,在其基础上还去除了所谓的stop words,比如the, a, this这些。这个也是不支持中文的。
StandardAnalyzer
英文方面的处理和StopAnalyzer一样的,对中文支持,使用的是单字切割。
CJKAnalyzer
这个支持中日韩,前三个字母也就是这三个国家的缩写。这个对于中文基本上不怎么用吧,对中文的支持很烂,它是用每两个字作为分割,分割方式个人感觉比较奇葩,我会在下面比较举例。
SmartChineseAnalyzer
中文的分词。比较标准的中文分词,对一些搜索处理的并不是很好
阅读全文
0 0
- Lucene的分词器? 常用分词器介绍
- lucene分词器介绍
- lucene分词器分词
- Lucene中常用的几个分词器
- lucene分词器分词demo
- lucene的中文分词器
- lucene--分词器的分析
- lucene的中文分词器
- Lucene的分词器Analyzer
- Lucene的分词器Analyzer
- Lucene的分词器Analyzer
- Lucene的分词器Analyzer
- lucene常见的分词器
- lucene--分词器的分析
- lucene的中文分词器
- Lucene.Net+盘古分词器(详细介绍)
- Lucene.Net+盘古分词器(详细介绍)
- 基于lucene的案例开发:分词器介绍
- SQL Server2008学习之(二) :软件下载与安装
- 世界名人的睡眠与成功
- Centos 7 配置LAMP 服务(建站)
- poj 2947 Widget Factory(高斯消元)
- 关于循环
- Lucene的分词器? 常用分词器介绍
- Java RMI 框架(远程方法调用)
- Linux笔记(一)基础
- 打铁感悟
- 268. Missing Number
- LeetCode125. Valid Palindrome
- 负数的十进制转二进制
- php数组的常用函数
- css样式中空白边的合并