Elasticsearch5.4 安装中文插件的问题

来源:互联网 发布:淘宝专柜正品是真的吗 编辑:程序博客网 时间:2024/05/29 12:09
1:下载编译好的安装包:https://github.com/medcl/elasticsearch-analysis-ik/releases。注意下载版本要对应。2:下载好了之后解压,将解压后的文件夹放在elasticsearch目录下的plugins目录下,并重命名为analysis-ik3:将analysis-ik下config目录整个拷贝到elasticsearch目录下的config目录下,并重命名为ik4: 重启elasticsearch
官网上的第一种方式总是报错 所以只能搞这种方式了
二、分词器的使用

1、ik带有两个分词器:

  • ik_max_word :会将文本做最细粒度的拆分;尽可能多的拆分出词语
  • ik_smart:会做最粗粒度的拆分;已被分出的词语将不会再次被其它词语占有看下边的例子就会明白他们的区别了:ik_smart: 在终端输入以下语句:
  • curl -XGET 'http://127.0.0.1:9200/_analyze?pretty&analyzer=ik_smart' -d '五星红旗迎风飘扬'
  • 返回如下内容:
{  "tokens" : [    {      "token" : "五星红旗",      "start_offset" : 0,      "end_offset" : 4,      "type" : "CN_WORD",      "position" : 0    },    {      "token" : "迎风",      "start_offset" : 4,      "end_offset" : 6,      "type" : "CN_WORD",      "position" : 1    },    {      "token" : "飘扬",      "start_offset" : 6,      "end_offset" : 8,      "type" : "CN_WORD",      "position" : 2    }  ]}

ik_max_word:
在终端输入以下内容:

curl -XGET 'http://127.0.0.1:9200/_analyze?pretty&analyzer=ik_max_word' -d '五星红旗迎风飘扬'

返回如下内容:

{  "tokens" : [    {      "token" : "五星红旗",      "start_offset" : 0,      "end_offset" : 4,      "type" : "CN_WORD",      "position" : 0    },    {      "token" : "五星",      "start_offset" : 0,      "end_offset" : 2,      "type" : "CN_WORD",      "position" : 1    },    {      "token" : "五",      "start_offset" : 0,      "end_offset" : 1,      "type" : "TYPE_CNUM",      "position" : 2    },    {      "token" : "星",      "start_offset" : 1,      "end_offset" : 2,      "type" : "CN_CHAR",      "position" : 3    },    {      "token" : "红旗",      "start_offset" : 2,      "end_offset" : 4,      "type" : "CN_WORD",      "position" : 4    },    {      "token" : "迎风",      "start_offset" : 4,      "end_offset" : 6,      "type" : "CN_WORD",      "position" : 5    },    {      "token" : "飘扬",      "start_offset" : 6,      "end_offset" : 8,      "type" : "CN_WORD",      "position" : 6    },    {      "token" : "飘",      "start_offset" : 6,      "end_offset" : 7,      "type" : "CN_WORD",      "position" : 7    },    {      "token" : "扬",      "start_offset" : 7,      "end_offset" : 8,      "type" : "CN_WORD",      "position" : 8    }  ]}
个人理解:ik_max_word相对来说 分词效果更细微了,所以效率就差了些

阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 新兴铸管股价 新兴铸管股票分析 新兴铸管武安招标网 新兴铸管招标网 000778新兴铸管股吧 铸造 传承铸造师 铸造厂 铸造铝合金 泥范铸造法 铸造设备 神器铸造师 铸造膨润土 神级铸造师 铸造生产线 铜铸造模具 铸造牙冠 铸造齿轮 什么是铸造 铸造招聘 中国铸造网 铜铸造设备 铸造网 连续铸造 铸造振动筛 重力铸造 海贼之铸造大师 铸造英才网招聘 济南慧成铸造有限公司 铸造缺陷修补剂 铸造全瓷牙多少钱 离心铸造设备 连续铸造设备 消失模铸造设备厂家 消失模铸造设备哪家好 消失模铸造图片集 自动化铸造生产线 铸造设备造型机 铸造设备及其自动化 消失模铸造技术 铸造设备设计