Elasticsearch 配置详解

来源:互联网 发布:网络质量监控技术 编辑:程序博客网 时间:2024/06/02 06:06

Cluster
集群名称,默认为elasticsearch:
cluster.name: elasticsearch
设置一个节点的并发数量,有两种情况,一种是在初始复苏过程中:
cluster.routing.allocation.node_initial_primaries_recoveries: 4
另一种是在添加、删除节点及调整时:
cluster.routing.allocation.node_concurrent_recoveries: 2
Node
节点名称,es启动时会自动创建节点名称,但你也可进行配置:
node.name: elasticsearch-01
是否允许作为主节点,默认值为true:
node.master: true
是否存储数据,即存储索引片段,默认值为true:
node.data: true

增加新的参数head插件可以访问es

http.cors.enabled: true http.cors.allow-origin: "*"

Note:注意:
master和data同时配置会产生一些奇异的效果:
当master为false,而data为true时,会对该节点产生严重负荷;
当master为true,而data为false时,该节点作为一个协调者;
当master为false,data也为false时,该节点就变成了一个负载均衡器。
你可以通过连接 http://localhost:9200/_cluster/health或者 http://localhost:9200/_cluster/nodes,或者使用插件 http://github.com/lukas-vlcek/bigdesk或 http://mobz.github.com/elasticsearch-head来查看集 群状态。
节点自定义属性,可用于后期集群进行碎片分配时的过滤:
node.rack: rack-01

Index
设置一个索引的碎片数量,默认值为5:
index.number_of_shards: 5
设置一个索引可被复制的数量,默认值为1:
index.number_of_replicas: 1
当你不需要分布式时,可进行如下设置:
index.number_of_shards:1
index.number_of_replicas: 0
上述两个属性的设置直接影响集群中索引和搜索操作的执行,假 设有足够的机器来持有碎片和副本,那么可以按如下规则设置这 两个值:
- 拥有更多的碎片可以提升索引执行能力,并允许通过机器分发 一个 大型的索引;

    - 拥有更多的副本能够提升搜索执行能力以及集群能力,但副本       增多,会降低插入和删除操作的效率。 

- 对于一个索引来说,number_of_shards一旦设置 将不能修改,而 number_of_replicas可以使用索 引更新设置API在任何时候被增加 或者 减少;

ElasticSearch关注加载均衡、迁移、从节点聚集结果等等,可以尝试 多种设计来完成这些功能,可以连接 http://localhost:9200/A/_status来检测索引的状态。

Memory
JVM开始交换时,ElasticSearch表现并不好:你需要保障JVM不进 行交换,可以将bootstrap.mlockall设置为true禁止交换:
bootstrap.mlockall: true
请确保ES_MIN_MEM和ES_MAX_MEM的值是一样的,并且能够 为,ElasticSearch分配足够的内在,并为系统操作保留足够 的内存。

Network
默认情况下,ElasticSearch使用0.0.0.0地址,并为http传输开启9200-9300端 口,为节点到节点的通信开启9300-9400端口,也可以自行设置IP地址:
network.bind_host: 192.168.0.1
publish_host设置其他节点连接此节点的地址,如果不设置的话,则自动获取, publish_host的地址必须为真实地址:
network.publish_host: 192.168.0.1
bind_host和publish_host可以一起设置:
network.host: 192.168.0.1
可以定制该节点与其他节点交互的端口:
transport.tcp.port: 9300
节点间交互时,可以设置是否压缩,转为为不压缩:
transport.tcp.compress: true
可以为Http传输监听定制端口:
http.port: 9200
设置内容的最大长度:
http.max_content_length: 100mb
禁止HTTP:
http.enabled: false

GateWay
网关允许在所有集群重启后持有集群状态,集群状态的变更都会被保存下来,当第一次启用集群时,可以从网关中读取到状态,默认网关类型(也是推荐的)是local:
gateway.type: local
允许在N个节点启动后恢复过程:
gateway.recover_after_nodes: 1
设置初始化恢复过程的超时时间:
gateway.recover_after_time: 5m
设置该集群中可存在的节点上限:
gateway.expected_nodes: 2
Indices
设置复苏时的吞吐量,默认情况下是无限的:
indices.recovery.max_size_per_sec: 0
设置从对等节点恢复片段时打开的流的数量上限:
indices.recovery.concurrent_streams: 5
Discovery
设置一个集群中主节点的数量,当多于三个节点时,该值可在2-4之间:
discovery.zen.minimum_master_nodes: 1
设置ping其他节点时的超时时间,网络比较慢时可将该值设大:

· 禁止当前节点发现多个集群节点,默认值为true:
discovery.zen.ping.multicast.enabled: false
· 设置新节点被启动时能够发现的主节点列表(主要用于不同网段机器连接):
discovery.zen.ping.unicast.hosts: [“host1”, “host2:port”, “host3[portX-portY]”]

Various
在一个系统上禁用启动多个节点:
node.max_local_storage_nodes: 1
在删除索引时,是否需要明确指定名称,该值为false时,将可以通过正则或_all进行所以 删除:
action.destructive_requires_name: true

Elasticsearch2.3.3 windows 安装head
cd \elasticsearch根目录\bin\
plugin install mobz/elasticsearch-head
http://192.168.1.160:9200/_plugin/head/

Elasticsearch2.3.3 配置 ik分词
https://github.com/medcl/elasticsearch-analysis-ik

去github去下载相应的版本的源码包,然后用maven去编译
也可以去release页面去下载人家编译好的
首先 解压

将config拷贝到es的config中的ik目录下面,如果没有创建
将相关的jar文件和config文件拷贝到es的lib下面
在将plugin-descriptor.properties文件拷贝到es的plugins的ik目录下面

重启es,就可以看到了ik插件启动了

Es默认使用的standard的分词器,此时需要在es的配置文件中指定默认使用ik分词器,需要添加如下配置:

index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_max_word:
type: ik
use_smart: false
ik_smart:
type: ik
use_smart: true
index.analysis.analyzer.default.type: ik

Elasticsearch中数据类型的详解

字段中的索引和存储
其中需要说明的是:
index定义字段的分析类型以及检索方式
如果是no,则无法通过检索查询到该字段;
如果设置为not_analyzed则会将整个字段存储为关键词,常用于汉字短语、邮箱等复杂的字符串;
如果设置为analyzed则将会通过默认的standard分析器进行分析
意思是,在ES中原始的文本会存储在_source里面(除非你关闭了它)。默认情况下其他提取出来的字段都不是独立存储的,是从_source里面提取出来的。当然你也可以独立的存储某个字段,只要设置store:true即可。
独立存储某个字段,在频繁使用某个特殊字段时很常用。而且获取独立存储的字段要比从_source中解析快得多,而且额外你还需要从_source中解析出来这个字段,尤其是_source特别大的时候。
不过需要注意的是,独立存储的字段越多,那么索引就越大;索引越大,索引和检索的过程就会越慢…
string
字符串类型,es中最常用的类型
比较重要的参数:
index分析
analyzed(默认)
not_analyzed
no
store存储
true 独立存储
false(默认)不存储,从_source中解析
Numeric
数值类型,注意numeric并不是一个类型,它包括多种类型,比如:long,integer,short,byte,double,float,每种的存储空间都是不一样的,一般默认推荐integer和float
重要的参数:
index分析
not_analyzed(默认) ,设置为该值可以保证该字段能通过检索查询到
no
store存储
true 独立存储
false(默认)不存储,从_source中解析
date
日期类型,该类型可以接受一些常见的日期表达方式
重要的参数:
index分析
not_analyzed(默认) ,设置为该值可以保证该字段能通过检索查询到
no
store存储
true 独立存储
false(默认)不存储,从_source中解析
format格式化
strict_date_optional_time||epoch_millis(默认)

你也可以自定义格式化内容,比如

“date”: {
“type”: “date”,
“format”: “yyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis”
}

IP
这个类型可以用来标识IPV4的地址
常用参数:
index分析
not_analyzed(默认) ,设置为该值可以保证该字段能通过检索查询到
no
store存储
true 独立存储
false(默认)不存储,从_source中解析

boolean
布尔类型,所有的类型都可以标识布尔类型
False: 表示该值的有:false, “false”, “off”, “no”, “0”, “” (empty string), 0, 0.0
True: 所有非False的都是true
重要的参数:
index分析
not_analyzed(默认) ,设置为该值可以保证该字段能通过检索查询到
no
store存储
true 独立存储
false(默认)不存储,从_source中解析

0 0
原创粉丝点击