ES运维--快速重启

来源：互联网发布：广数980编程代码编辑：程序博客网时间：2024/05/18 01:45

启动初始化时间长

修改es配置，重启集群成本巨大。ES集群已有25T数据，27个节点，24个数据节点（热盘12和hot节点，慢盘12个stale节点，3个mater节点），数据节点的启动，加入集群后需要初始化全部索引，这个过程过程很慢。全部重启一次可能要一天，非常耗时。重启后经常遇到少量索引一直处于unassigned状态，导致集群一直是red状态。

目标

有时调整配置，希望能快速重启生效（能用api改的优先不停服务修改），减少es服务停顿时间。
master节点和stale节点修改配置可以随时重启。
hot数据节点最好在晚上或者周末重启，重启前最好先停止数据写入。

发现启动前如果事先关闭shard自动均衡，初始化索引速度会快得多。因此我们完善了下操作流程

调整后的重启流程

A. 重启master节点
注意事项：先把非当选的两个master重启（可以同时操作）；重启完成后，能在集群里看到两个点都加入后，才能重启最后一个master。master不需要恢复索引，没有初始化，速度很快。

B. 重启stale节点

注意事项：避开索引删除、索引迁移等定时任务执行时间段（如果时间有重叠，可先禁用调度任务）
1. 先关闭集群的shard分配（停止后新建索引将不会分配，index不能迁移，不会执行自动均衡）

curl -XPUT http://ip:port/_cluster/settings -d '{"transient":{"cluster.routing.allocation.enable":"none"}}'

2. 备份配置文件，修改好所有配置（做好检查，不要漏）
3. 第一步执行完后，要查看es集群状态 curl 'ip:port/_cat/health?v'。等到relo、init、unassign这3项都变成0后，再操作下一步。（这个时间一定要等，磨刀不误砍柴功，这个操作完成后对重启初始化索引速度会大幅提高）
4. 重启节点。索引都初始化好了，再操作下一个节点。注意：不同物理机上的节点可以同时重启（最好不要同时启动太多节点，慢盘上的分片多初始化时间会稍长些），但不要在同一个物理机上同时重启多个节点。
节点启动后首先会找master加入集群，之后初始化本地索引分片数据，这个过程是CPU和IO密集型操作。
由于禁用了路由均衡分配，这个过程会比以前快得多。
5. 全部完成后要恢复分片分配

curl -XPUT http://ip:port/_cluster/settings -d '{"persistent":{"cluster.routing.allocation.enable":"all"}}'curl -XPUT http://ip:port/_cluster/settings -d '{"transient":{"cluster.routing.allocation.enable":"all"}}'

C. 重启hot节点
注意事项：避开索引创建、索引迁移等定时任务执行时间段（如果时间有重叠，可先禁用调度任务）,在低峰操作（晚上或者周末）
1. 先停止所有数据写入
2. 后续操作和重启stale节点相同

D. 重启整个集群
顺序是先启master组（所有的master重启完成后要停止集群的shard自动均衡），再启hot组节点，最后启stale组节点

阅读全文

0 0