Es的几个常见故障

来源：互联网发布：网络信息安全事件案列编辑：程序博客网时间：2024/05/24 06:35

Elasticsearch是一个开源的分布式实时搜索与分析引擎，支持云服务。它是基于Apache Lucene搜索引擎的类库创建的，提供了全文搜索能力、多语言支持、专门的查询语言、支持地理位置服务、基于上下文的搜索建议、自动完成以及搜索片段(snippet)的能力。Elasticsearch支持RESTful的API，可以使用JSON通过HTTP调用它的各种功能，包括搜索、分析与监控。此外，它还为Java、PHP、Perl、Python以及Ruby等各种语言提供了原生的客户端类库。下面是总结了一下使用 elasticsearch所遇到的各类问题以及相关的解决方案。

1、out of memory错误问题

因为默认情况下es对字段数据缓存(Field Data Cache)大小是无限制的，查询时会把字段值放到内存，特别是facet查询，对内存要求非常高，它会把结果都放在内存，然后进行排序等操作，一直使用内存，直到内存用完，当内存不够用时就有可能出现out of memory错误。

解决方法：

(1)设置es的缓存类型为Soft Reference，它的主要特点是据有较强的引用功能。只有当内存不够的时候，才进行回收这类内存，因此在内存足够的时候，它们通常不被回收。另外，这些引用对象还能保证在Java抛出OutOfMemory 异常之前，被设置为null。它可以用于实现一些常用图片的缓存，实现Cache的功能，保证最大限度的使用内存而不引起OutOfMemory。在es 的配置文件加上index.cache.field.type: soft即可。

(2)设置es最大缓存数据条数和缓存失效时间，通过设置index.cache.field.max_size: 50000来把缓存field的最大值设置为50000，设置index.cache.field.expire: 10m把过期时间设置成10分钟。

2、抛出异常，错误如下：

1org.elasticsearch.transport.RemoteTransportException: Failed to deserialize exception response from stream

原因：es节点之间的JDK版本不一样

解决方式：统一JDK版本和环境

3、抛出异常，错误如下：

org.elasticsearch.client.transport.NoNodeAvailableException: No node available

(1)端口错误

client = new TransportClient().addTransportAddress(new InetSocketTransportAddress(ipAddress, 9300));

端口9300写成9200的报错No node available 或者查看连接的是不是本地计算机，如果是远程的话查看一下IP地址是否正确。

(2)jar包报错误的话可能是引用包不匹配，开启的服务是什么版本最好对应相应的jar包。

(3)修改了集群名称，设置了集群名字导致出现问题，设置操作如下：

Settings settings = ImmutableSettings.settingsBuilder().put("cluster.name", "yoodb").build();  
            client = new TransportClient(settings).addTransportAddress(new InetSocketTransportAddress(ipAddress, 9300));

(4)集群超过5s没有响应，解决方式如下：

1)设置client.transport.ping_timeout超时时间，增大一些

2)代码内嵌入，如下：

while (true) {  
try {  
    bulk.execute().actionGet(getRetryTimeout());  
    break;  
} catch (NoNodeAvailableException cont) {  
    Thread.sleep(5000);  
    continue;  
}  
}

6）java调用引用的jar和部署的es的版本不一致

4、由gc引起节点脱离集群

因为gc时会使jvm停止工作，如果某个节点gc时间过长，master ping3次(zen discovery默认ping失败重试3次)不通后就会把该节点剔除出集群，从而导致索引进行重新分配。解决方法如下：

(1)优化gc，减少gc时间。

(2)调大zen discovery的重试次数(es参数：ping_retries)和超时时间(es参数：ping_timeout)。后来发现根本原因是有个节点的系统所在硬盘满了。导致系统性能下降。

0 0