ElasticSearch 攻略（三）概念认识

来源：互联网发布：crossfit slash知乎编辑：程序博客网时间：2024/05/17 09:28

直接上代码固然好，但没有经过一番理解之前，真正属于自己的光环是不会加持太久的。

要使用 es，不但要求能理解其概念，而且在开始的时候，要对 Lucene 的相关的概念有个感性的认识，毕竟 es 索引底层基于 Lucene 的。

天下文章 N 个抄。我把人家一些好的的文章截图了，以飨读者。<文章出处>

es 关键概念：

归纳上面所说的，就是： es 的 index --> DB ， es 的 type --> table， es 的 Document -->对应 table 的一行记录 row， Document 的 Field --> table 里面的 column。这也是 es 与关系型数据库的一些概念的对应关系简单。另外参见 es 内部探究《Elasticsearch Internals: Networking Introduction An Overview of the Network Topology》。

下文出处：http://www.cnblogs.com/huangfox/p/3543351.html

cluster 代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es 的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看 es 集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。

shards 代表索引分片，es 可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆分成多个，分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定，并且索引创建后不能更改。

replicas 代表索引副本，es可以设置多个索引的副本，副本的作用一是提高系统的容错性，当个某个节点某个分片损坏或丢失时可以从副本中恢复；二是提高 es 的查询效率，es 会自动对搜索请求进行负载均衡。

recovery 代表数据恢复或叫数据重新分布，es 在有节点加入或退出时会根据机器的负载对索引分片进行重新分配，挂掉的节点重新启动时也会进行数据恢复。

river 代表 es 的一个数据源，也是其它存储方式（如：数据库）同步数据到 es 的一个方法。它是以插件方式存在的一个 es 服务，通过读取 river 中的数据并把它索引到 es 中，官方的 river 有 couchDB 的，RabbitMQ 的，Twitter 的，Wikipedia 的，river 这个功能将会在后面的文件中重点说到。（好像已经废弃了）

gateway 代表 es 索引的持久化存储方式，es 默认是先把索引存放到内存中，当内存满了时再持久化到硬盘。当这个 es 集群关闭再重新启动时就会从 gateway 中读取索引数据。es 支持多种类型的 gateway，有本地文件系统（默认），分布式文件系统，Hadoop 的 HDFS 和 amazon 的 s3 云存储服务。

discovery.zen 代表 es 的自动发现节点机制，es 是一个基于 p2p 的系统，它先通过广播寻找存在的节点，再通过多播协议来进行节点之间的通信，同时也支持点对点的交互。

Transport 代表 es 内部节点或集群与客户端的交互方式，默认内部是使用 tcp 协议进行交互，同时它支持 http 协议（json 格式）、thrift、servlet、memcached、zeroMQ 等的传输协议（通过插件方式集成）。

索引和搜索

虽然 Elasticsearch 能自动判断 field 类型并建立合适的索引，但笔者仍然推荐自己设置相关索引规则，这样才能更好为后续的搜索服务。我们通过定制 mapping 的方式来设置不同 field 的索引规则。而对于搜索，Elasticsearch 提供了太多的搜索选项，就不一一概述了

0 0