Elasticsearch(一) 基本概念

来源:互联网 发布:网络理财软件排行榜 编辑:程序博客网 时间:2024/06/17 03:27

近实时(NRT)
Elasticsearch是一个接近实时的搜索平台。这意味着从您将文档索引直到可搜索的时间稍微延迟(通常为1秒)。

集群
集群是一个或多个节点(服务器)的集合,它们共同保存整个数据,并在所有节点上提供联合的索引和搜索功能。集群由唯一的名称标识,默认情况下是“elasticsearch”。该名称很重要,因为节点通过设置其名称加入集群。

确保不要在不同的环境中重复使用相同的集群名称,否则可能会导致加入错误集群的节点。例如,您可以对开发,分期和生产集群使用logging-dev,logging-stage和logging-prod。

您还可以拥有多个独立的集群,每个集群都有自己独特的集群名称。

节点
节点是作为集群一部分的单一服务器,存储您的数据,并参与集群的索引和搜索功能。就像一个集群一样,一个节点由一个名称来标识,默认情况下是一个 通用唯一标识符(UUID),它在启动时分配给该节点。如果您不希望使用默认值,则可以定义所需的任何节点名称。此名称对于管理目的很重要,您希望确定网络中哪些服务器对应于Elasticsearch集群中的哪些节点。

可以将节点配置为按集群名称加入特定集群。默认情况下,每个节点都设置为加入名为elasticsearch的群集,这意味着如果您在网络上启动了多个节点,并且假设它们可以相互发现,则它们将自动形成并加入名为elasticsearch的单个群集。

在一个集群中,您可以拥有任意多的节点数。此外,如果您的网络上当前没有其他Elasticsearch节点运行,则启动一个节点将默认形成名为elasticsearch的新的单节点群集。

索引
索引是具有某种相似特征的文档的集合。例如,您可以拥有客户数据的索引,产品目录的另一个索引,以及订单数据的索引。索引由名称(必须全部为小写)标识,该名称用于在针对其中的文档执行索引,搜索,更新和删除操作时引用索引。

在单个集群中,您可以根据需要定义任意多的索引。

类型
在索引中,您可以定义一个或多个类型。类型是您的索引的逻辑类别/分区,其语义完全取决于您。通常,为具有一组公共字段的文档定义了一种类型。例如,假设您运行一个博客平台,并将所有数据存储在单个索引中。在此索引中,您可以定义用户数据类型,博客数据类型以及注释数据的类型。

文档
文档是可以索引的基本信息单元。例如,您可以为单个客户提供文档,单个产品的文档,单个订单的另一个文档。该文档以JSON(JavaScript Object Notation)表示,它是一种无处不在的互联网数据交换格式。

在索引/类型中,您可以存储尽可能多的文档。请注意,尽管文档物理上位于索引中,但文档实际上必须被索引并分配给索引中的类型。

分片和副本
索引可能潜在地存储可能超过单个节点的硬件限制的大量数据。例如,占用1TB磁盘空间的10亿个文档的单个索引可能不适合单个节点的磁盘;或者可能太慢,无法单独从单个节点提供搜索请求。

为了解决这个问题,Elasticsearch提供了将索引细分为多个称为碎片的片段的功能。创建索引时,可以简单地定义所需的分片数。每个分片本身就是一个功能完整且独立的“索引”,可以在集群中的任何节点上托管。

分片很重要,主要原因有两个:

  • 它允许水平分割/缩放内容
  • 它允许在分片(可能在多个节点上)分布和并行操作,从而提高性能/吞吐量

分片的机制,以及它的文档如何汇总回到搜索请求中完全由Elasticsearch管理,并且对用户来说是透明的。
在可以随时预期故障的网络/云环境中,非常有用,并强烈建议使用故障转移机制,以防止碎片/节点以任何方式脱机或消失。为此,Elasticsearch允许您将索引的碎片的一个或多个副本复制到所谓的复制分片,或简写为复本。

复制很重要,主要原因有两个:

  • 如果分片/节点出现故障,可提供高可用性。因此,重要的是要注意,复制分片从未从与其复制的原始/主分片在同一节点上分配。
  • 它允许您扩展搜索量/吞吐量,因为可以对所有副本并行执行搜索。

总而言之,每个索引可以分为多个分片。索引也可以被复制为零次(意味着没有副本)或多次。一旦复制,每个索引将具有主碎片(复制的原始碎片)和副碎片(主碎片的副本)。可以在创建索引时根据索引定义碎片和副本的数量。创建索引后,您可以随时动态更改副本数,但不能更改事后的分片数。

默认情况下,Elasticsearch中的每个索引都分配了5个主分片和1个副本,这意味着如果您的集群中至少有两个节点,则索引将具有5个主分片,另外5个复本分片(1个完整副本)。一共10个分片