elasticseach基础详解

来源:互联网 发布:小企业网络循环贷款 编辑:程序博客网 时间:2024/06/09 19:23

        我们建立一个网站或应用程序,并要添加搜索功能,但是想要完成搜索工作的创建是非常困难的。我们希望搜索解决方案要运行速度快,我们希望能有一个零配置和一个完全免费的搜索模式,我们希望能够简单地使用JSON通过HTTP来索引数据,我们希望我们的搜索服务器始终可用,我们希望能够从一台开始并扩展到数百台,我们要实时搜索,我们要简单的多租户,我们希望建立一个云的解决方案。因此我们利用Elasticsearch来解决所有这些问题以及可能出现的更多其它问题。

基础:


cluster

代表一个集群,由一个或多个节点组织在一起,共同持有你整个的数据,并一起提供索引和搜索功能。
其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。
es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群 在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。

node

一个节点是你集群中的一个服务器,作为集群的一部分,它存储你的数据,参与集群的索引和搜索功能。
和集群类似,节点由名字来标识,默认情况下,这个名字是一个随机的漫威漫画角色的名字,这个名字会在启动的时候赋予节点。在管理过程中,你会去确定网络中的哪些服务器对应于Elasticsearch集群中的哪些节点。

一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下,每个节点都会被安排加入到一个叫做“elasticsearch”的集群中。

在一个集群里,只要你想,可以拥有任意多个节点。如果当前你的网络中没有运行任何Elasticsearch节点,这时启动一个节点,会默认创建并加入一个叫做“elasticsearch”的集群

index

 索引就是拥有几分相似特征的文档的集合。如:客户数据的索引,产品目录的索引。
一个索引由一个名字来标识(必须全部是小写字母的),要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。在一个集群中,如果你想,可以定义任意多的索引。

document

一个文档是一个可被索引的基础信息单元。比如,你可以拥有某一个客户的文档,某一个产品的一个文档。
文档以JSON(Javascript Object Notation)格式来表示,而JSON是一个到处存在的互联网数据交互格式。
在一个index/type里面,只要你想,你可以存储任意多的文档。PS尽管一个文档,物理上存在于一个索引之中,文档必须被索引/赋予一个索引的type。


type

在一个索引中,你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区,其语义完全由你来定。
通常,会为具有一组共同字段的文档定义一个类型。比如说,我们假设你运营一个博客平台并且将你所有的数据存储到一个索引中。在这个索引中,你可以为用户数据定义一个类型,为博客数据定义另一个类型,当然,也可以为评论数据定义另一个类型。

shards

索引分片,es可以把一个完整的、大的 索引分成多个分片,分布到不同的节点上。
构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改;可以被放置到集群中的任何节点上。

replicas

复制分片从不与原/主要(original/primary)分片置于同一节点上

索引副本,提高了es的查询效率,es会自动对搜索请求进行负载均衡。

es可以设置多个索引的副本,当某个节点某个分片损坏或丢失时可以从副本中恢复(容错性);

一个分片怎样分布,它的文档怎样聚合回搜索请求,是完全由Elasticsearch管理的,对于用户来说这些都是透明的。


recovery

数据恢复或叫数据重新分布
es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。

river

es的一个数据源,也是其它存储方式(如:数据库)同步数据到es的一种方法
官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia等,他以插件方式存在的一个es服务中,通过读取river中的数据并把它索引到es中

gateway

es索引快照的存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘。
gateway对索引快照进行存储,当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。
es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。

discovery.zen

es的自动发现节点机制,es是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。

Transport

es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互
同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。

脑裂问题(类似于精神分裂)

同一个集群中的不同节点,对于集群的状态有了不一样的理解;不同的节点对master节点的选择出现了异常


图例:


数据库的对比:



http://blog.csdn.net/cnweike/article/details/39083089 脑裂问题

http://blog.csdn.net/cnweike/article/details/33736429

还有百度百科

原创粉丝点击