『大型网站技术架构：核心原理与案例分析』（四）

来源：互联网发布：留学生知乎编辑：程序博客网时间：2024/06/05 00:10

“大型“定义：

一、网站架构的伸缩性设计

不同功能进行物理分离实现伸缩
单一服务器处理所有服务 -> 数据库从应用服务器分离 -> 缓存从应用服务器分离 -> 静态资源从应用服务器分离
横向分离(分层后分离)、纵向分离(业务分割后分离)
单一功能通过集群规模实现伸缩
当一头牛拉不动车的时候，不要去寻找一头更强壮的牛，而是用两头牛来拉车。
集群伸缩性：应用服务器集群伸缩性、数据服务器集群伸缩性(缓存数据服务器集群和存储数据服务器集群)

二、应用服务器集群的伸缩性设计

负载均衡：实现网站伸缩性，改善网站可用性。

负载均衡类型

1. HTTP重定向负载均衡

通过一台HTTP重定向服务器，返回302实现负载均衡。实践中很少见。

优点：简单
缺点：性能差(2次请求)、伸缩性有限(重定向服务器容易成为瓶颈)、被搜素引擎判为SEO作弊(302请求)，

2. DNS域名解析负载均衡

在DNS服务器中配置多个A纪录。大型网站用于进行第一级负载均衡。

优点：支持基于地理位置域名解析，加快用户访问速度。
缺点：DNS多级解析，生效和失效时间久。

3. 反向代理负载均衡

利用反向代理服务器(缓存资源、安全等)进行负载均衡。应用层负载均衡。

优点：反向代理功能和负载均衡功能集成，部署简单。
缺点：反向代理服务器容易成为瓶颈。

4. IP负载均衡

在网络层通过修改请求目标地址进行负载均衡。

优点：相比应用层负载均衡(反向代理)有更好的性能。
缺点：进出流量走负载均衡服务器，依然存在瓶颈。

5. 数据链路层负载均衡

在通信协议的数据链路层修改mac地址进行负载均衡(LVS/DR)。数据三角传输模式，流量从用户->负载均衡服务器->Real Server->用户。

目前使用最广泛。

负载均衡算法

三、分布式缓存集群的伸缩性设计

目标：必须让新上线/下线的缓存服务器对整个分布式缓存集群影响最小，也就是说经过调整使整个缓存服务器集群中已经缓存的数据尽可能还被访问到。

一致性Hash：解决集群扩减容时过多节点缓存失效问题。
使用虚拟节点的一致性Hash环：避免集群扩减容造成的节点负载不均问题，通过增加一层虚拟节点与物理节点的映射来使节点增删带来的影响平均到所有节点。

四、数据存储服务器集群的伸缩性设计

数据存储服务器必须保证数据可靠存储、可用性、正确性，伸缩性设计原则与缓存不同。

1. 关系数据库集群的伸缩性设计

2. NoSQL数据库的伸缩性设计

HBase伸缩性: 依赖可分裂的HRegion及可伸缩的分布式文件系统HDFS实现。

0 0