大促保障准备工作项

来源：互联网发布：kubernetes 跨主机网络编辑：程序博客网时间：2024/04/29 16:39

大促保障如何做，有哪些工作项，看这里。

工作项131415161718192021222324252627282930应用容量评估，测算PV、UV、一天内调用次数、峰值调用量所有数据容量评估，测算数据库、REDIS等存储容量，记录数、磁盘占用量所有线下PRE环境性能压测(详细工作计划) 线上购物链压测 DB TOP SQL慢查询巡检及优化所有 DB数据库IO调度算法巡检（DeadLine配置) 所有 DB SQL超时设置所有 REDIS分片巡检及优化(<32G) 所有 ESB 巡检（连接数8000限制、400W数据积压限制、TPS4000限制、高可用配置）所有 RSF 版本巡检（2.1.2）所有故障场景重点关注项所有高可用(一主多从、冷备）、其他事项巡检所有 RSF超时、限流、SLA、告警设置所有 ESB超时、限流、SLA、告警设置所有容错设计检查所有降级限流设计检查所有全流程核心链路过载演练系统监控、告警、人员设置检查所有宕机应急演练创单功能生产压测 DB\REDIS主备切换演练 ZK故障演练应急预案所有零点峰值应对所有扩容交付进度压测不达标程序优化计划 MQ迁移主备切换演练网络参数、交换机高可用巡检所有

双11大促准备工作清单分类工作项交付物计划开始时间计划完成时间负责人完成结果备注容量和性能评估 1应用容量评估，测算PV、UV、一天内调用次数、峰值调用量评估报告各系统技术经理完成 2数据容量评估，测算数据库、REDIS等存储容量，记录数、磁盘占用量2016/10/132016/10/15各系统技术经理完成系统性能压测达标 1线下PRE环境性能压测(详细工作计划)压测报告2016/10/132016/10/30各系统技术经理进行中 2线上购物链压测2016/10/202016/10/30技术经理完成 3创单功能生产压测演练报告2016/10/132016/10/25 完成 4全流程核心链路演练报告2016/10/172016/10/25各系统技术经理进行中巡检自检 1DB TOP SQL慢查询巡检及优化巡检自检清单2016/10/132016/10/25各系统技术经理完成 2DB数据库IO调度算法巡检（DeadLine配置)2016/10/132016/10/25各系统技术经理完成 3DB SQL超时设置2016/10/132016/10/25各系统技术经理完成 4REDIS分片巡检及优化(<32G)2016/10/132016/10/25各系统技术经理完成 5ESB 巡检（连接数8000限制、400W数据积压限制、TPS4000限制、高可用配置）2016/10/132016/10/25各系统技术经理完成 6RSF 版本巡检（2.1.2）2016/10/132016/10/25各系统技术经理完成 7网络参数、交换机高可用巡检2016/10/152016/10/17各系统技术经理完成 8故障场景重点关注项2016/10/132016/10/25各系统技术经理完成 9高可用(一主多从、冷备）、其他事项巡检2016/10/132016/10/25各系统技术经理完成核心链路与服务SLA 1RSF超时、限流、SLA、告警设置服务治理与调用链路2016/10/132016/10/25各系统技术经理完成 2ESB超时、限流、SLA、告警设置2016/10/132016/10/25各系统技术经理完成 3容错设计2016/10/132016/10/25各系统技术经理完成 4降级限流设计2016/10/132016/10/25各系统技术经理完成系统监控与应急演练 1系统监控、告警、人员设置检查系统监控与应急处置手册2016/10/132016/10/25各系统技术经理完成 2宕机应急演练演练报告2016/10/132016/10/25 完成 3DB\REDIS主备切换演练演练报告2016/10/132016/10/25各系统技术经理完成 4ZK故障演练演练报告2016/10/132016/10/25各系统技术经理完成 5主备切换演练应急预案2016/10/132016/10/25 进行中 6应急预案应急预案2016/10/132016/10/15各系统技术经理完成 7零点峰值应对应急预案2016/10/132016/10/15各系统技术经理完成扩容或优化准备清单 1扩容交付进度情况说明2016/10/132016/10/25各系统技术经理完成 2压测不达标程序优化计划计划安排2016/10/132016/10/25各系统技术经理进行中 3

巡检清单序号分类巡检内容处理方案事前处置监控告警应急处置防控手段监控点影响范围应急手段恢复时长一、系统应用程序参数优化、安全巩固、扩容、高可用CPU、IO、TPS、QPS、单据量、健康检测降级、分流、限流 1系统参数配置应用服务器配置：数据库连接池设置，连接数、事务隔离级别，连接超时等检查连接数监控整个应用前端限流1分钟2系统参数配置应用服务器配置：线程池设置，工作线程、IO线程数设置，超时等检查线程队列监控整个应用前端限流，增大队列长度1分钟3系统参数配置ESB配置：是否配置预警阀值、新老平台复用的接口URL配置是否一致检查 4系统参数配置UTS配置：检查PRE与PRD环境是否配置一致检查 5系统参数配置SCM配置：检查PRE与PRD环境是否配置一致检查 6业务参数配置业务配置数据：检查PRE与PRD环境是否配置一致检查 7业务参数配置功能菜单是否可关闭、降级功能开关是否可用检查 8业务参数配置业务运行过程中需要的必要主数据、元数据是否正确设置检查 9定时任务配置23:50-00:10之间禁止启动定时任务，23:50之前启动的定时任务需要在23:55前运行完成。检查 10定时任务配置所有定时任务，尽量避免在整点触发，选择一个随机的非整点时间来触发启动检查 11RPC、REST接口异常响应超时优化程序，扩容健康检查，接口监控关联系统业务降级，前端限流2分钟12RPC、REST接口异常无响应优化程序，扩容健康检查，接口监控关联系统业务降级，前端限流2分钟13RPC、REST接口异常QPS、TPS超出预估峰值扩容、高可用接口监控关联系统业务降级，前端限流2分钟14RPC、REST接口异常成功率异常下降接口监控关联系统前端限流、负载均衡2分钟15系统应用异常不能正常运行高可用健康检查关联系统负载均衡1秒16系统应用异常进程异常、假死高可用健康检查关联系统负载均衡1秒17系统应用异常线程阻塞高可用健康检查、线程监控关联系统负载均衡1秒18系统应用异常无法启动高可用健康检查关联系统负载均衡1秒19系统应用异常响应缓慢或无响应高可用健康检查、超时检查关联系统前端限流、业务降级、负载均衡1秒20交易异常流量异常下降健康检查、流量监控关联系统 21交易异常成功率异常下降健康检查、接口监控整个应用 22交易异常大量繁忙，交易时间延长高可用健康检查、接口监控整个应用前端限流、业务降级、负载均衡5秒23交易异常交易异常报错高可用健康检查、接口监控整个应用负载均衡 24其他异常应用服务队列堵塞高可用健康检查、接口监控整个应用前端限流、负载均衡5秒二、数据库参数优化、安全巩固、扩容、高可用CPU、IO、MEM、TPS、QPS、健康检测限流、主备切换 25物理损坏数据库崩溃高可用健康检查关联系统主备切换5分钟26物理损坏数据库存储损坏高可用、热备磁盘、IO监控关联系统主备切换5分钟27物理损坏逻辑日志满导致数据库挂起高可用磁盘、IO监控关联系统主备切换5分钟28操作异常数据库无法正常处理请求高可用健康检测关联系统前端限流、主备切换5分钟29操作异常数据库表死锁死锁监控整个应用快速杀死进程3分钟30操作异常数据库表数据无法插入存储容量检查错误日志监控整个应用读写分离，主备切换5分钟31操作异常数据库交易处理缓慢慢SQL检查慢SQL监控整个应用前端限流 32操作异常数据库无法连接或无响应、假死健康检测关联系统主备切换5分钟33操作异常数据库性能极剧下降连接数监控、IO监控关联系统前端限流3分钟34操作异常数据库实例出现大量等待事件连接数监控、IO队列监控关联系统前端限流3分钟35其他异常数据库短时间不可用健康检测关联系统前端限流、主备切换3分钟36其他异常主从同步延迟检查延迟监控持续观察 37其他异常数据库实例监听宕掉检查健康检查主备切换5分钟三、中间件参数优化、安全巩固、扩容、高可用CPU、IO、MEM、TPS、QPS、健康检测主备切换 38ESB中间件实例异常或僵死参数检查，高可用健康检查、内存(>80%)、IO、CPU(>80%)关联系统切换5分钟39RSF中间件实例异常或僵死参数检查，高可用健康检查、内存(>80%)、IO、CPU(>80%)关联系统客户端负载均衡1分钟40REDIS中间件实例异常或僵死参数检查，高可用健康检查、内存(>80%)、IO、CPU(>80%)关联系统自动重新选主1分钟41REDIS中间件主从同步延迟参数检查，高可用延迟监控关联系统 42消息中间件实例异常或僵死参数检查，高可用健康检查、内存(>80%)、IO、CPU(>80%)关联系统切换5分钟43消息中间件消息堆积参数检查，高可用消息堆积长度(>2000，结合RT、QPS)关联系统前端限流 44WAS中间件实例异常或僵死参数检查，高可用健康检查、内存(>80%)、IO、CPU(>80%)关联系统前端负载均衡 45负载均衡中间件NGINX实例异常或僵死参数检查，高可用健康检查、内存(>80%)、IO、CPU(>80%)关联系统主备切换2分钟46负载均衡中间件IHS实例异常或僵死参数检查，高可用健康检查、内存(>80%)、IO、CPU(>80%)关联系统主备切换2分钟47文件图片服务器存储失败参数检查，高可用健康检查、内存(>80%)、IO、CPU(>80%)关联系统切换5分钟48其他依赖中间件WAF拦截失败参数检查，高可用、TOP 50 IP梳理健康检查、内存(>80%)、IO、CPU(>80%)关联系统切换四、操作系统参数优化、安全巩固、升级LOAD、IOWAIT 切换 49异常或报错负载过高检查负载监控整个应用前端限流1分钟50异常或报错无响应检查健康检查整个应用前端容错1分钟51异常或报错文件数超出检查系统日志监控整个应用前端限流1分钟52异常或报错TIME_WAIT连接占用严重检查网络日志监控整个应用前端限流1分钟53异常或报错交换区频繁换入换出检查磁盘、IO监控整个应用前端限流1分钟五、硬件及网络备份存活检测切换 54网络异常网络异常中断网络监控整个应用切换 55网络异常AP与DB间网络异常或不可用网络监控整个应用切换 56网络异常网络端口流量异常升高/下降网络监控整个应用切换 57网络异常IP地址异常或出现冲突网络监控整个应用切换 58网络异常数据传输中出现异常丢包网络监控整个应用切换 59硬件异常F5服务异常或报错网络监控整个应用切换 60硬件异常异常掉电主机监控整个应用切换 61硬件异常磁盘存储损坏磁盘、IO监控整个应用切换

1.某些没有经过充分压测的接口流量过大，拖死整个系统。需要针对每个接口根据接口tps能力设置好流控值。2.请求的数据穿透了缓存，如爬虫爬了冷数据等，拖死数据库。流控+监控应急封ip或封接口。3.因为外部服务响应慢，导致线程池被卡满。需要做好超时设置，支持熔断。4.物理机故障，如宕机或响应慢。需要做好高可用，紧密监控、及时切换。5.某个redis或数据库分片出现故障，导致全局卡死。需要超时设置、对redis或数据库分片需要支持熔断能力。6.依赖的外部服务故障，同时系统对外部非重要服务耦合过于紧，无法降级。7.缓存没有及时生效或数据传输出现延时。系统需要评估需要处理的数据量及时长，确保数据能及时处理完成。8.资源争抢，特别是io资源争用。各重要系统请检查现有系统的io利用率和iops指标，如存在瓶颈，需要进行迁移或切ssd。9.数据库坏页，核心链路系统需要做到一主两从，出现疑似数据库坏页，尽快切换。10.ddos或cc攻击，安全团队需要做应对攻击的应急预案，并加强演练，加快恢复速度。11.网络故障、网络延时、基础服务故障。网络和基础服务必须保证高可用和良好性能。12.定时任务停止服务或调度延迟，未能及时监控出来。加强对每个定时任务的监控和报警。

服务要有容错设计，为失败设计，服务主要异常场景：(1)服务内部出错、异常；(2)服务处理延迟；(3)服务处理过载；(4)网络链路延迟或中断；(5)服务依赖链中部分依赖SLA不达标，造成整体服务不可用；(6)服务链条过长，造成SLA整体不可控；解决的思路：隔离（物理或逻辑）、自我保护、失效转移或恢复、降级；1、隔离手段：依据服务重要性分级或流量特点、用户画像等，从物理上隔离服务。主要使用分流技术；将服务使用的资源（CPU、线程、IO等）隔离，主要使用舱壁模式；2、自我保护手段：快速失败(failfast)、流控、超时、熔断；3、失效转移或恢复手段：失效检测、重试、转移(failover)、回退恢复（failback);4、降级手段：依据依赖服务的重要性或依赖程度（强、弱）,同步变异步，降级开关、拒绝部分服务等；降级方案、限流方案设计说明：1. 每个系统需要分析调用量前10的服务（URL、ESB、RSF服务），并综合考虑其响应时间和耗时。原则上所有调用量大且降级后对销售或作业不造成较大影响的服务，都需要考虑。 2. 降级、限流的目的是保护系统，减少本系统的压力、或降低对后端系统的压力、或降低对网络的压力。 3. 限流方案不能造成正常销售或作业执行工作，降级后不能对销售造成较大的影响，对销售的较小影响是可以接受的。先限流，再降级。 4. 需要有成熟可靠的降级、限流预案。5. 降级手段有：功能禁用、增加功能的缓存时间、使用本地缓存而不是调用外部服务、减少某些业务特性以降低业务复杂度、不调用后端依赖服务、异常时采用默认数据或兜底数据，同步变异步调用，减少JOB执行频率或变更业务峰值JOB触发调用时间等；6. 限流手段有：随机拒绝请求、拒绝低优先级系统调用，拒绝低级别用户调用，根据白名单或黑名单规则拒绝特定用户请求调用，对失败率高或响应超时系统调用拒绝调用，利用线程池队列排队处理调用，拒绝超出处理能力调用等。 7. OLAP应用，如对OLTP系统的物理机器或网络资源造成了争用，同样需要设计降级方案。超时设置方法：
1、核心链路方法，通过压测获取响应时间TP99/TP90。作业线方法通过拉取RSF\ESB报表获取响应时间TP99/TP90.
2、要清楚响应时间的增加，不仅消耗资源（例如线程池、CPU、IO等），也会使TPS下降。严重时会耗尽连接，发生级联现象，使相关系统受到影响。TPS=C/RT.
3、响应时间的增加，会使失败率增加，异常会增加。如事务类接口在非幂等性设计情况下，造成重复生成数据。
4、原则上，作业线方法，可以通过查看TP99数据，设置2*TP99-5*T99。高并发核心链路接口，要不大于2*TP99.非核心作业方法，可以统一设置为3秒，原则上不应大于5秒。
5、响应时间在2-5倍TP99之间的选择，应结合是否事务方法、是否幂等，并发量，以及对业务的影响进行评估。并发量小的，事务方法，对业务影响大的，响应时间可设置大些；并发量大的，对业务影响小的，响应时间可设置小些。其他的，可以统一设置为3*TP99.
6、报表类、JOB类方法，根据事务执行时间进行单独设置。
RSF\ESB限流设置。两者都是基于限制并发数来限制调用次数，从而达到限流目的。
1、根据压测或历史得知，你的总并发数；
2、基于分组分类的原则，设置线程池，RSF线程池没有物理分开，是基于信号量区分不同的线程池；
3、根据业务，可以将接口划分为：核心对外服务接口，核心流程接口、关联核心流程接口，其他非核心流程；
4、根据接口分类，建立不同的分组，例如核心对外服务接口设置并发200，核心流程接口100，关联核心流程接口50，其他非核心流程40。
5、可以继续设置分层，如划分为三层，1级、2级、3级。针对不同分类接口设置三层。例如核心对外服务接口设置并发三级，1级300，2级200，3级150.其他类似。统筹分类分层。
6、在接口上挂上分组。

0 0