智能顾问混沌演练故障注入能力与 SH-WEB 架构适配性评估

一、背景

在完成四轮手动故障注入实验（Redis 缓存层、MySQL 数据库层、Node.js 应用层、Nginx 代理层）后，我们将目光投向腾讯云混沌演练平台（智能顾问混沌演练）——一款覆盖 8 大类、25+ 种云资源、100+ 种故障注入动作的平台化混沌工程工具。

本文评估智能顾问混沌演练的故障注入能力与 SH-WEB 博客架构的适配性，为后续从"手动实验"升级为"平台化常态演练"提供方案参考。

二、智能顾问混沌演练故障注入能力全景

2.1 计算层 — CVM（25 个动作）

故障类型	支持的动作
实例故障	关机、重启、内核故障（触发实例重启）
网络故障	网络中断、Ping 不可达、网络延迟、网络丢包、网络重复、网络乱序、网络损坏、网络端口占用
资源压测	CPU 利用率高、内存利用率高、磁盘使用率高、磁盘 IO 负载、IO Hang
进程/JVM	进程退出（Kill 进程）、JVM 进程 CPU 满载
DNS 故障	DNS 不可用、域名解析篡改
其他	CVM 时间跳变、云 API 封禁、GPU 时钟频率限制、自定义动作（自定义脚本）、空操作

2.2 容器层 — TKE Pod（20 个动作）

故障类型	支持的动作
资源压测	CPU 利用率高、内存利用率高、磁盘使用率高、磁盘 IO 负载高
网络故障	网络延迟、网络丢包、网络重复、网络乱序
Pod 级故障	Pod Failure（容器 NotReady）、Pod 删除、虚拟节点关机、进程停止
DNS/HTTP	DNS 篡改、HTTP 请求延迟、HTTP 连接中断、HTTP 内容替换、HTTP 内容添加
JVM	JVM 进程堆溢出、JVM 进程栈溢出

2.3 数据库层（8 种引擎）

数据库	支持的故障动作
MySQL	主备切换、主节点故障、实例整体不可用、只读实例组不可用、重启、设置最大连接数、主从延迟
Redis 内存版	主备切换、主备节点不可用、主节点故障、Proxy 节点故障
MongoDB	主节点重启、主从切换
PostgreSQL	主备切换、实例重启、实例整体不可用、只读实例不可用、设置最大连接数
TDSQL-C MySQL	主备切换
MariaDB	主备切换
SQL Server	主备切换

2.4 网络层

资源类型	支持的故障动作
CLB 负载均衡	CLB 停止、监听器后端权重调整、带宽百分比限制
子网	网络隔离（封禁全部流量）
NAT 网关	设置最大并发连接数、设置出带宽上限
专线通道	独享/共享专用通道停用

2.5 中间件

资源类型	支持的故障动作
CKafka	Broker 节点宕机、Broker 宕机（主动容灾）、Broker CPU 高负载、Broker 磁盘 IO 高负载
RabbitMQ / RocketMQ	Broker 宕机
Pulsar	隔离集群可用区
云原生网关	网关节点重启（分组）

三、与 SH-WEB 架构的适配分析

3.1 高度适配的智能顾问混沌演练动作

以下智能顾问混沌演练故障动作可以直接应用于 SH-WEB 博客架构的各个组件：

SH-WEB 组件	可用的智能顾问混沌演练动作	演练场景
CVM 竞价实例	关机、重启、进程退出、CPU/内存/磁盘压测、网络中断、网络延迟、DNS 不可用	验证 AS 弹性伸缩自动替换、CLB 健康检查摘除
CLB 负载均衡	CLB 停止、后端权重调整、带宽限制	验证流量切换和单点故障恢复
TDSQL-C MySQL	主备切换	验证数据库切换对应用的影响和连接恢复
Redis	主备切换、主节点故障、Proxy 节点故障	验证缓存失效后的降级策略
子网	网络隔离（封禁全部流量）	模拟整个可用区不可达

3.2 与前四轮手动实验的对比

已完成实验（手动注入）	智能顾问混沌演练替代方案	智能顾问混沌演练优势
实验一：Redis 配置错误	Redis 主节点故障 / 主备切换	真实故障而非模拟配置错误，更贴近生产场景
实验二：MySQL 慢查询	TDSQL-C 主备切换	测试真实数据库切换期间的应用表现
实验三：事件循环阻塞	CVM 进程退出 / CPU 压测	平台化操作，自动回滚，无需手动改代码
实验四：Nginx 端口错误	CVM 网络中断 / 网络延迟	更真实的网络层故障，影响范围可控

四、推荐的智能顾问混沌演练演练方案

基于 SH-WEB 架构特点，推荐以下 5 个智能顾问混沌演练演练场景：

场景一：CVM 关机 — 验证 AS 自动扩容

智能顾问混沌演练 动作：CVM 关机
目标：竞价实例之一
预期：AS 检测到实例数低于期望值 → 自动扩容新竞价实例 → CLB 注册新后端 → 服务恢复
验证点：AS 扩容速度、CLB 健康检查生效时间、服务中断时长

场景二：Redis 主节点故障 — 验证缓存降级

智能顾问混沌演练 动作：Redis 主节点故障
目标：Redis 256MB 实例
预期：缓存不可用 → 应用 fallback 到 MySQL 直查 → 响应延迟增大但服务不中断
验证点：降级策略是否生效、MySQL 承压能力、缓存恢复后的预热时间

场景三：TDSQL-C 主备切换 — 验证数据库韧性

智能顾问混沌演练 动作：TDSQL-C MySQL 主备切换
目标：TDSQL-C Serverless 集群
预期：主备切换期间短暂连接中断 → mysql2 连接池自动重连 → 服务恢复
验证点：切换耗时、连接池重连机制、是否出现数据不一致

场景四：子网网络隔离 — 验证可用区级容灾

智能顾问混沌演练 动作：子网网络隔离
目标：CVM 所在子网
预期：该子网内所有 CVM 与其他资源（MySQL、Redis）网络不通 → 模拟可用区故障
验证点：当前单可用区架构的影响范围、是否需要跨 AZ 部署

场景五：CVM CPU 压测 — 验证 AS 扩容策略

智能顾问混沌演练 动作：CVM CPU 利用率高
目标：竞价实例之一，注入 CPU 负载至 80%
预期：AS 告警策略触发（CPU > 70%）→ 自动扩容第 3 台实例 → 负载分摊后恢复
验证点：AS 扩容触发条件、扩容耗时、新实例自动注册到 CLB

五、智能顾问混沌演练 vs 手动注入对比总结

对比维度	手动注入（已完成）	智能顾问混沌演练平台（推荐升级）
故障真实性	模拟配置错误	真实资源级故障
自动回滚	手动恢复配置	平台自动回滚
演练报告	手动整理记录	平台自动生成
可重复性	依赖人工操作	一键复现、定时调度
安全护栏	依赖运维经验	内置爆炸半径控制
覆盖范围	4 种场景	100+ 种动作
学习价值	深入理解故障原理	快速验证架构韧性

六、结论

评估结论：智能顾问混沌演练混沌演练平台与 SH-WEB 架构高度适配。当前架构的所有关键组件（CVM、CLB、TDSQL-C、Redis、子网）均有对应的智能顾问混沌演练故障动作覆盖。

建议路径：
1. 短期：继续使用手动注入方式完成特定场景的深度验证（如本系列实验）
2. 中期：接入智能顾问混沌演练平台，将已验证的 4 个场景迁移为智能顾问混沌演练演练模板，实现一键复现
3. 长期：建立常态化演练机制，利用智能顾问混沌演练定时调度功能，每月自动执行一轮全链路故障演练，持续验证架构韧性

智能顾问混沌演练 故障注入能力与 SH-WEB 架构适配性评估