← 返回文章列表

最佳实践:用自定义 Skill 让 CloudQ 成为你的突发事件排障专家

痛点:突发事件中的资源定位困境

当企业内部运维系统收到一条突发事件告警时,运维人员面临的第一个难题往往是:这个事件可能是哪些云资源异常引起的?

典型的场景是这样的:

  • 内部监控系统检测到「订单服务接口超时率飙升」
  • 需要快速找到对应的腾讯云 CVM、CLB、数据库等资源
  • 但云资源分布在多个项目、多个地域,标签也可能不完整
  • 关联资源(同 VPC、同安全组、同标签)同样需要排查
  • 人工逐个登录控制台查询,耗时且容易遗漏

CloudQ 本身具备云资源查询和诊断能力,但如果能让它「理解」你的排障方法论,就能大幅提升效率——这就是自定义 Skill 的价值。

什么是自定义 Skill?

CloudQ 的自定义 Skill 是一种可扩展的能力包,它定义了特定场景下 CloudQ 应该遵循的工作流程、分析规则和输出格式。你可以把它理解为「给 CloudQ 写一份 SOP」。

一个 Skill 包通常包含:

SKILL.md — 定义 Skill 的触发条件、工作流、输入输出格式
references/ — 存放详细规则、模板等参考文档

当用户的问题匹配到 Skill 的触发条件时,CloudQ 会自动加载 Skill 定义的工作流程,按照预设的步骤和规则进行分析,而不是仅凭通用能力「自由发挥」。

突发事件排障 Skill 包详解

我们设计了一个「突发事件排障 Skill 包」,专门用于「突发事件 → 云资源排障」场景。它将排障流程标准化为 7 个步骤:

Step 1:解析突发事件

从用户提供的突发事件信息中提取关键要素:

突发事件:{事件级别、影响范围、发生时间、异常描述}
项目名称:{腾讯云控制台项目名}
资源标签:{key:value 格式,如 env:prod, app:order-service}
故障现象补充:{可选,如"接口超时"、"5xx 比例升高"}

如果信息不完整,CloudQ 会主动追问,确保排障有足够输入。

Step 2:资源定位

通过三种方式定位受影响的云资源:

  1. 项目匹配:查询指定项目下所有腾讯云资源
  2. 标签匹配:按 key:value 标签对进一步筛选
  3. 资源组匹配:按资源组筛选,适用于用资源组做权限隔离的客户

如果标签缺失,自动回退到项目+地域全量列举,并标注无标签资源占比。

实用技巧:资源清单按地域分组展示,避免跨地域资源混在一起导致误判。大型客户通常多地域部署,地域分组是关键。

Step 3:关联资源扩展

直接匹配的资源可能不完整。Skill 包定义了 6 个关联维度来扩展排查范围:

维度关联逻辑
网络关联VPC、子网、安全组下的其他资源
依赖关联CLB 后端、数据库、Redis 依赖
上下游关联API Gateway、SCF、消息队列
同标签关联相同 app/env 标签的资源实例
同项目关联同项目下有网络/依赖关系的资源
网络出口关联NAT Gateway、EIP、对等连接、专线网关、DNS 解析

扩展深度默认 1 跳,网络类故障自动延伸到 2 跳,但总资源数不超过 50 个以保证报告聚焦。

Step 4:异常分析(8 项检查清单)

对定位到的所有资源执行标准化检查:

  1. 实例健康状态 — 运行状态是否异常
  2. 监控指标 — CPU/内存/磁盘/网络波动(对比基线窗口)
  3. 告警记录 — 异常窗口内是否有相关告警
  4. 最近变更 — 配置变更、扩缩容、版本发布
  5. 安全组变更 — 安全组规则变更(高频故障源)
  6. 限流/封禁变更 — CLB/API Gateway 限流策略变更
  7. 日志异常 — ERROR 或异常堆栈
  8. 容量水位 — 带宽、连接数、磁盘容量是否接近上限

时间窗口定义明确:异常窗口 ±30min,基线窗口故障前 1h,变更窗口故障前 24h。指标异常同时报告绝对值和相对偏差百分比,避免小流量资源误报。

Step 5:根因推断

输出 Top 3 最可能根因,每个根因附带:

  • 置信度评分:80-100%(多项证据交叉验证)、60-79%(2 项证据)、40-59%(1 项间接证据)、<40%(仅推测)
  • 证据链:指标 + 告警 + 日志 + 变更记录
  • 缺失证据:告知运维人员「还有什么没查到」,而不是只从已有证据下结论

Step 6:生成排障报告

输出结构化排障报告,以 3 行 TL;DR 开头:

TL;DR: 最可能根因 | 影响范围 | 建议立即操作

报告包含完整的故障概要、资源定位结果、关联拓扑、异常发现、根因分析、修复建议和风险提示。

Step 7:修复建议

按优先级分级:

优先级定义示例
P0 立即紧急止血降级/限流/回滚/隔离故障节点
P1 24h内根本修复修复配置、扩容、调整安全组
P2 下周期预防改进完善监控、补充标签、优化阈值

每条建议都包含具体操作步骤、预期效果和回滚方案(P0 项)。

降级策略:不完美也能用

实际环境中,并非所有检查项都能执行。Skill 包内置了降级策略:

核心原则:所有未执行的检查项必须明确标注原因,不得静默跳过。

• CloudQ API 不支持 → 标注"该检查项未执行:API 暂不支持"
• 权限不足 → 标注"该检查项未执行:权限不足(需要 XXX 权限)"
• 数据源未配置 → 标注"该检查项未执行:数据源未配置",并建议开通
• 资源过多(>50) → 按优先级裁剪并标注裁剪说明

这种「不猜测、不跳过」的策略,确保运维人员对报告的可信度有清晰认知。

如何使用这个 Skill 包

1. 获取 Skill 包

下载 incident-troubleshoot-skill.zip

解压后包含:

incident-troubleshoot-skill/
├── SKILL.md                          # Skill 定义文件
└── references/
    └── troubleshoot-rules.md         # 排障规则详细定义

2. 上传到 CloudQ

在 CloudQ 的自定义 Skill 管理界面上传 Skill 包。上传后,当用户的问题包含「突发事件」「排障」「故障排查」等关键词时,CloudQ 会自动加载此 Skill。

3. 使用示例

当发生突发事件时,直接告诉 CloudQ:

我们的订单系统出现了突发事件,大量接口超时。项目名称是 prod-order,标签是 env:prod, app:order-service。故障现象是 API 响应时间从 200ms 飙升到 5s,5xx 比例达到 15%。
Q
已加载「突发事件排障 Skill」,正在为您执行系统化排障分析……

TL;DR: 最可能根因为 CLB 安全组规则变更导致流量拦截 | 影响 ap-shanghai 地域 3 台 CVM + 1 个 CLB | 建议立即检查安全组规则并回滚

[完整排障报告生成中……]

适配你的环境

Skill 包的设计遵循通用化原则,适用于任何使用腾讯云的企业。你可以根据自身情况微调:

  • 自定义关联维度:如果你们的架构有特殊的关联方式(如微服务注册中心),可以在 references 中补充
  • 调整时间窗口:默认异常窗口 ±30min,可根据业务特点调整
  • 增减检查项:8 项检查清单可根据实际需求增减
  • 对接内部系统:如果已有 CMDB 或事件平台,可将突发事件信息格式对齐

总结

自定义 Skill 让 CloudQ 从「通用的云助手」进化为「懂你排障方法论的专业运维」。突发事件排障 Skill 包的核心价值:

  1. 标准化流程:7 步排障法,不遗漏关键环节
  2. 6 维关联扩展:超越直接匹配,发现隐藏关联
  3. 置信度量化:根因不再靠猜,证据链透明可审计
  4. 降级不跳过:能力不足时明确告知,不误导
  5. 即开即用:上传 Skill 包,无需开发,立刻生效
推荐行动下载 incident-troubleshoot-skill.zip,上传到你的 CloudQ 自定义 Skill,下次突发事件时体验系统化排障的效果。有任何反馈或优化建议,欢迎联系我们。