← 返回文章列表

最佳实践:用自定义 Skill 让 CloudQ 成为你的云资源降本优化专家

云资源越买越多,账单越来越难看

随着企业上云规模扩大,云资源管理的复杂度呈指数级增长。一个典型的中大型团队往往面临这些困境:

  • CVM 跑着跑着变成"僵尸机",CPU 常年低于 5%,却持续计费
  • CBS 云硬盘处于"已挂载"状态,但所属实例早已释放,变成了孤儿磁盘
  • CLB 负载均衡没有绑定任何后端,默默占着公网带宽包额度
  • Redis 实例内存占用不到 10%,连接数几乎为零,却是按月付费的高配规格
  • 运维同学每月手动导出账单、写表格、对数据,耗时数天,结论却缺乏量化支撑

传统的降本方式依赖人工巡检,效率低、覆盖面窄、容易漏掉长尾资源。更危险的是,一些激进的自动化工具会直接建议"删除低 CPU 实例"——却不知道那台机器可能是备用数据库,或者业务低峰期的预热节点。

这篇文章介绍一套基于腾讯云 CloudQ 自定义 Skill 构建的「资源降本优化报告」解决方案,覆盖 16 种腾讯云产品,支持从资源盘点到优先级分级的全链路分析,并内置 15 条数据质量规则,确保建议保守、可信、不误删。

什么是 CloudQ 自定义 Skill?

腾讯云智能顾问 CloudQ 提供了「自定义 Skill」能力,允许用户将自己的业务逻辑、分析流程、报告模板封装成一个可复用的 Skill 包,上传后即可通过自然语言对话触发完整的工作流。Skill 包本质上是一份结构化的提示词工程文件,它告诉 CloudQ:在什么场景下、按什么步骤、用什么标准来分析数据并输出结果。自定义 Skill 让每个团队都能把自己的最佳实践沉淀为可复用的 AI 能力。

resource-cost-optimization-report Skill 详解

支持范围:16 种腾讯云产品

这套 Skill 覆盖了企业最常用的 16 种腾讯云产品类型,基本涵盖计算、存储、网络、数据库、安全全栈:

类别 产品
计算 CVM、Serverless 容器服务
存储 COS、CBS、CI(数据万象)
网络 CDN、CLB、EdgeOne、公网 IP
数据库 MySQL、Redis、Elasticsearch Service、TDSQL-C MySQL
日志 / 安全 CLS、WAF、CWP(主机安全)

5 步标准化工作流

Skill 触发后,CloudQ 会按以下 5 个步骤自动推进,每步都有明确的输入输出定义:

Step 1 · 确认分析范围
→ 产品类型(单品或全量)
→ 地域(单地域或全地域)
→ 时间窗口(默认 7 天监控数据)
→ 输出格式(对话 / Markdown / PDF)
Step 2 · 资源盘点
→ 按地域统计资源分布
→ 按状态分类(运行中 / 已停止 / 未绑定)
→ 按计费模式区分(包年包月 / 按量付费)
→ 按规格梳理配置分布
Step 3 · 闲置资源识别
→ 主要信号:实例已停止、未绑定实例、CLB 无后端、无监听器、流量为零
→ 辅助信号:实例名含 test / tmp / dev / backup 等关键词(仅辅助,不能单独判定)
Step 4 · 低利用率分析
→ 计算类(CVM):CPU 使用率、内存使用率、磁盘 I/O、网络带宽
→ 数据库类(MySQL / Redis / TDSQL-C):CPU、内存、存储、连接数、QPS、慢查询
→ 流量类(CDN / CLB / EdgeOne):带宽、流量、请求量、后端健康状态
Step 5 · 优先级分级与报告生成
→ P0:立即治理(高确信闲置或严重低利用率)
→ P1:短期优化(中等置信度,建议近期处理)
→ P2:持续观察(存在低利用率迹象但证据不充分)

报告结构:7 节标准化输出

每次分析完成后,Skill 会按以下结构生成报告,支持导出为 PDF:

  1. 执行摘要:总资源数、闲置数量、潜在节省估算
  2. 资源清单:按产品 / 地域的分布统计表
  3. 闲置资源分析:每个闲置资源的判定依据和处置建议
  4. 低利用率分析:指标对比表,含近 7 天趋势
  5. 优化建议:具体的降配、释放或整合方案
  6. 治理优先级列表:P0 / P1 / P2 分级汇总,便于按序执行
  7. 附录:数据来源说明、监控数据局限性标注

三大设计亮点

亮点一:多维度指标体系,拒绝「一刀切」

很多降本工具只看 CPU 使用率,这会导致大量误判。这套 Skill 针对不同产品类型定义了差异化的判定维度:

产品类型 核心判定指标
CVM 计算实例 CPU 使用率(均值 + 峰值)、内存、磁盘 I/O、出入带宽
MySQL / TDSQL-C CPU、内存、存储容量、活跃连接数、QPS、慢查询次数
Redis 内存使用率、连接数、命令执行量、带宽利用率
CLB / CDN / EdgeOne 入流量、出流量、请求量、后端健康检查状态
CBS 云硬盘 是否挂载、挂载实例状态、读写 IOPS 趋势

以 CVM 为例,Skill 内置了精确的分级判定规则:

CVM 低利用率判定标准

🔴 P0(立即治理):过去 7 天平均 CPU < 5%,且峰值 CPU < 20%
🟡 P1(短期优化):过去 7 天平均 CPU < 10%,且峰值 CPU < 30%
🔵 P2(持续观察):CPU 不低,但内存 / 网络 / 磁盘存在低利用率信号,或归属不明确

亮点二:P0 / P1 / P2 三级优先级,让治理变得可执行

降本报告最大的问题不是「发现不了问题」,而是「发现了一堆问题不知道先动哪个」。P0/P1/P2 分级机制让运维团队可以按优先级排队处理,P0 是确信度高、影响大的立即动,P1 是近期安排人工复核,P2 是加入观察列表定期回顾。

分级不只看利用率高低,还综合考虑:

  • 资源是否处于停止 / 未绑定状态(提升置信度)
  • 监控数据时间窗口是否足够(数据缺失降级处理)
  • 资源名称 / 标签是否含有业务关键词(降低误删风险)
  • 是否属于安全类产品(特殊保护规则)

亮点三:15 条数据质量规则——保守原则是最大差异化

这是整套 Skill 设计中最重要的差异化特性。一般的自动化降本工具追求「发现更多问题」,而这套 Skill 追求「只说有把握的话」。

15 条数据质量规则(核心摘要)
  • ❌ 不杜撰资源 ID、IP 地址、计费模式——所有字段必须来自 API 返回数据
  • ❌ 监控数据缺失时,不得凭推测给出利用率结论,必须在报告中明确标注局限性
  • ❌ 不能仅凭实例名含 test / old / backup 等关键词判定为 P0 闲置资源
  • ❌ 不能仅凭 CPU 指标判定低利用率,必须综合内存 / 网络 / 磁盘 / QPS
  • ❌ 数据库和存储资源执行任何破坏性操作前,必须要求用户明确二次确认
  • ❌ 安全产品(WAF / CWP)不因低流量 / 低使用率就建议关闭防护——低流量可能代表防护有效
  • ✅ 对置信度不足的资源,优先降级为 P2 观察,而非强行归入 P0/P1
  • ✅ 报告附录必须说明数据来源、采集时间窗口和已知局限性

这套保守原则的核心理念是:宁可少报 5 个闲置资源,也不能误删 1 个在用资源。对于生产环境的云资源治理,可信度远比覆盖率更重要。

如何将 Skill 上传到 CloudQ

整个上传过程只需 3 步,不需要任何代码开发:

  1. 下载 Skill 包:获取 resource-cost-optimization-report.skill 文件(见文末链接)
  2. 进入 CloudQ 控制台:登录腾讯云控制台 → 智能顾问 → 自定义 Skill → 上传 Skill 包
  3. 验证生效:在 CloudQ 对话框中输入「帮我生成云资源降本优化报告」,Skill 自动识别并触发
提示:Skill 上传后即对当前账号下的所有 CloudQ 会话生效,无需重启或重新配置 API 权限。CloudQ 会自动调用已授权的腾讯云 API 获取资源数据和监控指标。

实际对话示例

示例一:CVM 降本分析

用户:帮我统计一下上海地域的 CVM 资源情况,分析有没有低利用率实例,最后生成 PDF 报告

CloudQ:好的,我来为您分析上海地域的 CVM 资源。

【Step 1 · 确认范围】
产品:CVM  地域:ap-shanghai  时间窗口:近 7 天  输出格式:PDF

【Step 2 · 资源盘点】
上海地域共发现 CVM 实例 23 台:
- 运行中:19 台(包年包月 12 台,按量付费 7 台)
- 已停止:4 台(按量付费 4 台)

【Step 3 · 闲置资源识别】
发现 2 台疑似闲置实例:
- ins-xxxxxx1:已停止 > 30 天,按量付费持续计费(P0)
- ins-xxxxxx2:已停止 > 15 天,实例名含"test"(辅助信号,P0)

【Step 4 · 低利用率分析】
P0(1 台):
- ins-xxxxxx3:7 天平均 CPU 2.3%,峰值 CPU 8.1%,内存 4.2%,出带宽 < 1 Mbps

P1(3 台):
- ins-xxxxxx4:7 天平均 CPU 6.8%,峰值 CPU 22%,内存 18%

已为您生成 PDF 报告,请点击下载。

示例二:闲置 CBS 云硬盘排查

用户:帮我找一下所有地域有没有闲置的 CBS 云硬盘

CloudQ:正在扫描全地域 CBS 资源...

发现疑似闲置 CBS 云硬盘 3 块:

磁盘 ID      地域    大小    状态    最后挂载    计费模式  建议
disk-aaa111  上海  100 GB  未挂载  45 天前   按量付费  P0 释放
disk-bbb222  广州  200 GB  未挂载  12 天前   按量付费  P1 确认
disk-ccc333  北京  500 GB  已挂载  —(宿主实例已停止)  包年包月  P2 观察

⚠️ 注意:disk-ccc333 宿主实例已停止,但属于包年包月大容量磁盘,建议人工确认
是否存有重要数据后再决策。执行释放前请务必确认已完成数据备份。

示例三:MySQL 低利用率分析

用户:帮我分析广州地域的 MySQL 有没有低利用率实例

CloudQ:正在拉取广州地域 MySQL 实例监控数据(时间窗口:近 7 天)...

发现 1 个低利用率实例:

P1 · cdb-xxx111(4 核 16 GB,包年包月)
- CPU:均值 3.2%,峰值 11%
- 内存:均值 8.4%
- 连接数:均值 2,峰值 5
- QPS:均值 1.2,慢查询:0 次/天
- 建议:降配至 2 核 4 GB,预计节省约 60%

注:该实例为包年包月,建议在下次续费前完成降配决策,无需立即处理。
请结合业务增长预期综合判断后再执行操作。

小结

这套基于 CloudQ 自定义 Skill 构建的「资源降本优化报告」能力,解决了传统人工巡检效率低、自动化工具误判率高两个核心矛盾。通过 5 步标准化工作流、16 种产品全覆盖、多维度指标体系和 15 条数据质量规则,让云资源治理既系统化又足够谨慎。

保守原则不是退而求其次,而是对生产环境负责任的设计选择。当一套降本工具敢于说「我不确定,所以我标注为 P2 观察而不是建议删除」的时候,才是真正值得在生产环境中被信任和使用的工具。

下载 Skill 包