云资源越买越多,账单越来越难看
随着企业上云规模扩大,云资源管理的复杂度呈指数级增长。一个典型的中大型团队往往面临这些困境:
- CVM 跑着跑着变成"僵尸机",CPU 常年低于 5%,却持续计费
- CBS 云硬盘处于"已挂载"状态,但所属实例早已释放,变成了孤儿磁盘
- CLB 负载均衡没有绑定任何后端,默默占着公网带宽包额度
- Redis 实例内存占用不到 10%,连接数几乎为零,却是按月付费的高配规格
- 运维同学每月手动导出账单、写表格、对数据,耗时数天,结论却缺乏量化支撑
传统的降本方式依赖人工巡检,效率低、覆盖面窄、容易漏掉长尾资源。更危险的是,一些激进的自动化工具会直接建议"删除低 CPU 实例"——却不知道那台机器可能是备用数据库,或者业务低峰期的预热节点。
什么是 CloudQ 自定义 Skill?
腾讯云智能顾问 CloudQ 提供了「自定义 Skill」能力,允许用户将自己的业务逻辑、分析流程、报告模板封装成一个可复用的 Skill 包,上传后即可通过自然语言对话触发完整的工作流。Skill 包本质上是一份结构化的提示词工程文件,它告诉 CloudQ:在什么场景下、按什么步骤、用什么标准来分析数据并输出结果。自定义 Skill 让每个团队都能把自己的最佳实践沉淀为可复用的 AI 能力。
resource-cost-optimization-report Skill 详解
支持范围:16 种腾讯云产品
这套 Skill 覆盖了企业最常用的 16 种腾讯云产品类型,基本涵盖计算、存储、网络、数据库、安全全栈:
| 类别 | 产品 |
|---|---|
| 计算 | CVM、Serverless 容器服务 |
| 存储 | COS、CBS、CI(数据万象) |
| 网络 | CDN、CLB、EdgeOne、公网 IP |
| 数据库 | MySQL、Redis、Elasticsearch Service、TDSQL-C MySQL |
| 日志 / 安全 | CLS、WAF、CWP(主机安全) |
5 步标准化工作流
Skill 触发后,CloudQ 会按以下 5 个步骤自动推进,每步都有明确的输入输出定义:
→ 产品类型(单品或全量)
→ 地域(单地域或全地域)
→ 时间窗口(默认 7 天监控数据)
→ 输出格式(对话 / Markdown / PDF)
→ 按地域统计资源分布
→ 按状态分类(运行中 / 已停止 / 未绑定)
→ 按计费模式区分(包年包月 / 按量付费)
→ 按规格梳理配置分布
→ 主要信号:实例已停止、未绑定实例、CLB 无后端、无监听器、流量为零
→ 辅助信号:实例名含 test / tmp / dev / backup 等关键词(仅辅助,不能单独判定)
→ 计算类(CVM):CPU 使用率、内存使用率、磁盘 I/O、网络带宽
→ 数据库类(MySQL / Redis / TDSQL-C):CPU、内存、存储、连接数、QPS、慢查询
→ 流量类(CDN / CLB / EdgeOne):带宽、流量、请求量、后端健康状态
→ P0:立即治理(高确信闲置或严重低利用率)
→ P1:短期优化(中等置信度,建议近期处理)
→ P2:持续观察(存在低利用率迹象但证据不充分)
报告结构:7 节标准化输出
每次分析完成后,Skill 会按以下结构生成报告,支持导出为 PDF:
- 执行摘要:总资源数、闲置数量、潜在节省估算
- 资源清单:按产品 / 地域的分布统计表
- 闲置资源分析:每个闲置资源的判定依据和处置建议
- 低利用率分析:指标对比表,含近 7 天趋势
- 优化建议:具体的降配、释放或整合方案
- 治理优先级列表:P0 / P1 / P2 分级汇总,便于按序执行
- 附录:数据来源说明、监控数据局限性标注
三大设计亮点
亮点一:多维度指标体系,拒绝「一刀切」
很多降本工具只看 CPU 使用率,这会导致大量误判。这套 Skill 针对不同产品类型定义了差异化的判定维度:
| 产品类型 | 核心判定指标 |
|---|---|
| CVM 计算实例 | CPU 使用率(均值 + 峰值)、内存、磁盘 I/O、出入带宽 |
| MySQL / TDSQL-C | CPU、内存、存储容量、活跃连接数、QPS、慢查询次数 |
| Redis | 内存使用率、连接数、命令执行量、带宽利用率 |
| CLB / CDN / EdgeOne | 入流量、出流量、请求量、后端健康检查状态 |
| CBS 云硬盘 | 是否挂载、挂载实例状态、读写 IOPS 趋势 |
以 CVM 为例,Skill 内置了精确的分级判定规则:
🔴 P0(立即治理):过去 7 天平均 CPU < 5%,且峰值 CPU < 20%
🟡 P1(短期优化):过去 7 天平均 CPU < 10%,且峰值 CPU < 30%
🔵 P2(持续观察):CPU 不低,但内存 / 网络 / 磁盘存在低利用率信号,或归属不明确
亮点二:P0 / P1 / P2 三级优先级,让治理变得可执行
降本报告最大的问题不是「发现不了问题」,而是「发现了一堆问题不知道先动哪个」。P0/P1/P2 分级机制让运维团队可以按优先级排队处理,P0 是确信度高、影响大的立即动,P1 是近期安排人工复核,P2 是加入观察列表定期回顾。
分级不只看利用率高低,还综合考虑:
- 资源是否处于停止 / 未绑定状态(提升置信度)
- 监控数据时间窗口是否足够(数据缺失降级处理)
- 资源名称 / 标签是否含有业务关键词(降低误删风险)
- 是否属于安全类产品(特殊保护规则)
亮点三:15 条数据质量规则——保守原则是最大差异化
这是整套 Skill 设计中最重要的差异化特性。一般的自动化降本工具追求「发现更多问题」,而这套 Skill 追求「只说有把握的话」。
- ❌ 不杜撰资源 ID、IP 地址、计费模式——所有字段必须来自 API 返回数据
- ❌ 监控数据缺失时,不得凭推测给出利用率结论,必须在报告中明确标注局限性
- ❌ 不能仅凭实例名含
test/old/backup等关键词判定为 P0 闲置资源 - ❌ 不能仅凭 CPU 指标判定低利用率,必须综合内存 / 网络 / 磁盘 / QPS
- ❌ 数据库和存储资源执行任何破坏性操作前,必须要求用户明确二次确认
- ❌ 安全产品(WAF / CWP)不因低流量 / 低使用率就建议关闭防护——低流量可能代表防护有效
- ✅ 对置信度不足的资源,优先降级为 P2 观察,而非强行归入 P0/P1
- ✅ 报告附录必须说明数据来源、采集时间窗口和已知局限性
这套保守原则的核心理念是:宁可少报 5 个闲置资源,也不能误删 1 个在用资源。对于生产环境的云资源治理,可信度远比覆盖率更重要。
如何将 Skill 上传到 CloudQ
整个上传过程只需 3 步,不需要任何代码开发:
-
下载 Skill 包:获取
resource-cost-optimization-report.skill文件(见文末链接) - 进入 CloudQ 控制台:登录腾讯云控制台 → 智能顾问 → 自定义 Skill → 上传 Skill 包
- 验证生效:在 CloudQ 对话框中输入「帮我生成云资源降本优化报告」,Skill 自动识别并触发
实际对话示例
示例一:CVM 降本分析
用户:帮我统计一下上海地域的 CVM 资源情况,分析有没有低利用率实例,最后生成 PDF 报告 CloudQ:好的,我来为您分析上海地域的 CVM 资源。 【Step 1 · 确认范围】 产品:CVM 地域:ap-shanghai 时间窗口:近 7 天 输出格式:PDF 【Step 2 · 资源盘点】 上海地域共发现 CVM 实例 23 台: - 运行中:19 台(包年包月 12 台,按量付费 7 台) - 已停止:4 台(按量付费 4 台) 【Step 3 · 闲置资源识别】 发现 2 台疑似闲置实例: - ins-xxxxxx1:已停止 > 30 天,按量付费持续计费(P0) - ins-xxxxxx2:已停止 > 15 天,实例名含"test"(辅助信号,P0) 【Step 4 · 低利用率分析】 P0(1 台): - ins-xxxxxx3:7 天平均 CPU 2.3%,峰值 CPU 8.1%,内存 4.2%,出带宽 < 1 Mbps P1(3 台): - ins-xxxxxx4:7 天平均 CPU 6.8%,峰值 CPU 22%,内存 18% 已为您生成 PDF 报告,请点击下载。
示例二:闲置 CBS 云硬盘排查
用户:帮我找一下所有地域有没有闲置的 CBS 云硬盘 CloudQ:正在扫描全地域 CBS 资源... 发现疑似闲置 CBS 云硬盘 3 块: 磁盘 ID 地域 大小 状态 最后挂载 计费模式 建议 disk-aaa111 上海 100 GB 未挂载 45 天前 按量付费 P0 释放 disk-bbb222 广州 200 GB 未挂载 12 天前 按量付费 P1 确认 disk-ccc333 北京 500 GB 已挂载 —(宿主实例已停止) 包年包月 P2 观察 ⚠️ 注意:disk-ccc333 宿主实例已停止,但属于包年包月大容量磁盘,建议人工确认 是否存有重要数据后再决策。执行释放前请务必确认已完成数据备份。
示例三:MySQL 低利用率分析
用户:帮我分析广州地域的 MySQL 有没有低利用率实例 CloudQ:正在拉取广州地域 MySQL 实例监控数据(时间窗口:近 7 天)... 发现 1 个低利用率实例: P1 · cdb-xxx111(4 核 16 GB,包年包月) - CPU:均值 3.2%,峰值 11% - 内存:均值 8.4% - 连接数:均值 2,峰值 5 - QPS:均值 1.2,慢查询:0 次/天 - 建议:降配至 2 核 4 GB,预计节省约 60% 注:该实例为包年包月,建议在下次续费前完成降配决策,无需立即处理。 请结合业务增长预期综合判断后再执行操作。
小结
这套基于 CloudQ 自定义 Skill 构建的「资源降本优化报告」能力,解决了传统人工巡检效率低、自动化工具误判率高两个核心矛盾。通过 5 步标准化工作流、16 种产品全覆盖、多维度指标体系和 15 条数据质量规则,让云资源治理既系统化又足够谨慎。
保守原则不是退而求其次,而是对生产环境负责任的设计选择。当一套降本工具敢于说「我不确定,所以我标注为 P2 观察而不是建议删除」的时候,才是真正值得在生产环境中被信任和使用的工具。