Datadog替代方案:当可观测性账单超过AWS费用
一个团队每月为Datadog支付$47k、Splunk $38k、Sentry $12k——而实际AWS基础设施仅$52k。他们花在观察系统上的钱比运行系统还多。这不是边缘案例。这是Datadog计费模型按设计运行的结果。
"我们最活跃的Datadog监控是用来监控Datadog费用的。"
— 社区反馈,得分89- Datadog真正做得好的地方
- 计费模型:为扩张而设计
- 真实账单、真实数字:团队实际在付多少
- 设计锁定:为何离开很难
- 未通知的价格上涨和SKU变更
- Datadog AI SRE:按调查次数付费
- 团队正在迁移到什么
- 硬件层盲区
- 基础设施层监控的面貌
- 结论
Datadog真正做得好的地方
Datadog凭借一个在大多数技术指标上都出色的产品赢得了市场地位。统一的可观测性平台——APM、基础设施指标、日志管理、分布式追踪、合成监控、RUM、安全信号——真正减少了运行碎片化监控栈的团队的上下文切换。集成库全面。UI精美。开箱即用的仪表盘确实有用。
对于需要快速交付且不想运行自己监控基础设施的云原生工程团队,Datadog提供了真正的价值。产品是好的。这不是有争议的部分。
有争议的——大声地、持续地、跨越数千社区帖子——是交付的价值和收取的价格之间的关系。以及越来越多地,今天的价格和Datadog在单方面SKU重组后下个季度将收取的价格之间的关系。
计费模型:为扩张而设计
Datadog的定价是基于消费的、多维的,分为约15个单独的SKU。您按主机、按自定义指标、按日志摄取量、按索引span、按Fargate任务、按合成测试、按RUM会话、按profiled容器付费。每个维度有自己的定价层级。开发者启用的每个新功能都有一个不可立即见到的潜在发票后果。
一个开发者开启debug模式 → 意外账单
社区报告一致描述了一个模式:开发者启用Datadog功能或开启debug级别日志进行短暂故障排查。消费峰值无法实时可见。账单到达。这不是bug——这是模型按设计运行。
按需vs承诺:2-3倍的价差
不签合同的团队每单位支付高得多的费用。一旦签了承诺合同,承诺不足或承诺过多都有财务后果。正如一位顾问指出:DD大约有15个SKU需要你估算。承诺不足或承诺过多——他们都会从中获利。
成本增长快于被监控的基础设施
微服务数量翻倍的团队不会简单地使Datadog账单翻倍——而是在主机、自定义指标、span和Fargate任务上并行增加。可观测性成本曲线超过基础设施成本曲线。
真实账单、真实数字:团队实际在付多少
社区产生了一些最详细的Datadog计费现实的公开文档。"我们的可观测性成本现在高于AWS账单"帖子(得分274)是一份标志性文件。
自我监控的讽刺:最高赞评论之一(得分89):"我们最活跃的Datadog监控是用来监控Datadog费用的。"当你的可观测性平台需要专门的监控来防止意外发票时,这个工具已经成为了它本应减少的运营开销的一部分。
设计锁定:为何离开很难
Datadog的粘性不是偶然的。一旦APM instrumentation嵌入到微服务中,一旦仪表盘和告警策略围绕Datadog的数据模型构建,一旦事件手册引用Datadog URL,切换成本就很大——不是因为数据被困住了,而是因为运维知识、集成和团队工作流都与平台耦合。
未通知的价格上涨和SKU变更
Datadog更改了Fargate APM的SKU结构,将每任务成本从$1提高到$4,未在发布说明中提前通知。客户在看到账单影响时才发现这一变更。
Fargate APM:$1 → $4/任务,引入新SKU
客户被告知一个新的Fargate APM SKU重构了每任务定价。变更未提前明确通知。对于Fargate APM使用量大的团队,这意味着单一条目上3倍的成本增加。
Datadog AI SRE:按调查次数付费
2025年,Datadog推出了AI SRE产品——一个在告警触发时自动触发分析的AI辅助事件调查功能。定价模型立即引起了社区评论:在现有平台成本之上按调查次数收费。
团队实际在迁移到什么
社区帖子中记录的迁移路径已经很成熟。开源LGTM栈(Loki、Grafana、Tempo、Mimir/Prometheus)是最常见的目的地。
| 替代方案 | 适合 | 获得的 | 真实权衡 |
|---|---|---|---|
| Grafana Cloud (LGTM) | 云原生、成本敏感团队 | ✓ 显著更便宜 | 仍是SaaS、LGTM安装复杂 |
| 自托管Prometheus/Grafana | 强SRE能力团队 | ✓ 基础设施成本的2–3% | 完全维护负担、工程时间 |
| Dynatrace | 企业、AI/自动化聚焦 | ✓ ~Datadog成本的⅔ | 学习曲线陡峭、仍然昂贵 |
| New Relic | APM聚焦团队 | ✓ 基于用户的定价模型 | 成本取决于组织结构 |
| Groundcover (eBPF) | Kubernetes重度环境 | ✓ 更低的代理开销 | 实际基础设施成本、数据分层复杂 |
| Sensaka DCOS | 数据中心/物理基础设施运营商 | ✓ 硬件层 + DCIM + 可预测定价 | DC聚焦、非云APM替代 |
硬件层盲区
Datadog社区数据中的每个帖子都是关于云、Kubernetes、微服务和应用层可观测性。它不是为物理基础设施监控构建的——这完全超出范围。
Datadog的代理看到操作系统暴露的内容。它不支持Redfish、iDRAC、iLO、iBMC或IPMI。它没有UPS健康、PDU功耗、制冷单元状态、机架温度或硬件层BMC遥测的模型。
无OOB/BMC监 控:操作系统宕机时服务器不可见
Datadog需要运行的操作系统和安装的代理。当服务器崩溃、关机或在固件层面故障时,Datadog完全失去可见性。硬件故障——最需要监控的事件——恰恰是Datadog无法检测的事件。
无DCIM:电力、制冷和设施层超出范围
UPS监控、PDU电力计量、精密制冷状态、环境传感器、机架容量——这些都不在Datadog的产品范围内。数据中心运营商需要单独的DCIM工具。
无能效报告
PUE跟踪、每机架能耗、制冷效率报告——能效合规要求——不是Datadog设计要解决的能力。
这不是对Datadog的批评——而是范围描述。Datadog是面向云和容器工作负载的应用和基础设施可观测性平台。当组织将其视为主要监控投资,却发现物理基础设施可见性完全缺失或需要完全独立的工具预算时,问题就出现了。
基础设施层监控的面貌
Sensaka不是云原生APM和应用可观测 性的Datadog替代品——我们不会假装如此。如果您的主要需求是跨100个Kubernetes微服务的分布式追踪,LGTM栈或Grafana Cloud是更直接的比较。
Sensaka填补的差距是Datadog、Grafana和所有其他云可观测性工具都留下的:物理基础设施层——OOB/BMC服务器监控、DCIM设施管理和能效合规——在一个平台中,本地部署,可预测定价。
Datadog无法到达的硬件层
原生Redfish、iDRAC、iLO、iBMC、IPMI监控。CPU温度、DIMM健康、PSU状态、风扇遥测——在BMC层面可见,无论操作系统是否运行。
完整设施管理
UPS、精密制冷、PDU电力计量、环境传感器、机架容量——与服务器监控在同一平台中。
集成网络监控
网络拓扑、流量分析、IP管理、配置备份。不是另一个SaaS仪表盘——而是与DCIM和硬件监控统一的平台。
