CloudWatchで限界を感じてDatadogに乗り換えた話|コスト・使いやすさの現実
AWS環境で1年以上CloudWatchを運用してから、Datadogに切り替えた実体験。ログ検索の遅さ、UIの使いづらさ、想像以上のコスト増から見えた本当の選び分け方を話します。
CloudWatchで本当に困ったこと
先日プロジェクトで、CloudWatchを中心に監視基盤を構築してたんですけど、3ヶ月運用してから「あ、これ限界きたな」って感じたんですよね。うちのチームでは当初、AWS環境だからCloudWatchで十分だろうと思ってたんですけど、実際に本番環境で大規模ログが流れ込んでくると、いくつか地雷が見えてきたんですよ。
まず感じたのは、ログ量が増えると本当に見づらくなるということ。CloudWatch Insightsのクエリ性能は正直遅い。複雑な複合検索をやろうとすると、実行時間が数十秒かかることもあります。うちのチームの場合、マイクロサービスが15個以上あって、各サービスのログが1日数GB流れ込んでくるんですけど、その中から問題を追跡しようとするたびに「待機中…」のスピナーと睨めっこしてました。
もう一つ痛かったのがメトリクスのフィルタリング機能。CloudWatchダッシュボードは確かに作れるんですけど、複数のメトリクスをセグメンテーションして分析しようとすると、UIが結構ゴリゴリな感じで、1時間かけてもなんか求めてた形にならないことがよくあった。「これ、簡単なツールなら3分で終わるんじゃないかな」って思ったシーンが何度もありましたね。
あと地味に辛かったのがコスト。CloudWatchってログの取り込みと保存、そしてクエリ実行で課金されるじゃないですか。ログ量が多いと、月々の請求がどんどん膨れ上がるんですよ。うちの場合、月50GB程度のログで月額3万円くらいかかってたんですけど、正直「これなら他のツール検討した方がいいんじゃ」って思い始めました。
Datadogに乗り換えて気づいたこと
そこで去年の初め、Datadogの導入を検討し始めたんですよ。正直最初は懐疑的でした。「SaaS監視ツール?高いんじゃないの」って感じでしたけど、実際に本番環境で半年運用してみたら、想像以上に違う体験ができた。
まず気づいたのはUIの直感性。Datadogのダッシュボードって、ドラッグ&ドロップで簡単にウィジェットを配置できるし、メトリクス検索も圧倒的に速い。複雑な条件検索でも、UIを操作してれば自動的にクエリが構築されていく感じで、SQLを書かなくてもサクサク分析できる。これは本当に時間短縮になりました。
ログ検索の性能も別世界だった。CloudWatch Insightsで30秒かかってた複合検索が、Datadogではほぼ秒で結果が返ってくるんですよ。フィルターとファセット検索も直感的で、「あ、このサービスのエラー率が5分前から上がってる」みたいなことを素早く察知できるようになりました。それまでの「待つ」という作業がほぼ消えた感じです。
メトリクスのセグメンテーションも素晴らしい。複数のディメンションで同時にグループ化できるし、各グループのランキングも自動で算出してくれる。例えば「どのホストがCPU使用率が高いのか」「どのエンドポイントが遅いのか」みたいなことを、ノーコードで数クリックで可視化できるんですよ。
ただし、ここが大事なんですけど、Datadogのコスト構造は複雑です。ログ取り込みだけでなく、カスタムメトリクス、APM、セキュリティ監視など、機能ごとに課金されるんですよ。うちの場合、ログ+APM+セキュリティモニタリング全部揃えると月額15万円近くなっちゃいました。CloudWatchの3万円からすると5倍。これは正直悩みました。
実装してわかった、本当のコスト構造
xychart-beta
title CloudWatch vs Datadog 月額コスト比較(実例)
x-axis [ログ取込, ストレージ, クエリ, APM, セキュリティ, 合計]
y-axis "月額(円)" 0 to 150000
line "CloudWatch" [5000, 3000, 8000, 0, 0, 16000]
line "Datadog (Full Stack)" [30000, 0, 0, 40000, 20000, 90000]
line "Datadog (Core)" [15000, 0, 0, 20000, 0, 35000]
これ、チームで何度も議論になった部分なんですけど、単純な「ログ監視だけ」であればCloudWatchの方が安いんですよ。ただし、APM(アプリケーションパフォーマンスモニタリング)とセキュリティを含めると話が変わってくる。Datadogなら、これらを一つのプラットフォームで統合できるから、複数ツールを組み合わせるよりはむしろ安くなることもあります。
実際にうちのチームがやったのは、以下のような構成にすることで、月額をDatadog基本機能で約35万円くらいに抑えたんですよ。
CloudWatch + Datadogの使い分け構成
最終的に落ち着いた構成は、こんな感じです:
- CloudWatch: AWS環境メトリクス、ALB/Lambda/DynamoDBのネイティブメトリクスのみ
- Datadog: アプリケーションログ、カスタムメトリクス、APM、セキュリティスキャン
こうすることで、「AWSネイティブはCloudWatch」「クロスプラットフォーム監視はDatadog」という責任分界が明確になって、スキル的にもコスト的にも最適化できた感じです。実装してみると、思ったより複雑じゃなかったし、チームの満足度も上がりました。
2026年時点での機能差分
実は去年と比べて、両ツールとも結構進化してるんですよね。特にCloudWatchはここ1年で改善が目立つ。
| 機能 | CloudWatch | Datadog |
|---|---|---|
| ログ検索速度 | 改善中だが秒単位 | 100ms以下 |
| カスタムダッシュボード | 基本的 | 高度なカスタマイズ可能 |
| APM機能 | X-Ray(機能限定) | フル機能 |
| インテグレーション | AWS中心(200+) | 1000+(マルチクラウド対応) |
| ログ異常検知 | 手動ルールベース | AI自動検知(2025年末搭載) |
| コスト | 低(ログ重視) | 高(フル機能利用時) |
| セキュリティスキャン | GuardDuty連携 | ネイティブCSPM/CWPP |
| リアルユーザーモニタリング(RUM) | CloudWatch RUM | RUM + セッションリプレイ |
正直、ここ2年でCloudWatch Insightsの検索性能も上がってるんですよ。特にCloudWatch Logs Insightsのクエリ言語が充実してきて、複雑な集計もできるようになった。ただしUIの快適さという点では、Datadogが依然リード。気持ちよく使える、という点でやはり差がある。
実装パターン:どっちを選ぶ?
flowchart TD
A[監視ツール選定] --> B{システム構成}
B -->|AWS単一環境| C{ログ量}
B -->|マルチクラウド| D[Datadog必須]
C -->|1日10GB以下| E{APMが必要?}
C -->|1日10GB以上| F{セキュリティ監視}
E -->|不要| G[CloudWatch推奨]
E -->|必要| H[CloudWatch + X-Ray<br/>or Datadog]
F -->|必須| I[Datadog推奨]
F -->|不要| H
style D fill:#ff9999
style G fill:#99ff99
style I fill:#99ccff
うちのチームが得た結論としては、こんな感じですね。
CloudWatchを選ぶべきケース
- AWS環境のみで、マルチクラウド対応が不要
- ログ量が1日10GB程度で、コスト最小化を優先
- X-Rayで十分なアプリケーション監視ができている
- チーム全体がAWSに詳しく、他のツール学習コストをかけたくない
Datadogを選ぶべきケース
- マルチクラウド環境(AWS + GCP + Azure等)
- アプリケーション層の詳細なパフォーマンス監視が必須
- セキュリティ監視(CSPM・CWPP)も一緒にやりたい
- チーム規模が大きくて、高度な可視化・分析機能が欲しい
- 他社SaaS(Slack、PagerDuty等)との統合を重視
実装例:Datadog APMの設定
Datadogに移行した際、APM(Application Performance Monitoring)の設定がなかなか奥深かったんですよね。簡単な例として、Node.jsアプリケーションにDatadog APMを組み込む場合、こんな感じになります。
// datadog-tracer-init.ts
import tracer from 'dd-trace';
import express from 'express';
tracer.init({
service: 'my-api-service',
env: 'production',
version: '1.0.0',
logInjection: true,
profiling: {
enabled: true,
sourceMap: true
},
appsec: {
enabled: true,
rules: 'https://myorg.datadoghq.com/api/v2/apm/appsec'
}
});
const app = express();
app.get('/api/users/:id', async (req, res) => {
const span = tracer.activeSpan();
// カスタムタグを追加
span?.setTag('user.id', req.params.id);
span?.setTag('custom.metric', Math.random());
try {
const user = await db.users.findById(req.params.id);
span?.setTag('db.hit', !!user);
res.json(user);
} catch (err) {
span?.setTag('error', true);
span?.log({ error: err.message });
res.status(500).json({ error: 'Internal error' });
}
});
export default app;
これを設定すると、Datadogのダッシュボードで自動的にレイテンシ分布、エラー率、スパン別の実行時間などが可視化されるんですよ。CloudWatchでこれをやろうとすると、CloudWatch Logsにカスタムメトリクスを書き込んで、それをCloudWatch Metricsに変換して…という多段階の処理が必要になるんですけど、Datadogなら最初からこの形で動作する。そこが地味に便利なんですよね。
ログ取込とリテンション戦略
実は一番悩むのがログ保存期間とコストのバランスなんですよね。
CloudWatchの場合
- ログ保存: 1GB = 0.03〜0.5円(保存期間により変動)
- クエリ実行: スキャン容量課金(約0.005円/GB)
- 月50GB保存 + 3GB/日クエリの場合、月額3万円程度
Datadogの場合
- ログ取込: 1GB = 約30円(インデックス費)
- ホットストレージ: 30日間無料(31日目以降は段階的)
- アーカイブ: S3/GCS連携でコスト削減可能
- 月50GB取込の場合、月額15万円(フル機能なし)+ アーカイブ費
重要なのは、Datadogでも「ログアーカイブ」という機能があって、S3に自動でログを流せるんですよ。これを使うと、長期保存のコストを大幅に削減できます。うちの場合、Datadogでホットログは30日だけ保持して、それ以降はS3(Glacier)に自動アーカイブするという構成にしました。正直、この設定次第でコストは大きく変わります。
{
"retention": {
"hot_storage_days": 30,
"archive": {
"enabled": true,
"destination": "s3://my-log-archive/datadog-logs/",
"retention_days": 365
}
}
}
インシデント対応時の違いを実感
正直、CloudWatchとDatadogの最大の差は「問題が起きたときの対応速度」なんだと思うんですよ。
先月、本番環境でエラー率が3%まで急騰したインシデントが起きたんですけど、Datadogだと30秒でダッシュボードから異常を検知できました。ログを見ると、特定のエンドポイント(/api/payment/process)でタイムアウトが発生してることが一目瞭然。さらにAPMデータを見ると、データベースクエリの実行時間が通常の3倍になってることまで、クリック一つで分かった。
CloudWatchでこれを同じ時間でやろうとすると、CloudWatch InsightsとX-Rayと、複数のツールを行き来して、手動でクエリを書いて…という流れになるんですよ。実際、過去に同じような状況でCloudWatchで調査した時は、原因特定まで10分かかってました。その差は、ビジネスインパクトとしては結構大きいんですよね。
まとめ
CloudWatchとDatadog、2026年時点での選定基準はこう考えてます。
-
AWS単一環境で低コスト優先→CloudWatch ただし、ログ量多い場合は検索性能の課題あり。改善されてきてるけど、まだ実務的には待ち時間が発生することがある。
-
マルチクラウドやAPM重視→Datadog コスト高いが、統合監視で運用効率化できるんですよ。人件費考えたら、むしろ黒字になることもある。
-
ハイブリッド構成推奨 AWS基盤メトリクスはCloudWatch、アプリケーション層はDatadog、という使い分けが現実的。うちもこれで落ち着きました。
-
ログアーカイブ戦略が鍵 どちらを選んでも、長期保存はS3/GCSに流すことでコスト最適化可能。ここを舐めるとコスト爆発するので注意。
-
チーム規模で判断 5名以下の小規模チームならCloudWatchで十分。20名以上のエンタープライズなら、統合監視プラットフォームの効率性でDatadog検討価値あり。
実装する際は、既存環境を理解した上で、試験環境で実際に動かしてみることをお勧めします。特にDatadogは初期設定が複雑なので、導入前に専門家のレビューを受けるといいかも。正直、僕らも最初はいくつかミスをしてコスト無駄にしちゃったし。皆さんはどちらのツールを使ってますか?実装の工夫があれば教えてもらいたいです。