コストのアノマリー
DoiT Anomaly Detection は、Google Cloud・Amazon Web Services・Microsoft Azure・Snowflake・Databricks・Datadog・OpenAI・ClickHouse Cloud・Cloudflare・Cursor・Elastic Cloud・GitHub・Grafana Cloud・Vercel におけるコストスパイクをエンドツーエンドで監視します。
検知サービスは、時系列モデリング を活用してデータを監視し、クラウド環境における支出傾向を分析します。DoiT 顧客全体の請求パターンを特定し、クラウド支出を予測するとともに、より高精度な結果を提供できるよう継続的に改善されています。確立された支出行動と一致しない請求レコードは、潜在的なアノマリーとして識別されます。DoiT コンソールは、寄与リソースの一覧 や AI 分析 など、詳細な情報を提供し、必要に応じて調査や是正措置の実施を支援します。
以下のセクションでは、DoiT Anomaly Detection の仕組みについて説明します。
ソースデータ
DoiT Anomaly Detection は、次の 2 種類のソースデータをサポートします。
-
請求データ: クラウドプロバイダおよびサードパーティプラットフォームによるコストと使用状況データ。例: AWS CUR、Google Cloud Billing データエクスポート、Azure billing export など。
-
リアルタイム使用状況デー タ: ほぼリアルタイムのコストアノマリー検知のために、DoiT はリアルタイム使用状況データを活用し、次のサービスのコストを推定します。
-
Amazon Elastic Compute Cloud (EC2)、Amazon Relational Database Service (RDS): AWS CloudTrail から得られる使用状況に基づき、推定オンデマンドコストを算出。
-
Google Compute Engine (GCE): Google Cloud Audit Logs から得られる使用状況に基づき、推定オンデマンドコストを算出。
-
Google BigQuery: BigQuery APIs とメタデータビューから得られる使用状況に基づき、推定オンデマンドコストを算出。
-
ベースライン期間
アノマリー検知システムは、新規登録後すぐにデータの分析を開始します。ただし、高精度な検知には十分な履歴データが必要です。そのため、機械学習モデルが請求データおよびリアルタイムデータに基づく使用パターンの信頼できるベースラインを構築できるよう、請求データについて 14 日間、リアルタイム使用状況データについて 4 日間 のベースライン期間を設定しています。
アノマリー検知が業務上クリティカルな場合は、クラウド支出に大きな変更を加える前にベースライン期間が終了するまで待つことを推奨 します。ベースライン期間中は、いかなる支出もアノマリーとして分類されません。
集約レベル
アノマリー検知システムは、SKU レベル および サービスレベル の両方でコストと使用状況データを監視・評価するために時系列モデルを活用します。履歴パターンを分析し、現在の使用傾向と比較することで、重大なコストスパイクを検知するよう設計されています。アノマリーなコストスパイクが検出されると、アノマリーアラート がトリガーされます。
請求データ
請求データについては、解決までの時間を短縮するために、アノマリー検知システムは主に SKU レベルで動作します。つまり、検出されるコストのアノマリーの多くは SKU レベルのアノマリーになります。
サービスレベルでの監視は、主に新規プロジェクトや新規 SKU によって発生する初期スパイクに対処するための補完的な役割を果たします。新しいプロジェクトが作成されるか、新しい SKU でコストの発生が始まると、新しい 時系列 が識別され、コストデータの収集が開始されます。しかし、この新しい時系列は、十分な履歴データポイント がないため、最初の数日間は SKU レベルのアノマリー候補を生成しません。「通常」の支出水準が新しい時系列でまだ確立されていない間でも、新たに発生したコストがサービスレベルでアノマリースパイクを引き起こす可能性があります。
リアルタイム使用状況データ
2025 年 5 月 21 日以降、時間単位の粒度を持つリアルタイム使用状況データ向けのアノマリー検知システムは、高分解能サンプリングによるノイズを低減するため、サービスレベルのみで動作します。
評価スコープ
システムによって評価されるデータサンプルは、次のように分割されます。
- 請求アカウントごと
- プロジェクト・アカウントごと
- サービスごと
- SKU ごと
- アロケーションごと(該当する場合)
評価のスコープは集約レベルによって異なります。
- SKU レベル: リージョンをまたいだ SKU ごと・サービスごと・プロジェクト・アカウントごと
- サービスレベル: プロジェクトおよび SKU をまたいだサービスごと
検知システムは、複数のサービスのコストを合算して評価することはありません。
判定基準
誤検知を軽減するため、アノマリー検知システムは、次のすべての条件を満たした場合にのみ、SKU またはサービスの支出をアノマリーとして分類します。
請求データ
-
1 日あたりの支出が最小閾値に達していること:
-
SKU レベルのアノマリー: US$50
-
サービスレベルのアノマリー: US$100
-
-
1 日あたりの支出が、月次の季節性 を上回っていること。
-
1 日あたりの支出が、システムの「通常範囲」(または「許容範囲」)の上限を超えていること。
リアルタイム使用状況データ
-
1 時間あたりの支出が US$10 の最小閾値に達していること。
-
1 時間あたりの支出が、システムの「通常範囲」(または「許容範囲」)の上限を超えていること。
感度
アノマリー検知システムは、直前の期間のデータで学習した時系列モデルを使用して、予測される支出を算出します。通常範囲は DoiT 固有の予測区間 によって決定されます。予測区間とは、あるパーセンテージの値が収まると見込まれる区間の推定値です。例えば、90% 予測区間には、新しいデータポイントが取り得る可能な値のうち、モデルにフィットした過去の値に基づいて 90% が含まれます。通常範囲は、コストアノマリーチャート 上では網掛け領域として表示されます。
DoiT コンソールでは、アノマリー感度設定 を調整して予測区間を変更し、それによって通常範囲を再定義できます。感度を高くすると範囲が狭まり、検出されるアノマリー数が増加します。逆に感度を低くすると範囲が広がり、検出されるアノマリー数が減少します。
検知レイテンシ
検知レイテンシは、ソースデータの種類によって異なります。
請求データ
多くの場合、集計コストが事前定義された閾値を超えると、12 時間以内 に請求データのアノマリーが報告されます。
アノマリー検知エンジンは、使用状況およびコストデータを定期的に評価します。SKU レベルのアノマリーについては 1 時間ごと、サービスレベルのアノマリーについては 6 時間ごとに評価が実行されます。
検知レイテンシは主に、クラウドプロバイダが使用状況およびコストデータを報告する間隔の違いに関連しています。データレイテンシ も参照してください。
リアルタイム使用状況データ
アノマリー検知エンジンは、リアルタイム使用状況データを 30 分ごとに評価します。リアルタイム使用状況データを通じて検出されたアノマリーは、使用発生から 1 時間以内に報告されます。
動的な更新
進行中のアノマリーは Active と見なされます。検知システムは Active なアノマリーを監視し続け、常に最新の利用可能なデータでシステムを更新します。
次のいずれかの条件を満たすと、アノマリーは Inactive になります。
-
コストが新しい通常範囲内に戻った場合。
-
アノマリーが最大アクティブ期間に達した場合: 請求データに基づく場合は 7 日間、リアルタイム使用状況データに基づく場合は 3 日間。
アノマリーが Active および Inactive になるタイミングの詳細は、コストアノマリーチャート を参照してください。
コストアノマリーアラート
アノマリーが検出されると、システムは請求アカウント・サービス・プロジェクト ID を確認し、同じコンテキストに対するアラートがすでに送信されていない場合にのみ、アラートがトリガーされるようにします。
つまり、同じサービスについて SKU レベルのアラートが送信されている場合は、サービスレベルのアラートは送信されません。その逆も同様です。
CloudFlow triggers を使用してコストアノマリーへの対応を自動化できます。例えば、アノマリーが検出されたとき、そのステータスやコストが変化したとき、またはアノマリーが確認されたときなどにフローを開始できます。フローを開始できるイベントの一覧は、Cost anomaly events を参照してください。
月初のスパイク
一部のサービスでは月初にまとめて請求が行われるため、月の残りの期間と比べて不釣り合いなコストスパイクが発生します。ただし、その金額が過去数か月と同程度であれば、アノマリーとは見なされません。
精度を高めるために、月初のコストを評価する際、アノマリー検知モデルは日次コストのモデリングに加えて、月ごとの比較も行います。(ほぼリアルタイムのアノマリー検知では、より短い期間でより細かな評価を行うため、月次の季節性は考慮されません。)
以下は評価対象のサービス一覧です。
月初にコストスパイクが発生するサービス
- Amazon API Gateway
- Amazon Cognito
- Amazon DynamoDB
- Amazon ElastiCache
- Amazon GuardDuty
- Amazon Managed Service for Prometheus
- Amazon OpenSearch Service
- Amazon Redshift
- Amazon Rekognition
- Amazon Relational Database Service
- Amazon Route 53
- Amazon WorkSpaces
- AWS Certificate Manager
- AWS Data Transfer
- AWS Elemental MediaConvert
- AWS End User Messaging
- AWS Identity and Access Management Access Analyzer
- AWS Outposts
- AWS Shield
- Bright Data Enterprise non metered
- Cloud Navigator
- Compute Engine
- Contact Center Telecommunications (service sold by AMCS, LLC)
- Coralogix
- Datadog
- Datadog Pro
- Directions API
- Drata Security & Compliance Automation Platform
- Fastly for GCP Marketplace
- Geocoding API
- Geolocation API
- Grafana Cloud observability: Grafana, Prometheus metrics, logs, traces
- HYCU R-Cloud™ Platform
- Identity Platform
- JFrog DevOps Platform - Enterprise X
- JFrog Software Supply Chain Platform
- Looker Studio
- Maps API
- Maps Static API
- Office LTSC Professional Plus 2021
- Places API
- Plerion Cloud Security Platform (Contract)
- Snyk: Developer Security Platform
- Twilio Segment
- Vantage Cloud Cost Platform - Enterprise
- WIZ Cloud Infrastructure Security Platform