コストのアノマリー
DoiT Anomaly Detection は、Google Cloud・Amazon Web Services・Microsoft Azure・Snowflake・Databricks・Datadog・OpenAI におけるコストスパイクを、エンドツーエンドでモニタリングします。
この 検知サービスは、時系列モデリング を活用してデータを監視し、クラウド環境における支出トレンドを分析します。DoiT の顧客全体にわたる請求パターンを特定し、クラウド支出を予測し、より正確な結果を提供できるよう継続的に改善されています。確立された支出パターンと一致しない請求レコードは、潜在的なアノマリーとして識別されます。DoiT コンソールでは、寄与しているリソースの一覧 や AI 分析 など、調査や必要に応じた是正措置の実施に役立つ詳細情報を提供します。
以下のセクションでは、DoiT Anomaly Detection の仕組みについて説明します。
ソースデータ
DoiT Anomaly Detection は、次の 2 種類のソースデータをサポートします。
-
請求データ: クラウドプロバイダーおよびサードパーティプラットフォームによるコストと使用状況のデータ。例: AWS CUR、Google Cloud Billing のデータエクスポート、Azure の billing export など。
-
リアルタイム使用状況データ: ほぼリアルタイムのコストアノマリー検知のために、DoiT はリアルタイム使用状況データを活用して、以下のサービスのコストを推定します。
-
Amazon Elastic Compute Cloud (EC2)、Amazon Relational Database Service (RDS): AWS CloudTrail から得られる使用状況に基づいて推定されたオンデマンドコスト。
-
Google Compute Engine (GCE): Google Cloud Audit Logs から得られる使用状況に基づいて推定されたオンデマンドコスト。
-
Google BigQuery: BigQuery APIs とメタデータビューから得られる使用状況に基づいて推定されたオンデマンドコスト。
-
ベースライン期間
アノマリー検知システムは、新規登録後すぐにデータの分析を開始します。ただし、高い精度で検知するためには、十分な履歴データが必要です。請求ベースの使用パターンおよびリアルタイムデータに基づく使用パターンに対して信頼できるベースラインを機械学習モデルが構築できるよう、請求データについては 14 日間、リアルタイム使用状況データについては 4 日間 をベースライン期間として設定しています。
アノマリー検知が業務上クリティカルな場合は、クラウド支出に大きな変更を加える前に、このベースライン期間が経過するまで待つことをおすすめします。ベースライン期間中は、いかなる支出もアノマリーとして分類されません。
集約レベル
アノマリー検知システムは、SKU レベル と サービスレベル の両方でコストと使用状況データを監視・評価するために、時系列モデルを活用します。過去のパターンを分析し、それらを現在の使用状況トレンドと比較することで、顕著なコストスパイクを検知するように設計されています。アノマラスなコストスパイクが検出されると、アノマリーアラート がトリガーされます。
請求データ
請求データについては、解決までの時間を短縮するために、アノマリー検知システムは主に SKU レベルで動作します。そのため、検出されるコストアノマリーの多くは SKU レベルのアノマリーとなります。
サービスレベルでのモニタリングは、主に新規プロジェクトや新規 SKU によって引き起こされる初期スパイクに対処する補完的な役割を果たします。新しいプロジェクトが作成された場合や、新しい SKU でコストの発生が始まった場合、新しい 時系列 が識別され、コストデータの収集が開始されます。しかし、新しい時系列は、十分な履歴データポイント がないため、最初の数日間は SKU レベルのアノマリー候補を生成しません。「通常」の支出水準がまだ確立されていない一方で、新たに発生したコストによって、すでにサービスレベルでアノマラスなスパイクが生じている可能性があります。
リアルタイム使用状況データ
2025 年 5 月 21 日以降、時間単位の粒度を持つリアルタイム使用状況データ向けのアノマリー検知システムは、高解像度サンプリングによるノイズを軽減するため、サービスレベルのみで動作します。
評価スコープ
システムによって評価されるデータサンプルは、次のように分割されます。
- 請求アカウントごと
- プロジェクト/アカウントごと
- サービスごと
- SKU ごと
- アロケーションごと(該当する場合)
評価スコープは集約レベルによって異なります。
- SKU レベル: 地域をまたいで、SKU ごと・サービスごと・プロジェクト/アカウントごと
- サービスレベル: プロジェクトおよび SKU をまたいでサービスごと
検知システムは、複数サービスのコストを合算して評価することはありません。
判定基準
誤警報を軽減するため に、アノマリー検知システムは、次のすべての条件を満たした場合にのみ、SKU またはサービスの支出をアノマリーとして分類します。
請求データ
-
1 日あたりの支出が、最小閾値に達していること。
-
SKU レベルのアノマリー: US$50
-
サービスレベルのアノマリー: US$100
-
-
1 日あたりの支出が、月次の季節性 を超えていること。
-
1 日あたりの支出が、システムの「通常範囲」(または「許容範囲」)の上限を超えていること。
リアルタイム使用状況データ
-
1 時間あたりの支出が、US$10 の最小閾値に達していること。
-
1 時間あたりの支出が、システムの「通常範囲」(または「許容範囲」)の上限を超えていること。
感度
アノマリー検知システムは、直前の期間のデータでトレーニングされた時系列モデルを用いて、想定される支出を予測します。通常範囲は、DoiT 固有の予測区間 によって決定されます。これは、一定パーセンテージの可能な値が収まると見込まれる区間の推定値です。たとえば、90% の予測区間には、モデルで当てはめた過去の値に基づき、新しいデータポイントが取り得る可能な値の 90% が含まれます。通常範囲は、コストアノマリーチャート 上では網掛け領域として表示されます。
DoiT コンソールでは、アノマリー感度設定 を調整して予測区間を変更し、通常範囲を再定義できます。感度を高くすると範囲が狭くなり、検出されるアノマリーの数が増加します。感度を低くすると範囲が広がり、検出されるアノマリーの数が減少します。
検知遅延
検知遅延は、ソースデータのタイプによって異なります。
請求データ
ほとんどの場合、集計コストが所定の閾値を超えると、12 時間以内に請求データのアノマリーが報告されます。
アノマリー検知エンジンは、使用状況とコストデータを定期的に評価します。SKU レベルのアノマリーについては 1 時間ごとに、サービスレベルのアノマリーについては 6 時間ごとに評価が実行されます。
検知遅延は主に、クラウドプロバイダーが使用状況およびコストデータを報告する間隔の違いに関連しています。あわせて、データ遅延 も参照してください。
リアルタイム使用状況データ
アノマリー検知エンジンは、リアルタイム使用状況データを 30 分ごとに評価します。リアルタイム使用状況データによって検出されたアノマリーは、使用から 1 時間以内に報告されます。
動的な更新
進行中のアノマリーは Active と見なされます。検知システムは、最新の利用可能なデータでシステムを継続的に更新しながら、Active なアノマリーを監視し続けます。
次のいずれかの条件が満たされると、アノマリーは Inactive になります。
- コストが新しい通常範囲内に戻った場合。
- アノマリーが最大アクティブ期間に達した場合(請求データに基づく場合は 7 日間、リアルタイム使用状況データに基づく場合は 3 日間)。
アノマリーが Active および Inactive になるタイミングの詳細は、コストアノマリーチャート で確認できます。
コストアノマリーアラート
アノマリーが検出されると、システムは請求アカウント・サービス・プロジェクト ID を確認し、同じコンテキストに対して既に他のアラートが送信されていない場合にのみアラートがトリガーされるようにします。
これは、同じサービスについて、SKU レベルのアラートが送信されている場合にはサービスレベルのアラートは送信されず、その逆も同様であることを意味します。
CloudFlow triggers を使用して、コストアノマリーに対する対応を自動化できます。たとえば、アノマリーが検出されたとき、そのステータスまたはコストが変更されたとき、あるいはアノマリーが確認されたときなどです。フローを開始できるイベントの一覧については、Cost anomaly events を参照してください。
月初のスパイク
一部のサービスは月初にまとめて請求を行うため、月の残りの期間と比べてコストが不釣り合いにスパイクすることがあります。ただし、その金額が過去数か月と同水準であれば、アノマリーとは見なされません。
精度を高めるため、月初のコストを評価する際、アノマリー検知モデルは日次のコストモデリングに加えて、月次の比較も行います。(ほぼリアルタイムのアノマリー検知は、より短い期間でより詳細な評価を行うため、月次の季節性は考慮されません。)
以下は、評価対象となるサービスの一覧です。
月初にコストスパイクが発生するサービス
- Amazon API Gateway
- Amazon Cognito
- Amazon DynamoDB
- Amazon ElastiCache
- Amazon GuardDuty
- Amazon Managed Service for Prometheus
- Amazon OpenSearch Service
- Amazon Redshift
- Amazon Rekognition
- Amazon Relational Database Service
- Amazon Route 53
- Amazon WorkSpaces
- AWS Certificate Manager
- AWS Data Transfer
- AWS Elemental MediaConvert
- AWS End User Messaging
- AWS Identity and Access Management Access Analyzer
- AWS Outposts
- AWS Shield
- Bright Data Enterprise non metered
- Cloud Navigator
- Compute Engine
- Contact Center Telecommunications (service sold by AMCS, LLC)
- Coralogix
- Datadog
- Datadog Pro
- Directions API
- Drata Security & Compliance Automation Platform
- Fastly for GCP Marketplace
- Geocoding API
- Geolocation API
- Grafana Cloud observability: Grafana, Prometheus metrics, logs, traces
- HYCU R-Cloud™ Platform
- Identity Platform
- JFrog DevOps Platform - Enterprise X
- JFrog Software Supply Chain Platform
- Looker Studio
- Maps API
- Office LTSC Professional Plus 2021
- Places API
- Plerion Cloud Security Platform (Contract)
- Snyk: Developer Security Platform
- Twilio Segment
- Vantage Cloud Cost Platform - Enterprise
- WIZ Cloud Infrastructure Security Platform