コストのアノマリー
DoiT アノマリー検知は、Google Cloud、Amazon Web Services、Microsoft Azure、Snowflake、Databricks、Datadog、および OpenAI におけるコストスパイクをエンドツーエンドで監視します。
この検知サービスは、時系列モデリング を活用してデータを監視し、クラウド環境での支出トレンドを分析します。DoiT 顧客全体の請求パターンを特定し、クラウド支出を予測し、精度を高めるため継続的に改善されています。確立された支出行動に一致しない請求レコードは、潜在的なアノマリーとして特定されます。DoiT コンソールは、調査や必要に応じた是正措置に役立つよう、寄与リソースの一覧 や AI 分析 などの詳細情報を提供します。
以下のセクションでは、DoiT アノマリー検知の仕組みを説明します。
ソースデータ
DoiT アノマリー検知は、2 種類のソースデータをサポートします。
-
請求データ: クラウドプロバイダーやサードパーティプラットフォームのコストと使用量データ。例:AWS CUR、Google Cloud Billing データエクスポート、Azure 請求エクスポートなど。
-
リアルタイム使用量データ: ほぼリアルタイムのコストアノマリー検知のために、DoiT は次のサービスのコストを推定する目的でリアルタイム使用量データを活用します。
-
Amazon Elastic Compute Cloud (EC2)、Amazon Relational Database Service (RDS): AWS CloudTrail から得られる使用量に基づく推定オンデマンドコスト。
-
Google Compute Engine (GCE): Google Cloud Audit Logs から得られる使用量に基づく推定オンデマンドコスト。
-
Google BigQuery: BigQuery APIs とメタデータビューから得られる使用量に基づく推定オンデマンドコスト。
-
ベースライン期間
アノマリー検知システムは、新規登録直後からデータの分析を開始します。ただし、正確な検知には十分な履歴データが必要です。機械学習モデルが請求データおよびリアルタイムデータに基づく使用パターンの信頼できるベースラインを確立できるよう、請求データは 14 日間、リアルタイム使用量データは 4 日間 をベースライン期間として設定します。
運用上アノマリー検知が重要な場合は、クラウド支出に大きな変更を加える前にベースライン期間が経過するまで待つことをおすすめします。ベースライン期間中は支出がアノマリーとして分類されることはありません。
集計レベル
アノマリー検知システムは、SKU レベル と サービスレベル の両方でコストおよび使用量データを監視・評価する時系列モデルを活用します。履歴パターンを分析し、現在の使用傾向と比較することで、重要なコストスパイクを検知するよう設計されています。アノマリーなコストスパイクが検知されると、アノマーリーアラート がトリガーされます。
設定データ(請求データ)
請求データについては、解決までの時間を短縮するため、アノマリー検知システムは主に SKU レベルで動作します。つまり、検知されるコストのアノマリーの多くは SKU レベルのアノマリーになります。
サービスレベルでの監視は、主に新規プロジェクトや新規 SKU によって引き起こされる初期スパイクに対処する補完的な役割を果たします。新しいプロジェクトが作成された場合、または新しい SKU でコストが発生し始めた場合、新しい時系列 が特定され、コストデータの収集を開始します。しかし、十分な履歴データポイント がないため、最初の数日間は新しい時系列で SKU レベルのアノマリー候補は生成されません。新しい時系列の「正常」な支出がまだ確立されていない間でも、新たに発生したコストがサービスレベルでアノマリーなスパイクを引き起こす可能性があります。
リアルタイム使用量データ
2025 年 5 月 21 日以降、時間単位の粒度を持つリアルタイム使用量データ向けのアノマリー検知システムは、高解像度サンプリングによるノイズを低減するため、サービスレベルのみで動作します。
評価スコープ
システムが評価するデータサンプルは、次のように分割されます。
- 請求アカウント単位
- プロジェクト/アカウント単位
- サービス単位
- SKU 単位
- アロケーション単位(該当する場合)
評価のスコープは集計レベルによって異なります。
- SKU レベル:SKU ごと、サービスごと、リージョンを跨いだプロジェクト/アカウントごと
- サービスレベル:サービスごと(プロジェクトおよび SKU を横断)
検知システムは、複数サービスの合算コストは評価しません。
判定基準
誤検知を軽減するため、アノマリー検知システムは、以下のすべての基準を満たした場合にのみ、SKU またはサービスの支出をアノマリーと分類します。
請求データ
-
1 日あたりの支出が最小閾値に達していること:
-
SKU レベルのアノマリー:US$50
-
サービスレベルのアノマリー:US$100
-
-
1 日あたりの支出が月次の季節性を上回っていること。
-
1 日あたりの支出が、システムの_正常範囲_(または_許容範囲_)の上限を上回っていること。
リアルタイム使用量データ
-
1 時間あたりの支出が US$10 の最小閾値に達していること。
-
1 時間あたりの支出が、システムの_正常範囲_(または_許容範囲_)の上限を上回っていること。
感度
アノマリー検知システムは、直前期間のデータで学習した時系列モデルを使用して想定支出を予測します。正常範囲は DoiT 固有の予測区間によって決定されます。これは、あるパーセンテージの可能な値が収まると見積もられる区間です。例えば、90% の予測区間は、モデルに 適合した過去の値に基づいて、新しいデータポイントが取り得る可能な値の 90% を含みます。正常範囲は、コストアノマリーのチャート上で陰影領域として示されます。
DoiT コンソールでは、アノマリー感度設定を調整して予測区間を変更し、それにより正常範囲を再定義できます。感度を高くすると範囲が狭まり、検知されるアノマリー数が増加します。感度を低くすると範囲が広がり、検知数が減少します。
検知レイテンシ
検知レイテンシはソースデータの種類によって異なります。
請求データ
多くの場合、集計コストがあらかじめ定義された閾値を超えると、12 時間以内に請求データのアノマリーが報告されます。
アノマリー検知エンジンは、定期的な間隔で使用量とコストデータを評価します。SKU レベルのアノマリーについては毎時、サービスレベルのアノマリーについては 6 時間ごとに評価が実行されます。
検知レイテンシは主に、クラウドプロバイダーが使用量およびコストデータを報告する間隔の違いに関連します。あわせて Data latency も参照してください。
リアルタイム使用量データ
アノマリー検知エンジンは、リアルタイム使用量データを 30 分ごとに評価します。リアルタイム使用量データで検知されたアノマリーは、使用から 1 時間以内に報告されます。
動的アップデート
進行中のアノマリーは Active と見なされます。検知システムは アクティブ なアノマリーを監視し、利用可能な最新データでシステムを継続的に更新します。
次のいずれかの条件を満たすと、アノマリーは Inactive になります。
-
コストが新しい平常の範囲に戻る。
-
アノマリーが最大アクティブ期間に達した場合(請求データに基づき 7 日間、リアルタイム使用データに基づき 3 日間)。
アノマリーが Active と Inactive になるタイミングの詳細は、コストのアノマリーのチャートを参照してください。