メインコンテンツへスキップ

コストのアノマリー

DoiT Anomaly Detection は、Google Cloud・Amazon Web Services・Microsoft Azure・SnowflakeDatabricksDatadogOpenAIClickHouse CloudCloudflareCursorElastic CloudGitHubGrafana CloudVercel におけるコストスパイクをエンドツーエンドで監視します。

検知サービスは、時系列モデリング を活用してデータを監視し、クラウド環境における支出傾向を分析します。DoiT 顧客全体の請求パターンを特定し、クラウド支出を予測するとともに、より高精度な結果を提供できるよう継続的に改善されています。確立された支出行動と一致しない請求レコードは、潜在的なアノマリーとして識別されます。DoiT コンソールは、寄与リソースの一覧AI 分析 など、詳細な情報を提供し、必要に応じて調査や是正措置の実施を支援します。

以下のセクションでは、DoiT Anomaly Detection の仕組みについて説明します。

ソースデータ

DoiT Anomaly Detection は、次の 2 種類のソースデータをサポートします。

  • 請求データ: クラウドプロバイダおよびサードパーティプラットフォームによるコストと使用状況データ。例: AWS CUR、Google Cloud Billing データエクスポート、Azure billing export など。

  • リアルタイム使用状況データ: ほぼリアルタイムのコストアノマリー検知のために、DoiT はリアルタイム使用状況データを活用し、次のサービスのコストを推定します。

ベースライン期間

アノマリー検知システムは、新規登録後すぐにデータの分析を開始します。ただし、高精度な検知には十分な履歴データが必要です。そのため、機械学習モデルが請求データおよびリアルタイムデータに基づく使用パターンの信頼できるベースラインを構築できるよう、請求データについて 14 日間、リアルタイム使用状況データについて 4 日間 のベースライン期間を設定しています。

アノマリー検知が業務上クリティカルな場合は、クラウド支出に大きな変更を加える前にベースライン期間が終了するまで待つことを推奨します。ベースライン期間中は、いかなる支出もアノマリーとして分類されません。

集約レベル

アノマリー検知システムは、SKU レベル および サービスレベル の両方でコストと使用状況データを監視・評価するために時系列モデルを活用します。履歴パターンを分析し、現在の使用傾向と比較することで、重大なコストスパイクを検知するよう設計されています。アノマリーなコストスパイクが検出されると、アノマリーアラート がトリガーされます。

請求データ

請求データについては、解決までの時間を短縮するために、アノマリー検知システムは主に SKU レベルで動作します。つまり、検出されるコストのアノマリーの多くは SKU レベルのアノマリーになります。

サービスレベルでの監視は、主に新規プロジェクトや新規 SKU によって発生する初期スパイクに対処するための補完的な役割を果たします。新しいプロジェクトが作成されるか、新しい SKU でコストの発生が始まると、新しい 時系列 が識別され、コストデータの収集が開始されます。しかし、この新しい時系列は、十分な履歴データポイント がないため、最初の数日間は SKU レベルのアノマリー候補を生成しません。「通常」の支出水準が新しい時系列でまだ確立されていない間でも、新たに発生したコストがサービスレベルでアノマリースパイクを引き起こす可能性があります。

リアルタイム使用状況データ

2025 年 5 月 21 日以降、時間単位の粒度を持つリアルタイム使用状況データ向けのアノマリー検知システムは、高分解能サンプリングによるノイズを低減するため、サービスレベルのみで動作します。

評価スコープ

システムによって評価されるデータサンプルは、次のように分割されます。

  • 請求アカウントごと
  • プロジェクト・アカウントごと
  • サービスごと
  • SKU ごと
  • アロケーションごと(該当する場合)

評価のスコープは集約レベルによって異なります。

  • SKU レベル: リージョンをまたいだ SKU ごと・サービスごと・プロジェクト・アカウントごと
  • サービスレベル: プロジェクトおよび SKU をまたいだサービスごと

検知システムは、複数のサービスのコストを合算して評価することはありません。

判定基準

誤検知を軽減するため、アノマリー検知システムは、次のすべての条件を満たした場合にのみ、SKU またはサービスの支出をアノマリーとして分類します。

請求データ

  1. 1 日あたりの支出が最小閾値に達していること:

    • SKU レベルのアノマリー: US$50

    • サービスレベルのアノマリー: US$100

  2. 1 日あたりの支出が、月次の季節性 を上回っていること。

  3. 1 日あたりの支出が、システムの「通常範囲」(または「許容範囲」)の上限を超えていること。

リアルタイム使用状況データ

  1. 1 時間あたりの支出が US$10 の最小閾値に達していること。

  2. 1 時間あたりの支出が、システムの「通常範囲」(または「許容範囲」)の上限を超えていること。

感度

アノマリー検知システムは、直前の期間のデータで学習した時系列モデルを使用して、予測される支出を算出します。通常範囲は DoiT 固有の予測区間 によって決定されます。予測区間とは、あるパーセンテージの値が収まると見込まれる区間の推定値です。例えば、90% 予測区間には、新しいデータポイントが取り得る可能な値のうち、モデルにフィットした過去の値に基づいて 90% が含まれます。通常範囲は、コストアノマリーチャート 上では網掛け領域として表示されます。

DoiT コンソールでは、アノマリー感度設定 を調整して予測区間を変更し、それによって通常範囲を再定義できます。感度を高くすると範囲が狭まり、検出されるアノマリー数が増加します。逆に感度を低くすると範囲が広がり、検出されるアノマリー数が減少します。

検知レイテンシ

検知レイテンシは、ソースデータの種類によって異なります。

請求データ

多くの場合、集計コストが事前定義された閾値を超えると、12 時間以内に請求データのアノマリーが報告されます。

アノマリー検知エンジンは、使用状況およびコストデータを定期的に評価します。SKU レベルのアノマリーについては 1 時間ごと、サービスレベルのアノマリーについては 6 時間ごとに評価が実行されます。

検知レイテンシは主に、クラウドプロバイダが使用状況およびコストデータを報告する間隔の違いに関連しています。データレイテンシ も参照してください。

リアルタイム使用状況データ

アノマリー検知エンジンは、リアルタイム使用状況データを 30 分ごとに評価します。リアルタイム使用状況データを通じて検出されたアノマリーは、使用発生から 1 時間以内に報告されます。

動的な更新

進行中のアノマリーは Active と見なされます。検知システムは Active なアノマリーを監視し続け、常に最新の利用可能なデータでシステムを更新します。

次のいずれかの条件を満たすと、アノマリーは Inactive になります。

  • コストが新しい通常範囲内に戻った場合。

  • アノマリーが最大アクティブ期間に達した場合: 請求データに基づく場合は 7 日間、リアルタイム使用状況データに基づく場合は 3 日間。

アノマリーが Active および Inactive になるタイミングの詳細は、コストアノマリーチャート を参照してください。

コストアノマリーアラート

アノマリーが検出されると、システムは請求アカウント・サービス・プロジェクト ID を確認し、同じコンテキストに対するアラートがすでに送信されていない場合にのみ、アラートがトリガーされるようにします。

つまり、同じサービスについて SKU レベルのアラートが送信されている場合は、サービスレベルのアラートは送信されません。その逆も同様です。

ヒント

CloudFlow triggers を使用してコストアノマリーへの対応を自動化できます。例えば、アノマリーが検出されたとき、そのステータスやコストが変化したとき、またはアノマリーが確認されたときなどにフローを開始できます。フローを開始できるイベントの一覧は、Cost anomaly events を参照してください。

月初のスパイク

一部のサービスでは月初にまとめて請求が行われるため、月の残りの期間と比べて不釣り合いなコストスパイクが発生します。ただし、その金額が過去数か月と同程度であれば、アノマリーとは見なされません。

精度を高めるために、月初のコストを評価する際、アノマリー検知モデルは日次コストのモデリングに加えて、月ごとの比較も行います。(ほぼリアルタイムのアノマリー検知では、より短い期間でより細かな評価を行うため、月次の季節性は考慮されません。)

以下は評価対象のサービス一覧です。

月初にコストスパイクが発生するサービス
  • Amazon API Gateway
  • Amazon Cognito
  • Amazon DynamoDB
  • Amazon ElastiCache
  • Amazon GuardDuty
  • Amazon Managed Service for Prometheus
  • Amazon OpenSearch Service
  • Amazon Redshift
  • Amazon Rekognition
  • Amazon Relational Database Service
  • Amazon Route 53
  • Amazon WorkSpaces
  • AWS Certificate Manager
  • AWS Data Transfer
  • AWS Elemental MediaConvert
  • AWS End User Messaging
  • AWS Identity and Access Management Access Analyzer
  • AWS Outposts
  • AWS Shield
  • Bright Data Enterprise non metered
  • Cloud Navigator
  • Compute Engine
  • Contact Center Telecommunications (service sold by AMCS, LLC)
  • Coralogix
  • Datadog
  • Datadog Pro
  • Directions API
  • Drata Security & Compliance Automation Platform
  • Fastly for GCP Marketplace
  • Geocoding API
  • Geolocation API
  • Grafana Cloud observability: Grafana, Prometheus metrics, logs, traces
  • HYCU R-Cloud™ Platform
  • Identity Platform
  • JFrog DevOps Platform - Enterprise X
  • JFrog Software Supply Chain Platform
  • Looker Studio
  • Maps API
  • Maps Static API
  • Office LTSC Professional Plus 2021
  • Places API
  • Plerion Cloud Security Platform (Contract)
  • Snyk: Developer Security Platform
  • Twilio Segment
  • Vantage Cloud Cost Platform - Enterprise
  • WIZ Cloud Infrastructure Security Platform

FAQ

なぜコストのスパイクがアノマリーとして報告されなかったのですか?

アノマリー検知システムは、SKU レベルとサービスレベルの 2 つのレベルでコストを評価します。複数サービスにまたがる複数の SKU を合算したコストは評価しません。

クラウドコストのスパイクがアノマリーとして検知されなかった場合、まずそのスパイクが複数サービスにまたがる SKU によって引き起こされたものかどうかを評価することが重要です。加えて、アノマリーとして判定されるためには、支出が特定の条件を満たしている必要があります。

アノマリー検知はコストアラートとどう違うのですか?

アノマリー検知は、以下の点でコストアラートと異なります。

  • スコープ: アノマリー検知は個々の SKU とサービスを監視しますが、コストアラートのスコープはより柔軟です。

  • 条件: アラートをトリガーする条件は、例えば「週次コストが 5% 増加」のような単一の閾値です。対照的に、アノマリーとして分類されるには、コストが複数の条件を満たす必要があります。

  • 客観性: アラートは客観的な閾値に反応しますが、アノマリー検知では、フィッティングされた時系列モデルによって確立された、想定される支出パターンも考慮します。

一般的に、アラートの方がアノマリー検知よりも「敏感」であり、トリガーされやすくなっています。

コストアノマリーアラートとそのレポートはどう違うのですか?

データ値

コストアノマリーアラートに含まれるチャートは、検知時点の請求データのスナップショットを提供します。

対応するレポート(Open in Reports ボタンからアクセス)では、最新のデータが反映されており、直近のタイムステップでは値がわずかに異なる場合があります。

データの利用可能性

アノマリー検知システムは、アラートを迅速に送信するために、利用可能な最新の請求データを使用します。

レポートでは、より詳細なテーブルを使用するため追加の処理が必要となり、その結果、データの利用可能性に遅延が生じます。そのため、アラートをトリガーした請求データが、アラート送信時点では一時的にレポート上で利用できない場合があります。

▶️ インタラクティブデモ

ハンズオン形式のウォークスルーを体験できるインタラクティブデモをお試しください。

デモが正しく表示されない場合は、ブラウザウィンドウを拡大するか、新しいタブでデモを開いてお試しください。

参照