メインコンテンツまでスキップ

CSV の取り込み

Comma-separated values(CSV)は、データ交換で一般的に使用されるテキストファイル形式です。CSV ファイルをアップロードして、次のことができます。

  • 新しいデータセットを作成する。

  • 既存のデータセットに新しいレコードを追加する、またはレコードを上書きする。

取り込み方法

DataHub は CSV の取り込み方法を 2 つサポートします。

Ingestion methodSupported file formatsMaximum file size
DataHub API非圧縮、または単一の CSV ファイルを ZIP・GZ 圧縮したもの30MB
DoiT console非圧縮100MB

次の点に注意してください。

  • DataHub API は 30MB を超えるファイルを受け付けません。CSV が 30MB を超える場合は、ZIP または GZ 形式に圧縮してください。

  • Data Hub API は、複数の CSV を含む ZIP・GZ アーカイブを受け付けません。

  • DoiT コンソールで CSV をアップロードする場合、ファイルが大きいほど処理に時間がかかります。

構文と規約

DataHub 用に CSV を準備するには、以下の構文と規約に従ってください。

  • 値はカンマで区切ります。

  • 各データレコードは改行で追加します。改行には Carriage Return and Line Feed(CRLF)を使用します。

  • 1 行目はヘッダー行です。

ヘッダー行の構文: usage_date[,id],DIMENSION_KEY...,METRICS_TYPE...

  • ヘッダー行のフィールド名は正しい形式を使用する必要があります。DoiT DataHub はフィールド名を変更しません。

  • usage_date: データレコードのタイムスタンプ(RFC3339)。DataHub の Events schema における time プロパティに相当します。

    • CSV ファイルに、2 年より前のタイムスタンプ(usage_date)を含むレコードを入れてはいけません。
    • タイムスタンプは RFC 3339/ISO 8601 の UTC 形式のサブセットに厳密に従う必要があります:大文字の Z を伴う YYYY-MM-DDTHH:MM:SSZ。例:2025-07-23T18:24:34Z。この制限により、タイムゾーンの曖昧さを排除し、検証を簡素化します。
  • id: レコードの一意識別子。DataHub Events schema の id プロパティに相当します。

    • 取り込み時に自動生成される UUIDv4 識別子を使用したい場合は、このプロパティを CSV に含めないでください。
    • 既存のデータセット内のレコードを上書きするには、CSV に正しい id を必ず含めてください。
  • DIMENSION_KEY: データセット内のディメンションのキー。少なくとも 1 つのディメンションキーが必要です。

    • fixed ディメンションについては、Allowed keys for fixed dimensions を参照してください。
      • fixed ディメンションは fixed を接頭辞として付ける必要があります。例:fixed.billing_account_idfixed.sku_description
      • fixed ディメンションは大文字・小文字を区別しません。
      • fixed ディメンションの主なユースケースは、ビジネスおよびクラウドの請求データセットを結合して単位経済性分析を行うことです。
    • label ディメンションは label.CUSTOM_DIMENSION_KEY の形式を使用します。例:label.foo。label ディメンションは大文字・小文字を区別します。
    • project_label ディメンションは project_label.DIMENSION_KEY の形式を使用します。例:project_label.app。project_label ディメンションは大文字・小文字を区別します。
    • system_label ディメンションは system_label.DIMENSION_KEY の形式を使用します。例:system_label.app。system_label ディメンションは大文字・小文字を区別します。
  • METRICS_TYPE: データセット内のメトリクスの種類。少なくとも 1 つのメトリックタイプが必要です。

    • 形式は metric.METRICS_TYPE を使用します。例:metric.costmetric.usagemetric.num_cameras
    • 基本メトリクス(metric.costmetric.usagemetric.savings)は大文字・小文字を区別しません。その他のメトリックタイプは大文字・小文字を区別します。
  • ヘッダー行のフィールドは任意の順序で並べ替え可能です。取り込んだ CSV をプレビューする際も順序は保持されます。

警告

個人を特定できる情報(PII)をマスクするなど、DoiT に送信する前にデータを必ずサニタイズしてください。

CSV の例

以下は簡単な CSV の例です。

Month,Territory,Cost
2024-03-01,AMER,$70000
2024-04-01,AMER,$70000
2024-05-01,AMER,$70000
2024-03-01,EMEA,$7500
2024-04-01,EMEA,$7500
2024-05-01,EMEA,$7500
2024-03-01,APAC,$3700
2024-04-01,APAC,$3700
2024-05-01,APAC,$3700

列がさらに多いサンプル CSV をダウンロードすることもできます。

CSV のアップロード

必要な権限
  • DataHub Admin

以下では、DoiT コンソールを使用して CSV ファイルをアップロードする方法を説明します。DataHub API を使用した CSV のアップロードについては、DataHub API を参照してください。

CSV ファイルを正しく整形したら、新しいデータセットの作成時、またはデータセットの更新時にアップロードできます。

  1. Import data ダイアログで Upload CSV file を選択し、Continue を選択します。

    Import data options

  2. Prepare file:CSV ファイルが構文と規約に準拠していることを確認します。続行するには Next を選択します。

  3. Upload CSV:アップロードする CSV ファイルを選択します。このステップでは CSV の検証も行われます。

    Upload CSV step 2

  4. Preview:このステップでは、目的のディメンションとメトリクスでデータが取り込まれることを確認します。

    Upload CSV step 2

Confirm upload を選択すると、データの処理を開始します。データのアップロードが成功した後、DoiT コンソールでデータを利用可能になるまで最大 15 分かかることがあります。