メインコンテンツまでスキップ

CSV 取り込み

Comma-separated values(CSV)は、データ交換で一般的に使用されるテキストファイル形式です。CSV ファイルをアップロードして次の操作ができます。

  • 新しいデータセットを作成する

  • 既存のデータセットに新しいレコードを追加する、またはレコードを上書きする

取り込み方法

DataHub は CSV に対して 2 つの取り込み方法をサポートします。

Ingestion methodSupported file formatsMaximum file size
DataHub API非圧縮、または単一の CSV ファイルを含む ZIP または GZ30MB
DoiT console非圧縮100MB

次の点に注意してください。

  • DataHub API は 30MB を超えるファイルを受け付けません。CSV が 30MB を超える場合は、ZIP または GZ に圧縮してください。
  • Data Hub API は複数の CSV を含む ZIP または GZ アーカイブを受け付けません。
  • DoiT コンソールで CSV をアップロードする場合、大きなファイルは処理に時間がかかります。

構文と規約

DataHub 用に CSV を準備するには、以下の構文と規約に従ってください。

  • 値はカンマで区切ってください。
  • 各データレコードは新しい行にし、改行には Carriage Return と Line Feed(CRLF)を使用してください。
  • 1 行目はヘッダー行です。

ヘッダー行の構文: usage_date[,id],DIMENSION_KEY...,METRICS_TYPE...

  • ヘッダー行のフィールド名は正しい形式を使用する必要があります。DoiT DataHub はフィールド名を変更しません。

  • usage_date: データレコードのタイムスタンプ(RFC3339)。DataHub の Events schema における time プロパティに対応します。

    • CSV ファイルには、2 年より前のタイムスタンプ(usage_date)を含むレコードを含めてはいけません。
    • タイムスタンプは RFC 3339/ISO 8601 の UTC 形式のサブセットに厳密に従ってください:YYYY-MM-DDTHH:MM:SSZ(大文字の Z)。例:2025-07-23T18:24:34Z。この制約によりタイムゾーンの曖昧さが排除され、検証が簡素化されます。
  • id: レコードの一意の識別子。DataHub Events schema の id プロパティに対応します。

    • 取り込み時に自動生成される UUIDv4 の識別子を使用する場合は、このプロパティを CSV に含めないでください。
    • 既存のデータセット内のレコードを上書きするには、CSV に正しい id を含めてください。
  • DIMENSION_KEY: データセット内のディメンションのキー。少なくとも 1 つのディメンションキーが必要です。

    • fixed ディメンションについては、Allowed keys for fixed dimensions を参照してください。
      • fixed ディメンションは fixed を接頭辞として付けてください。例:fixed.billing_account_idfixed.sku_description
      • fixed ディメンションは大文字・小文字を区別しません。
      • fixed ディメンションの主なユースケースは、ユニットエコノミクス分析のためにビジネスデータとクラウドの請求データセットを結合することです。
    • label ディメンションには label.CUSTOM_DIMENSION_KEY の形式を使用してください。例:label.foo。label ディメンションは大文字・小文字を区別します。
    • project_label ディメンションには project_label.DIMENSION_KEY の形式を使用してください。例:project_label.app。project_label ディメンションは大文字・小文字を区別します。
    • system_label ディメンションには system_label.DIMENSION_KEY の形式を使用してください。例:system_label.app。system_label ディメンションは大文字・小文字を区別します。
  • METRICS_TYPE: データセット内のメトリクスの種類。少なくとも 1 つのメトリクスタイプが必要です。

    • metric.METRICS_TYPE の形式を使用してください。例:metric.costmetric.usagemetric.savingsmetric.custom_metric
    • 基本メトリクス(metric.costmetric.usagemetric.savings)は大文字・小文字を区別しません。その他のメトリクスタイプは大文字・小文字を区別します。
  • ヘッダー行のフィールドは任意の順序で配置できます。取り込んだ CSV をプレビューする際、その順序は保持されます。

警告

DoiT に送信する前に、個人を特定できる情報(PII)をマスクするなど、データを必ずサニタイズしてください。

CSV の例

以下は簡単な CSV の例です。

Month,Territory,Cost
2024-03-01,AMER,$70000
2024-04-01,AMER,$70000
2024-05-01,AMER,$70000
2024-03-01,EMEA,$7500
2024-04-01,EMEA,$7500
2024-05-01,EMEA,$7500
2024-03-01,APAC,$3700
2024-04-01,APAC,$3700
2024-05-01,APAC,$3700

より多くの列を含むサンプル CSV をダウンロードすることもできます。

CSV をアップロード

必要な権限
  • DataHub Admin

以下では、DoiT コンソールを使用して CSV ファイルをアップロードする方法を説明します。DataHub API を使用した CSV のアップロードについては、DataHub API を参照してください。

CSV ファイルを正しく整形したら、新しいデータセットの作成時、またはデータセットの更新時にアップロードできます。

  1. Import data ダイアログで Upload CSV file を選択し、Continue を選択してください。

    Import data options

  2. Prepare file:CSV ファイルが 構文と規約 に準拠していることを確認してください。続行するには Next を選択してください。

  3. Upload CSV:アップロードする CSV ファイルを選択してください。このステップでは CSV の検証も行われます。

    Upload CSV step 2

  4. Preview:このステップでは、目的のディメンションとメトリクスでデータが取り込まれることを確認します。

    Upload CSV step 2

Confirm upload を選択すると、データの処理を開始します。データのアップロードが成功すると、DoiT コンソールでデータが利用可能になるまで最長で 15 分かかる場合があります。