CSV 取り込み
Comma-separated values(CSV)は、データ交換で一般的に使用されるテキストファイル形式です。CSV ファイルをアップロードして次の操作ができます。
-
新しいデータセットを作成する
-
既存のデータセットに新しいレコードを追加する、またはレコードを上書きする
取り込み方法
DataHub は CSV に対して 2 つの取り込み方法をサポートします。
| Ingestion method | Supported file formats | Maximum file size |
|---|---|---|
| DataHub API | 非圧縮、または単一の CSV ファイルを含む ZIP または GZ | 30MB |
| DoiT console | 非圧縮 | 100MB |
次の点に注意してください。
- DataHub API は 30MB を超えるファイルを受け付けません。CSV が 30MB を超える場合は、ZIP または GZ に圧縮してください。
- Data Hub API は複数の CSV を含む ZIP または GZ アーカイブを受け付けません。
- DoiT コンソールで CSV をアップロードする場合、大きなファイルは処理に時間がかかります。
構文と規約
DataHub 用に CSV を準備するには、以下の構文と規約に従ってください。
- 値はカンマで区切ってください。
- 各データレコードは新しい行にし、改行には Carriage Return と Line Feed(CRLF)を使用してください。
- 1 行目はヘッダー行です。
ヘッダー行の構文: usage_date[,id],DIMENSION_KEY...,METRICS_TYPE...
-
ヘッダー行のフィールド名は正しい形式を使用する必要があります。DoiT DataHub はフィールド名を変更しません。
-
usage_date: データレコードのタイムスタンプ(RFC3339)。DataHub の Events schema における time プロパティに対応します。- CSV ファイルには、2 年より前のタイムスタンプ(
usage_date)を含むレコードを含めてはいけません。 - タイムスタンプは RFC 3339/ISO 8601 の UTC 形式のサブセットに厳密に従ってください:
YYYY-MM-DDTHH:MM:SSZ(大文字のZ)。例:2025-07-23T18:24:34Z。この制約によりタイムゾーンの曖昧さが排除され、検証が簡素化されます。
- CSV ファイルには、2 年より前のタイムスタンプ(
-
id: レコードの一意の識別子。DataHub Events schema の id プロパティに対応します。- 取り込み時に自動生成される UUIDv4 の識別子を使用する場合は、このプロパティを CSV に含めないでください。
- 既存のデータセット内のレコードを上書きするには、CSV に正しい
idを含めてください。
-
DIMENSION_KEY: データセット内のディメンションのキー。少なくとも 1 つのディメンションキーが必要です。- fixed ディメンションについては、Allowed keys for fixed dimensions を参照してください。
- fixed ディメンションは
fixedを接頭辞として付けてください。例:fixed.billing_account_id、fixed.sku_description - fixed ディメンションは大文字・小文字を区別しません。
- fixed ディメンションの主なユースケースは、ユニットエコノミクス分析のためにビジネスデータとクラウドの請求データセットを結合することです。
- fixed ディメンションは
- label ディメンションには
label.CUSTOM_DIMENSION_KEYの形式を使用してください。例:label.foo。label ディメンションは大文字・小文字を区別します。 - project_label ディメンションには
project_label.DIMENSION_KEYの形式を使用してください。例:project_label.app。project_label ディメンションは大文字・小文字を区別します。 - system_label ディメンションには
system_label.DIMENSION_KEYの形式を使用してください。例:system_label.app。system_label ディメンションは大文字・小文字を区別します。
- fixed ディメンションについては、Allowed keys for fixed dimensions を参照してください。
-
METRICS_TYPE: データセット内のメトリクスの種類。少なくとも 1 つのメトリクスタイプが必要です。metric.METRICS_TYPEの形式を使用してください。例:metric.cost、metric.usage、metric.savings、metric.custom_metric- 基本メトリクス(
metric.cost、metric.usage、metric.savings)は大文字・小文字を区別しません。その他のメトリクスタイプは大文字・小文字を区別します。
-
ヘッダー行のフィールドは任意の順序で配置できます。取り込んだ CSV をプレビューする際、その順序は保持されます。
DoiT に送信する前に、個人を特定できる情報(PII)をマスクするなど、データを必ずサニタイズしてください。
CSV の例
以下は簡単な CSV の例です。
- サードパーティプロ バイダからの CSV
- DataHub へのアップロード準備ができた CSV
Month,Territory,Cost
2024-03-01,AMER,$70000
2024-04-01,AMER,$70000
2024-05-01,AMER,$70000
2024-03-01,EMEA,$7500
2024-04-01,EMEA,$7500
2024-05-01,EMEA,$7500
2024-03-01,APAC,$3700
2024-04-01,APAC,$3700
2024-05-01,APAC,$3700
usage_date,label.territory,metric.cost
2024-03-01T00:00:00Z,AMER,70000
2024-04-01T00:00:00Z,AMER,70000
2024-05-01T00:00:00Z,AMER,70000
2024-03-01T00:00:00Z,EMEA,7500
2024-04-01T00:00:00Z,EMEA,7500
2024-05-01T00:00:00Z,EMEA,7500
2024-03-01T00:00:00Z,APAC,3700
2024-04-01T00:00:00Z,APAC,3700
2024-05-01T00:00:00Z,APAC,3700
より多くの列を含むサンプル CSV をダウンロードすることもできます。
CSV をアップロード
- DataHub Admin
以下では、DoiT コンソールを使用して CSV ファイルをアップロードする方法を説明します。DataHub API を使用した CSV のアップロードについては、DataHub API を参照してください。
CSV ファイルを正しく整形したら、新しいデータセットの作成時、またはデータセットの更新時にアップロードできます。
-
Import data ダイアログで Upload CSV file を選択し、Continue を選択してください。

-
Prepare file:CSV ファイルが 構文と規約 に準拠していることを確認してください。続行するには Next を選択してください。
-
Upload CSV:アップロードする CSV ファイルを選択してください。このステップでは CSV の検証も行われます。

-
Preview:このステップでは、目的のディメンションとメトリクスでデータが取り込まれることを確認します。

Confirm upload を選択すると、データの処理を開始します。データのアップロードが成功すると、DoiT コンソールでデータが利用可能になるまで最長で 15 分かかる場合があります。