CSV の取り込み
Comma-separated values(CSV)は、データ交換で一般的に使用されるテキストファイル形式です。CSV ファイルをアップロードして、次のことができます。
-
新しいデータセットを作成する。
-
既存のデータセットに新しいレコードを追加する、またはレコードを上書きする。
取り込み方法
DataHub は CSV の取り込み方法を 2 つサポートします。
| Ingestion method | Supported file formats | Maximum file size |
|---|---|---|
| DataHub API | 非圧縮、または単一の CSV ファイルを ZIP・GZ 圧縮したもの | 30MB |
| DoiT console | 非圧縮 | 100MB |
次の点に注意してください。
-
DataHub API は 30MB を超えるファイルを受け付けません。CSV が 30MB を超える場合は、ZIP または GZ 形式に圧縮してください。
-
Data Hub API は、複数の CSV を含む ZIP・GZ アーカイブを受け付けません。
-
DoiT コンソールで CSV をアップロードする場合、フ ァイルが大きいほど処理に時間がかかります。
構文と規約
DataHub 用に CSV を準備するには、以下の構文と規約に従ってください。
-
値はカンマで区切ります。
-
各データレコードは改行で追加します。改行には Carriage Return and Line Feed(CRLF)を使用します。
-
1 行目はヘッダー行です。
ヘッダー行の構文: usage_date[,id],DIMENSION_KEY...,METRICS_TYPE...
-
ヘッダー行のフィールド名は正しい形式を使用する必要があります。DoiT DataHub はフィールド名を変更しません。
-
usage_date: データレコードのタイムスタンプ(RFC3339)。DataHub の Events schema における time プロパティに相当します。- CSV ファイルに、2 年より前のタイムスタンプ(
usage_date)を含むレコードを入れてはいけません。 - タイムスタンプは RFC 3339/ISO 8601 の UTC 形式のサブセットに厳密に従う必要があります:大文字の
Zを伴うYYYY-MM-DDTHH:MM:SSZ。例:2025-07-23T18:24:34Z。この制限により、タイムゾーンの曖昧さを排除し、検証を簡素化します。
- CSV ファイルに、2 年より前のタイムスタンプ(
-
id: レコードの一意識別子。DataHub Events schema の id プロパ ティに相当します。- 取り込み時に自動生成される UUIDv4 識別子を使用したい場合は、このプロパティを CSV に含めないでください。
- 既存のデータセット内のレコードを上書きするには、CSV に正しい
idを必ず含めてください。
-
DIMENSION_KEY: データセット内のディメンションのキー。少なくとも 1 つのディメンションキーが必要です。- fixed ディメンションについては、Allowed keys for fixed dimensions を参照してください。
- fixed ディメンションは
fixedを接頭辞として付ける必要があります。例:fixed.billing_account_id、fixed.sku_description。 - fixed ディメンションは大文字・小文字を区別しません。
- fixed ディメンションの主なユースケースは、ビジネスおよびクラウドの請求データセットを結合して単位経済性分析を行うことです。
- fixed ディメンションは
- label ディメンションは
label.CUSTOM_DIMENSION_KEYの形式を使用します。例:label.foo。label ディメンションは大文字・小文字を区別します。 - project_label ディメンションは
project_label.DIMENSION_KEYの形式を使用します。例:project_label.app。project_label ディメンションは大文字・小文字を区別します。 - system_label ディメンションは
system_label.DIMENSION_KEYの形式を使用します。例:system_label.app。system_label ディメンションは大文字・小文字を区別します。
- fixed ディメンションについては、Allowed keys for fixed dimensions を参照してください。
-
METRICS_TYPE: データセット内のメトリクスの種類。少なくとも 1 つのメトリックタイプが必要です。- 形式は
metric.METRICS_TYPEを使用します。例:metric.cost、metric.usage、metric.num_cameras。 - 基本メトリクス(
metric.cost、metric.usage、metric.savings)は大文字・小文字を区別しません。その他のメトリックタイプは大文字・小文字を区別します。
- 形式は
-
ヘッダー行のフィールドは任意の順序で並べ替え可能です。取り込んだ CSV をプレビューする際も順序は保持されます。
個人を特定できる情報(PII)をマスクするなど、DoiT に送信する前にデータを必ずサニタイズしてください。
CSV の例
以下は簡単な CSV の例です。
- サードパーティプロバイダーの CSV
- DataHub にアップロード可能な CSV
Month,Territory,Cost
2024-03-01,AMER,$70000
2024-04-01,AMER,$70000
2024-05-01,AMER,$70000
2024-03-01,EMEA,$7500
2024-04-01,EMEA,$7500
2024-05-01,EMEA,$7500
2024-03-01,APAC,$3700
2024-04-01,APAC,$3700
2024-05-01,APAC,$3700
usage_date,label.territory,metric.cost
2024-03-01T00:00:00Z,AMER,70000
2024-04-01T00:00:00Z,AMER,70000
2024-05-01T00:00:00Z,AMER,70000
2024-03-01T00:00:00Z,EMEA,7500
2024-04-01T00:00:00Z,EMEA,7500
2024-05-01T00:00:00Z,EMEA,7500
2024-03-01T00:00:00Z,APAC,3700
2024-04-01T00:00:00Z,APAC,3700
2024-05-01T00:00:00Z,APAC,3700
列がさらに多いサンプル CSV をダウンロードすることもできます。