Databricks データを操作する

Databricks のデータを DoiT プラットフォームにインポートしたら、Databricks のコストと使用状況の分析と監視を開始できます。Databricks データは時間単位で追跡・レポートされます。

Databricks のシステムテーブル

DoiT コンソールは、次の Databricks システムテーブルと連携します。

System Table	Description
`system.billing.usage`	アカウント全体の請求対象の使用状況レコードを含みます。
`system.billing.list_prices`	SKU 価格の履歴ログ。SKU 価格に変更があるたびにレコードが追加されます。
`system.compute.node_timeline`	汎用およびジョブのコンピュートリソースの利用メトリクスを取得します。
`system.access.workspaces_latest`	アカウント内のすべてのワークスペースのメタデータを含みます。
`system.compute.clusters`	任意のクラスタについて、時間経過に伴うコンピュート設定の完全な履歴を含みます。
`system.compute.warehouses`	任意の SQL ウェアハウスについて、時間経過に伴う設定の完全な履歴を含みます。

必要な権限は、DoiT コネクタ用にサービスプリンシパルを作成すると付与されます。

Cloud Analytics における Databricks データ

ディメンションやメトリクスを通じて Databricks データを取得できます。DoiT と Databricks の用語の対応は以下を参照してください。

基本メトリクス

DoiT term	Databricks term	Description
`cost`	`cost`	コンピュートのワークロード（クラスタ、SQL ウェアハウスなど）で消費された Databricks Units（DBU）の合計コストと、基盤となるインフラに対して選択したクラウドプロバイダから発生する個別の料金。
`usage`	`usage`	ワークロードやユーザーによって使用された Databricks のコンピュートリソース（DBU）および特定機能の消費。

標準ディメンション

DoiT term	Description
Billing Account	特定の Databricks アカウントの一意の識別子。billing usage table schema の `account_id` に対応。
Project ID	Databricks ウェアハウスの一意の識別子。billing usage table schema の `workspace_id` に対応。
Project/Account name	Databricks ワークスペースの名前。workspaces system table schema の `workspace_name` に対応。
Usage start time	記録された使用が発生した時間または課金間隔の開始時刻。billing usage table schema の `usage_start_time` に対応。
Usage end time	記録された使用が発生した課金間隔の終了時刻。billing usage table schema の `usage_end_time` に対応。
Service ID/description	請求対象の使用の元となった特定の Databricks 製品または機能。billing usage table schema の `billing_origin_product` に対応。例：`SQL`、`ALL_PURPOSE`、`INTERACTIVE`。
SKU ID/Description	特定の使用レコードで消費され、コストが発生した SKU（在庫管理単位）。billing usage table schema の `usage_sku_name` に対応。例：`STANDARD_ALL_PURPOSE_COMPUTE`、`SQL_CLASSIC_COMPUTE`、`ENTERPRISE_ALL_PURPOSE_COMPUTE_(PHOTON)`。
Report cost	特定の使用単位に対する米ドル（または設定した通貨）での推定コスト。billing usage table schema の `usage_quantity` と、pricing table schema の `pricing` に対応。
Report usage	記録された時間間隔中に特定の Databricks 製品、機能、またはリソースが消費した単位数。`usage_quantity` は `usage_unit` に依存。例えば、`usage_unit` が `STORAGE_SPACE` の場合、`usage_quantity` は TB-hours や GB-hours になることがあります。billing usage table schema の `usage_quantity` に対応。
Usage unit	`usage_quantity` の測定単位。billing usage table schema の `usage_unit` に対応。例：`DBU`、`STORAGE_SPACE`、`NETWORK_BYTE`、`API_OPERATION`。
Cost type	使用レコードが元のエントリか、Databricks によって行われた修正に関連するものかを示します。billing usage table schema の `record_type` に対応。例：`ORIGINAL`、`RETRACTION`、`RESTATEMENT`。
Resource ID	コンピュート、ストレージ、またはデータを消費または管理する、Databricks 内のさまざまなオブジェクトやエンティティに割り当てられる一意の識別子。
Operation	プラットフォームで実行され、コンピュートリソースを消費し、DBU で課金される Databricks のアクションまたはタスク。
Row ID	テーブル内の各使用レコード（行）の一意の識別子。billing usage table schema の `record_id` に対応。

システムラベル

以下は、DoiT プラットフォームで使用できる Databricks のシステムラベルです。

databricks/account_id: 特定の Databricks アカウントの一意の識別子。
databricks/cloud: Databricks ウェアハウスが使用しているクラウドプロバイダ。例：AWS、AZURE、GCP。
databricks/cluster_name: Databricks クラスタ名。
databricks/usage_type: DBU を消費しているワークロードタイプまたは特定機能。例：STORAGE_SPACE。
databricks/warehouse_name: Databricks ウェアハウス名。

アイデンティティメタデータ

identity_metadata は、使用に関与したアイデンティティに関する詳細情報を提供します。

databricks/identity_metadata/run_as: 誰がワークロードを実行したかを記録します。これらの値は、Identity metadata reference に記載の特定のワークロードタイプでのみ設定されます。
databricks/identity_metadata/owned_by: これは SQL ウェアハウスの使用にのみ適用され、使用の原因となった SQL ウェアハウスの所有者であるユーザーまたはサービスプリンシパルを記録します。
databricks/identity_metadata/created_by: これは Databricks Apps に適用され、アプリを作成したユーザーのメールアドレスを記録します。

使用状況メタデータ

usage_metadata の値は、使用レコードに関与するワークスペースのオブジェクトやリソースに関連する文字列です。Usage metadata reference を参照してください。

databricks/usage_metadata/cluster_id: コンピュートクラスタインスタンスの一意の識別子。
databricks/usage_metadata/destination_region: データが転送されている、またはリソースがレプリケートされている AWS または Azure のリージョン。
databricks/usage_metadata/notebook_id: Databricks の使用に関連付けられたノートブックの一意の識別子。
databricks/usage_metadata/dlt_pipeline_id: 使用状況レコードに関連付けられた宣言型パイプラインの一意の識別子。
databricks/usage_metadata/dlt_update_id: 使用状況レコードに関連付けられたパイプライン更新の一意の識別子。
databricks/usage_metadata/dlt_maintenance_id: 使用状況レコードに関連付けられたパイプラインのメンテナンスタスクの一意の識別子。
databricks/usage_metadata/run_name: 使用状況レコードに関連付けられた Foundation Model Fine-tuning 実行のユーザー向け一意名。
databricks/usage_metadata/notebook_path: 使用状況に関連付けられたノートブックのワークスペースストレージパス。
databricks/usage_metadata/central_clean_room_id: 使用状況レコードに関連付けられた central clean room の一意の識別子。
databricks/usage_metadata/app_id: 使用状況レコードに関連付けられたアプリの一意の識別子。
databricks/usage_metadata/budget_policy_id: ワークロードに適用されたサーバーレスの予算ポリシーの一意の識別子。
databricks/usage_metadata/endpoint_id: API エンドポイントの一意の識別子。
databricks/usage_metadata/endpoint_name: Model Serving エンドポイントなど、エンドポイントに付けられた名称。
databricks/usage_metadata/job_id: Databricks ジョブに割り当てられた一意の識別子。
databricks/usage_metadata/job_name: Databricks ジョブに付けられた、ユーザーが指定する可読名。
databricks/usage_metadata/job_run_id: 特定の Databricks ジョブ実行に割り当てられた一意の識別子。
databricks/usage_metadata/metastore_id: Unity Catalog メタストアの一意の識別子。
databricks/usage_metadata/node_type: Databricks のクラスタノードで使用される仮想マシン（VM）インスタンスの特定のタイプ。
databricks/usage_metadata/source_region: データの発生元、またはリソースの初期配置先となる AWS または Azure のリージョン。
databricks/usage_metadata/warehouse_id: Databricks SQL ウェアハウスの一意の識別子。

Product features reference

product_features は、使用された特定の製品機能に関する情報を含むオブジェクトで、以下のキーと値のペアを含みます。

databricks/product_features/jobs_tier: 値は LIGHT、CLASSIC、または null。
databricks/product_features/sql_tier: 値は LIGHT、CLASSIC、または null。
databricks/product_features/dlt_tier: 値は CORE、PRO、ADVANCED、または null。
databricks/product_features/is_serverless: 値は true または false、もしくは null。
databricks/product_features/is_photon: 値は true または false、もしくは null。
databricks/product_features/serving_type: 値は MODEL、GPU_MODEL、FOUNDATION_MODEL、FEATURE、または null。
databricks/product_features/offering_type: 値は BATCH_INFERENCE または null。
databricks/product_features/networking_connectivity_type: 値は PUBLIC_IP および PRIVATE_IP。

Extended metrics

DoiT は Databricks の Cluster CPU utilization および Cluster memory utilization メトリクスをサポートします。これらは Extended metrics に表示されます。

Databricks extended metrics

これらのメトリクスは、DBU コストを実行可能なインサイトに変換するために必要な運用上のコンテキストを提供します。例えば、クラスタで CPU またはメモリ使用率が一貫して高い場合はボトルネックを示し、ワークロードに対してクラスタのプロビジョニングが不足している可能性があります。ノードを追加するか、コードを最適化する必要があるかもしれません。

Cluster CPU utilization

Cluster CPU utilization は、クラスタの CPU がタスクを積極的に処理している時間の割合を測定します。ユーザーモード（お客様のワークロード）、システムモード（カーネル処理）、アイドル時間に分解されます。

Cluster memory utilization

Cluster memory utilization は、クラスタのノードで使用されている RAM の割合を測定します。Spark executors に割り当てられたメモリ、キャッシュされたデータ、システムプロセスに割り当てられたメモリを追跡し、使用中、空きバッファ、キャッシュ済みメモリを区別します。

Databricks のシステムテーブル​

Cloud Analytics における Databricks データ​

基本メトリクス​

標準ディメンション​

システムラベル​

アイデンティティメタデータ​

使用状況メタデータ​

Product features reference​

Extended metrics​

Cluster CPU utilization​

Cluster memory utilization​