このページでは、Machine Learning 用 Databricks ランタイムについて説明し、それを使用するクラシック コンピューティング リソースを作成する方法に関するガイダンスを提供します。
Databricks Runtime は機械学習用のものですか
Databricks Runtime for Machine Learning (Databricks Runtime ML) は、最も一般的な ML および DL ライブラリを含む、事前構築された機械学習とディープ ラーニング インフラストラクチャを使用してコンピューティング リソースの作成を自動化します。
Databricks Runtime ML に含まれているライブラリ
Databricks Runtime ML には、さまざまな一般的な ML ライブラリが含まれています。 ライブラリは各リリースで更新され、新しい機能と修正プログラムが追加されました。
Databricks は、サポートされているライブラリのサブセットを最上位層ライブラリに指定しました。 これらのライブラリでは、Databricks の更新頻度が高速化し、ランタイム リリースごとに最新のパッケージ リリースに更新されます (依存関係の競合がない場合)。 Databricks では、最上位層ライブラリに対して高度なサポート、テスト、埋め込みの最適化も行われます。 最上位レベルのライブラリは、メジャー リリースでのみ追加または削除されます。
- 最上位層と提供されているその他のライブラリの完全な一覧については、Databricks Runtime ML のリリース ノートを参照してください。
- ライブラリが更新される頻度と、ライブラリが非推奨となるタイミングについては、 Databricks ランタイム ML メンテナンス ポリシーを参照してください。
追加のライブラリをインストールして、ノートブックまたはコンピューティング リソースのカスタム環境を作成できます。
- コンピューティング リソースで実行されているすべてのノートブックでライブラリを使用できるようにするには、 コンピューティング スコープ ライブラリを作成します。 init スクリプトを使用して、コンピューティングの作成時にライブラリをインストールすることもできます。
- 特定のノートブック セッションでのみ使用できるライブラリをインストールするには、ノートブック スコープの Python ライブラリを使用します。
Databricks Runtime for ML を使用してコンピューティング リソースを作成する
DATAbricks Runtime for ML を使用するコンピューティング リソースを作成するには、コンピューティング作成 UI の [機械学習 ] チェック ボックスをオンにします。 これにより、アカウントを 専用 ユーザーとして使用して、アクセス モードが自動的に Dedicated に設定されます。 コンピューティング リソースは、コンピューティング作成 UI の [詳細設定 ] セクションで別のユーザーまたはグループに手動で割り当てることができます。
GPU ベースのコンピューティングの場合は、[ワーカーの種類] ドロップダウン メニューで GPU 対応インスタンス の種類 を選択します。 サポートされている GPU の種類の完全な一覧については、「 サポートされているインスタンスの種類」を参照してください。
Photon と Databricks Runtime ML
Databricks Runtime 15.2 ML 以上を実行するコンピューティング リソースを作成するときに、 Photon を有効にすることを選択できます。 Photon では、Spark SQL、Spark DataFrames、特徴エンジニアリング、GraphFrames、xgboost4j を使用してアプリケーションのパフォーマンスを向上させます。 Spark RDD、Pandas UDF、JVM 以外の言語 (Python など) を使用するアプリケーションのパフォーマンス向上は想定されていません。 したがって、XGBoost、PyTorch、TensorFlow などの Python パッケージでは、Photon の改善は確認されないでしょう。
Spark RDD API と Spark MLlib には、Photon との限定的な互換性があります。 Spark RDD または Spark MLlib を使用して大規模なデータセットを処理すると、Spark メモリの問題が発生する場合があります。 「Spark のメモリの問題」を参照してください。
Databricks Runtime ML のコンピューティング アクセス モード
Databricks Runtime ML を実行しているコンピューティング リソース上の Unity カタログのデータにアクセスするには、アクセス モードを Dedicated に設定する必要があります。 [ 機械学習 ] チェック ボックスをオンにすると、コンピューティング作成 UI でアクセス モードが自動的に設定されます。
コンピューティング リソースに 専用 アクセス モードがある場合、リソースは 1 人のユーザーまたはグループに割り当てることができます。 グループに割り当てられると、ユーザーのアクセス許可はグループのアクセス許可のスコープを自動的に下げ、ユーザーはグループの他のメンバーとリソースを安全に共有できます。
専用アクセス モードを使用する場合、次の機能は Databricks Runtime 15.4 LTS ML 以降でのみ使用できます。
- きめ細かいアクセス制御。
- ストリーミング テーブルや具体化されたビューなど、Lakeflow Spark 宣言パイプラインを使用して作成されたテーブルのクエリ。