次の方法で共有


Machine Learning 用 Databricks Runtime 9.1 LTS

Databricks はこのイメージをリリースし、2021 年 9 月に長期サポート (LTS) を宣言しました。

Databricks Runtime 9.1 LTS for Machine Learning は、 Databricks Runtime 9.1 LTS に基づく機械学習とデータ サイエンスのためのto-go 環境を提供します。 Databricks Runtime ML には、TensorFlow、PyTorch、XGBoost など、多くの一般的な機械学習ライブラリが含まれています。 Databricks Runtime ML には、機械学習パイプラインを自動的にトレーニングするツールである AutoML が含まれています。 また、Databricks Runtime ML では、Horovod を使用した分散型ディープ ラーニング トレーニングもサポートされます。

LTS は、このバージョンが長期的にサポートされていることを意味します。 Databricks Runtime LTS バージョンのライフサイクルに関する記事を参照してください。

Databricks Runtime ML クラスターを作成する手順などの詳細については、「Databricks での AI と機械学習」を参照してください。

新機能と機能強化

AutoML

Databricks Runtime 9.1 LTS ML 以降では、次の機能強化を利用できます。

AutoML は、サンプリングによってより大きなデータセットをサポートします

AutoML では、メモリ制約を超える可能性のあるデータセットがサンプリングされるようになったため、メモリ不足エラーのリスクを減らして、より大きなデータセットで実行できるようになりました。 詳細については、「大規模なデータセットのサンプリング」を参照してください。

AutoML は、セマンティック タイプに基づいて列を前処理します

AutoML は、Spark または pandas データ型とは異なるセマンティック型を持つ特定の列を検出します。 その後、AutoML は、検出されたセマンティック タイプに基づいてデータの前処理ステップを変換して適用します。 具体的には、AutoML は次の変換を実行します。

  • 日付またはタイムスタンプのデータを表す文字列列と整数列は、タイムスタンプタイプに変換されます。
  • 数値データを表す文字列列は、数値型に変換されます。

AutoML で生成されたノートブックの機能強化

日付列とタイムスタンプ列の前処理ステップが databricks-automl-runtime パッケージに組み込まれるようになり、AutoML トレーニングによって生成されるノートブックが簡素化されました。 databricks-automl-runtime は Databricks Runtime 9.1 LTS ML 以降に含まれており、 PyPI でも使用できます。

機能ストア

Databricks Runtime 9.1 LTS ML 以降では、次の機能強化を利用できます。

  • TrainingSet を作成するときに、教師なし学習アプリケーションをサポートするように label=None を設定できるようになりました。
  • 1 つの FeatureLookupで複数のフィーチャを指定できるようになりました。
  • 特徴テーブルのカスタムパスを指定できるようになりました。 pathcreate_feature_table() パラメーターを使用します。 デフォルトはデータベースの場所です。
  • 新しくサポートされた PySpark データ型: ArrayType と ShortType。

Mlflow

次の機能強化は、Databricks Runtime 9.1 LTS ML に含まれている MLflow バージョン 1.20.2 以降で利用できます。

  • scikit-learn の自動ログ記録では、 sklearn.metrics.mean_squared_error などの scikit-learn 評価 API が呼び出されるたびに、トレーニング後のメトリクスが記録されるようになりました。
  • PySpark ML の自動ログ記録では、 Evaluator.evaluate() などのモデル評価 API が呼び出されるたびに、トレーニング後のメトリクスが記録されるようになりました。
  • mlflow.*.log_modelまたmlflow.*.save_modelpip_requirements引数とextra_pip_requirements引数を持つようになったため、ログに記録または保存するモデルの pip 要件を直接指定できます。
  • mlflow.*.log_model また、 mlflow.*.save_model 、現在のソフトウェア環境に基づいて、モデルのPIP要件を自動的に推論してログに記録または保存できるようになりました。
  • stdMetrics エントリは、PySpark CrossValidator の自動ログ記録中にトレーニング メトリックとして記録されるようになりました。
  • PyTorch Lightning の自動ログ記録で分散実行がサポートされるようになりました。

Databricks Autologging (パブリック プレビュー)

Databricks Autologging パブリック プレビューが新しいリージョンに拡張されました。 Databricks Autologging は、Azure Databricks 上の機械学習トレーニング セッションの自動実験追跡を提供する、ノーコード ソリューションです。 Databricks Autologging を使用すると、さまざまな一般的な機械学習ライブラリのモデルをトレーニングするときに、モデル パラメーター、メトリック、ファイル、および系列情報が自動的にキャプチャされます。 トレーニング セッションは、MLflow 追跡の実行として記録されます。 モデル ファイルも追跡されるため、それらを MLflow モデル レジストリに簡単にログし、MLflow Model Serving を使用してリアルタイム スコアリングのためにデプロイすることができます。

Databricks Autologging の詳細については、「Databricks Autologging」を参照してください。

Databricks Runtime ML Python 環境の主な変更点

アップグレードされた Python パッケージ

  • automl 1.1.1 => 1.2.1
  • feature_store 0.3.3 = > 0.3.4.1
  • 休日 0.10.5.2 => 0.11.2
  • keras 2.5.0 => 2.6.0
  • mlflow 1.19.0 = > 1.20.2
  • ペタストーム 0.11.1 = > 0.11.2
  • plotly 4.14.3 => 5.1.0
  • spark-tensorflow-distributor 0.1.0 => 1.0.0
  • sparkdl 2.2.0_db1 => 2.2.0_db3
  • テンソルボード 2.5.0 = > 2.6.0
  • テンソルフロー 2.5.0 = > 2.6.0

追加された Python パッケージ

  • databricks-automl-runtime 0.1.0

システム環境

Databricks Runtime 9.1 LTS ML のシステム環境は、Databricks Runtime 9.1 LTS と次のように異なります。

ライブラリ

次のセクションでは、Databricks Runtime 9.1 LTS ML に含まれるライブラリのうち、Databricks Runtime 9.1 LTS に含まれるライブラリと異なるライブラリの一覧を示します。

このセクションの内容は次のとおりです。

最上位レベルのライブラリ

Databricks Runtime 9.1 LTS ML には、次の最上位 ライブラリが含まれています。

Python ライブラリ

Databricks Runtime 9.1 LTS ML は、Python パッケージ管理に Virtualenv を使用し、多くの一般的な ML パッケージが含まれています。

次のセクションで指定されているパッケージに加えて、Databricks Runtime 9.1 LTS ML には次のパッケージも含まれています。

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db3
  • feature_store 0.3.4.1
  • automl 1.2.1

CPU クラスター上の Python ライブラリ

図書館 バージョン 図書館 バージョン 図書館 バージョン
absl-py 0.11.0 Antergos Linux 2015年10月 (ISO-Rolling) アプリケーションディレクトリ (appdirs) 1.4.4
argon2-cffi 20.1.0 アスター 0.8.1 astunparse 1.6.3
async-generator (非同期ジェネレーター) 1.10 属性 20.3.0 バックコール (再発信機能) 0.2.0
bcrypt 3.2.0 漂白剤 3.3.0 boto3 1.16.7
botocore 1.19.7 ボトルネック 1.3.2 キャッシュツールズ (cachetools) 4.2.2
サーティフィ 2020.12.5 cffi 1.14.5 チャーデット 4.0.0
カーン 5.0 クリック 7.1.2 クラウドピックル 1.6.0
cmdstanpy 0.9.68 configparser (コンフィグパーサー) 5.0.1 変換日 2.3.2
暗号 3.4.7 サイクリスト 0.10.0 Cython 0.29.23
databricks-automl-runtime(データブリックス・オートエムエル・ランタイム) 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
デコレータ 5.0.6 デフューズドXML (defusedxml) 0.7.1 ディル 0.3.2
ディスクキャッシュ 5.2.1 distlib 0.3.2 ディストリビューション情報 0.23ubuntu1
入口点 0.3 エフェム 4.0.0.2 facets-overview 1.0.0
ファイルロック 3.0.12 Flask 1.1.2 フラットバッファーズ 1.12
fsspec 0.9.0 未来 0.18.2 ガスト 0.4.0
ギットディービー 4.0.7 GitPython 3.1.12 google-auth(Google認証) 1.22.1
google-auth-oauthlib 0.4.2 グーグルパスタ 0.2.0 grpcio 1.39.0
ガニーコーン (gunicorn) 20.0.4 h5py 3.1.0 ヒジュリ変換器 2.2.1
休日 0.11.2 ホロヴォド 0.22.1 HTML最小化ツール(htmlmin) 0.1.12
idna 2.10 イメージハッシュ (ImageHash) 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils (IPython用のユーティリティ) 0.2.0
ipywidgets (インタラクティブウィジェット) 7.6.3 アイソデート 0.6.0 itsdangerous(イッツデンジャラス) 1.1.0
ジェダイ 0.17.2 ジンジャ2 2.11.3 jmespath 0.10.0
「joblib」 1.0.1 ジョブリブスパーク 0.3.0 JSONスキーマ 3.2.0
ジュピタークライアント 6.1.12 ジュピター・コア 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab ウィジェット 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
キウィソルバー 1.3.1 コアラ 1.8.1 韓国陰暦 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
アオザメ 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 マルチメソッド 1.4
nbclient(エヌビー・クライアント) 0.5.3 NBコンバート 6.0.7 nbフォーマット 5.1.3
nest-asyncio(ネスト・アサインキオ) 1.5.1 networkx 2.5 nltk 3.6.1
ノートブック 6.3.0 numba 0.54.0 NumPy (数値計算ライブラリ) 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 包装 20.9
パンダ 1.2.4 pandas-profiling(パンダスプロファイリング) 3.0.0 パンドックフィルターズ 1.4.3
paramiko 2.7.2 パルソ 0.7.0 パッツィ 0.5.1
petastorm 0.11.2 ペキスペクト 4.8.0 フィック 0.12.0
ピクルシェア 0.7.5 8.2.0 21.0.1
plotly 5.1.0 prometheus-クライアント 0.10.1 prompt-toolkit(プロンプトツールキット) 3.0.17
預言者 1.0.1 プロトバフ 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow (パイアロー) 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser(パイシーパーサー) 2.20
Pythonのデータバリデーションライブラリ「pydantic」 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc (Pythonのデータベース接続用ライブラリ) 4.0.30
パイパーシング (Pyparsing) 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil (Python用の日付処理ライブラリ) 2.8.1 パイソンエディター 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 RegEx 2021.4.4 リクエスト 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 RSA(アールエスエー) 4.7.2
s3transfer 0.3.7 scikit-learn(サイキット・ラーン) 0.24.1 scipy 1.6.2
seaborn(シーボーン) 0.11.1 Send2Trash(センド2トラッシュ) 1.5.0 setuptools(セットアップツール) 52.0.0
setuptools-git 1.2 シャープ 0.39.0 simplejson 3.17.2
6 1.15.0 スライサー 0.0.7 smmap 3.0.5
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 ssh-import-id 5.10
statsmodels(スタッツモデルズ) 0.12.2 一覧にする 0.8.7 「tangled」-up-in-ユニコード 0.1.0
粘り強さ 6.2.0 TensorBoard 2.6.0 テンソルボード・データサーバー 0.6.1
テンソルボードプラグイン-WIT 1.8.0 tensorflow (CPU版) 2.6.0 tensorflow-estimatorツール 2.6.0
termcolor 1.1.0 終了しました 0.9.4 テストパス (testpath) 0.4.4
Threadpoolctl 2.1.0 電灯 1.9.0 + cpu torchvision 라이브러리 0.10.0+cpu
竜巻 6.1 tqdm 4.59.0 traitlets(トレイトレット) 5.0.5
タイピング拡張 3.7.4.3 ujson 4.0.2 無人アップグレード 0.1
urllib3 1.25.11 virtualenv 20.4.1 ビジョン 0.7.1
wcwidth(文字の幅を測定するプログラム関数) 0.2.5 ウェブエンコーディングス 0.5.1 websocket-client (ウェブソケット・クライアント) 0.57.0
Werkzeug 1.0.1 ホイール 0.36.2 ウィジェットNBエクステンション 3.5.1
wrapt 1.12.1 xgboost 1.4.2 ジップ 3.4.1

GPU クラスター上の Python ライブラリ

図書館 バージョン 図書館 バージョン 図書館 バージョン
absl-py 0.11.0 Antergos Linux 2015年10月 (ISO-Rolling) アプリケーションディレクトリ (appdirs) 1.4.4
argon2-cffi 20.1.0 アスター 0.8.1 astunparse 1.6.3
async-generator (非同期ジェネレーター) 1.10 属性 20.3.0 バックコール (再発信機能) 0.2.0
bcrypt 3.2.0 漂白剤 3.3.0 boto3 1.16.7
botocore 1.19.7 ボトルネック 1.3.2 キャッシュツールズ (cachetools) 4.2.2
サーティフィ 2020.12.5 cffi 1.14.5 チャーデット 4.0.0
カーン 5.0 クリック 7.1.2 クラウドピックル 1.6.0
cmdstanpy 0.9.68 configparser (コンフィグパーサー) 5.0.1 変換日 2.3.2
暗号 3.4.7 サイクリスト 0.10.0 Cython 0.29.23
databricks-automl-runtime(データブリックス・オートエムエル・ランタイム) 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
デコレータ 5.0.6 デフューズドXML (defusedxml) 0.7.1 ディル 0.3.2
ディスクキャッシュ 5.2.1 distlib 0.3.2 ディストリビューション情報 0.23ubuntu1
入口点 0.3 エフェム 4.0.0.2 facets-overview 1.0.0
ファイルロック 3.0.12 Flask 1.1.2 フラットバッファーズ 1.12
fsspec 0.9.0 未来 0.18.2 ガスト 0.4.0
ギットディービー 4.0.7 GitPython 3.1.12 google-auth(Google認証) 1.22.1
google-auth-oauthlib 0.4.2 グーグルパスタ 0.2.0 grpcio 1.39.0
ガニーコーン (gunicorn) 20.0.4 h5py 3.1.0 ヒジュリ変換器 2.2.1
休日 0.11.2 ホロヴォド 0.22.1 HTML最小化ツール(htmlmin) 0.1.12
idna 2.10 イメージハッシュ (ImageHash) 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils (IPython用のユーティリティ) 0.2.0
ipywidgets (インタラクティブウィジェット) 7.6.3 アイソデート 0.6.0 itsdangerous(イッツデンジャラス) 1.1.0
ジェダイ 0.17.2 ジンジャ2 2.11.3 jmespath 0.10.0
「joblib」 1.0.1 ジョブリブスパーク 0.3.0 JSONスキーマ 3.2.0
ジュピタークライアント 6.1.12 ジュピター・コア 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab ウィジェット 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
キウィソルバー 1.3.1 コアラ 1.8.1 韓国陰暦 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
アオザメ 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 マルチメソッド 1.4
nbclient(エヌビー・クライアント) 0.5.3 NBコンバート 6.0.7 nbフォーマット 5.1.3
nest-asyncio(ネスト・アサインキオ) 1.5.1 networkx 2.5 nltk 3.6.1
ノートブック 6.3.0 numba 0.54.0 NumPy (数値計算ライブラリ) 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 包装 20.9
パンダ 1.2.4 pandas-profiling(パンダスプロファイリング) 3.0.0 パンドックフィルターズ 1.4.3
paramiko 2.7.2 パルソ 0.7.0 パッツィ 0.5.1
petastorm 0.11.2 ペキスペクト 4.8.0 フィック 0.12.0
ピクルシェア 0.7.5 8.2.0 21.0.1
plotly 5.1.0 prompt-toolkit(プロンプトツールキット) 3.0.17 預言者 1.0.1
プロトバフ 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow (パイアロー) 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pycparser(パイシーパーサー) 2.20 Pythonのデータバリデーションライブラリ「pydantic」 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 pyodbc (Pythonのデータベース接続用ライブラリ) 4.0.30 パイパーシング (Pyparsing) 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil (Python用の日付処理ライブラリ) 2.8.1 パイソンエディター 1.0.4 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
RegEx 2021.4.4 リクエスト 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 RSA(アールエスエー) 4.7.2 s3transfer 0.3.7
scikit-learn(サイキット・ラーン) 0.24.1 scipy 1.6.2 seaborn(シーボーン) 0.11.1
Send2Trash(センド2トラッシュ) 1.5.0 setuptools(セットアップツール) 52.0.0 setuptools-git 1.2
シャープ 0.39.0 simplejson 3.17.2 6 1.15.0
スライサー 0.0.7 smmap 3.0.5 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 ssh-import-id 5.10 statsmodels(スタッツモデルズ) 0.12.2
一覧にする 0.8.7 「tangled」-up-in-ユニコード 0.1.0 粘り強さ 6.2.0
TensorBoard 2.6.0 テンソルボード・データサーバー 0.6.1 テンソルボードプラグイン-WIT 1.8.0
テンソルフロー 2.6.0 tensorflow-estimatorツール 2.6.0 termcolor 1.1.0
終了しました 0.9.4 テストパス (testpath) 0.4.4 Threadpoolctl 2.1.0
電灯 1.9.0+cu111 torchvision 라이브러리 0.10.0+cu111 竜巻 6.1
tqdm 4.59.0 traitlets(トレイトレット) 5.0.5 タイピング拡張 3.7.4.3
ujson 4.0.2 無人アップグレード 0.1 urllib3 1.25.11
virtualenv 20.4.1 ビジョン 0.7.1 wcwidth(文字の幅を測定するプログラム関数) 0.2.5
ウェブエンコーディングス 0.5.1 websocket-client (ウェブソケット・クライアント) 0.57.0 Werkzeug 1.0.1
ホイール 0.36.2 ウィジェットNBエクステンション 3.5.1 wrapt 1.12.1
xgboost 1.4.2 ジップ 3.4.1

Python モジュールを含む Spark パッケージ

Spark パッケージ Python モジュール バージョン
graphframes graphframes 0.8.1-db3-spark3.1

R ライブラリ

R ライブラリは、Databricks Runtime 9.1 LTS の R ライブラリ と同じです。

Java と Scala のライブラリ (Scala 2.12 クラスター)

Databricks Runtime 9.1 LTS の Java ライブラリと Scala ライブラリに加えて、Databricks Runtime 9.1 LTS ML には次の JAR が含まれています。

CPU クラスター

グループ識別子 アーティファクト ID バージョン
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU クラスター

グループ識別子 アーティファクト ID バージョン
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0