Freigeben über


Databricks Runtime 9.1 LTS für Machine Learning

Databricks hat dieses Image veröffentlicht und es im September 2021 als Long Term Support (LTS) deklariert.

Databricks Runtime 9.1 LTS für Machine Learning bietet eine sofortto-go Umgebung für Machine Learning und Data Science, die auf Databricks Runtime 9.1 LTS basiert. Databricks Runtime ML enthält viele beliebte Machine Learning-Bibliotheken, einschließlich TensorFlow, PyTorch und XGBoost. Databricks Runtime ML enthält AutoML, ein Tool zum automatischen Trainieren von Machine Learning-Pipelines. Databricks Runtime ML unterstützt auch verteiltes Deep Learning-Training mit Horovod.

Hinweis

LTS bedeutet, dass diese Version langfristig unterstützt wird. Siehe Databricks Runtime LTS-Versionslebenszyklus.

Weitere Informationen, einschließlich Anweisungen zum Erstellen eines Databricks Runtime ML-Clusters, finden Sie unter KI und Machine Learning in Databricks.

Neue Features und Verbesserungen

Automatisiertes maschinelles Lernen (AutoML)

Die folgenden Verbesserungen sind in Databricks Runtime 9.1 LTS ML und höher verfügbar.

AutoML unterstützt größere Datasets durch Stichprobenerstellung

AutoML führt jetzt Stichproben von Datasets durch, die möglicherweise Speichereinschränkungen überschreiten, sodass es für größere Datasets mit geringerem Risiko von Fehlern aufgrund von unzureichendem Arbeitsspeicher ausgeführt werden kann. Ausführliche Informationen finden Sie unter Stichprobenentnahme großer Datasets.

AutoML verarbeitet Spalten basierend auf dem semantischen Typ vor.

AutoML erkennt bestimmte Spalten mit einem semantischen Typ, der sich von ihrem Spark- oder Pandas-Datentyp unterscheidet. AutoML konvertiert dann Datenvorverarbeitungsschritte basierend auf dem erkannten semantischen Typ und wendet sie an. Insbesondere führt AutoML die folgenden Konvertierungen aus:

  • Zeichenfolgen- und Ganzzahlspalten, die Datums- oder Zeitstempeldaten darstellen, werden in einen Zeitstempeltyp konvertiert.
  • Zeichenfolgenspalten, die numerische Daten darstellen, werden in einen numerischen Typ konvertiert.

Verbesserungen an AutoML-generierten Notebooks

Vorverarbeitungsschritte für Datums- und Zeitstempelspalten sind jetzt im databricks-automl-runtime Paket enthalten, wodurch die durch das AutoML-Training generierten Notebooks vereinfacht werden. databricks-automl-runtime ist in Databricks Runtime 9.1 LTS ML und höher enthalten und auch in PyPI verfügbar.

Featurespeicher

Die folgenden Verbesserungen sind in Databricks Runtime 9.1 LTS ML und höher verfügbar.

  • Wenn Sie ein TrainingSet erstellen, können Sie jetzt label=None festlegen, dass Anwendungen für nicht überwachtes Lernen unterstützt werden.
  • Sie können jetzt mehr als ein Feature in einer einzigen FeatureLookup.
  • Sie können jetzt einen benutzerdefinierten Pfad für Feature-Tabellen angeben. Verwenden Sie den path Parameter in create_feature_table(). Der Standardwert ist der Speicherort der Datenbank.
  • Neue unterstützte PySpark-Datentypen: ArrayType und ShortType.

Mlflow

Die folgenden Verbesserungen sind ab MLflow Version 1.20.2 verfügbar, die in Databricks Runtime 9.1 LTS ML enthalten ist.

  • Die automatische Protokollierung für scikit-learn zeichnet jetzt Metriken nach dem Training auf, wenn eine scikit-learn-Auswertungs-API, z. B sklearn.metrics.mean_squared_error. , aufgerufen wird.
  • Die automatische Protokollierung für PySpark ML zeichnet jetzt Metriken nach dem Training auf, wenn eine Modellauswertungs-API, z. B Evaluator.evaluate(). aufgerufen wird.
  • mlflow.*.log_model und mlflow.*.save_model verfügen nun über pip_requirements and-Argumente extra_pip_requirements , sodass Sie die Pip-Anforderungen des Modells, das protokolliert oder gespeichert werden soll, direkt angeben können.
  • mlflow.*.log_model und mlflow.*.save_model leiten Sie nun automatisch die PIP-Anforderungen des Modells ab, das basierend auf der aktuellen Softwareumgebung protokolliert oder gespeichert werden soll.
  • stdMetrics Einträge werden jetzt während der automatischen Protokollierung von PySpark CrossValidator als Trainingsmetriken aufgezeichnet.
  • Die automatische Protokollierung von PyTorch Lightning unterstützt jetzt die verteilte Ausführung.

Automatische Databricks-Protokollierung (Public Preview)

Die Databricks Autologging Public Preview wurde auf neue Regionen ausgeweitet. Die automatische Databricks-Protokollierung ist eine Lösung ohne Programmieraufwand, die eine automatische Nachverfolgung von Experimenten für Machine Learning-Trainingssitzungen in Azure Databricks ermöglicht. Mithilfe der automatischen Databricks-Protokollierung werden Modellparameter, Metriken, Dateien und Informationen zur Herkunft automatisch erfasst, wenn Sie Modelle anhand einer Vielzahl beliebter Machine Learning-Bibliotheken trainieren. Trainingssitzungen werden als MLflow-Tracking-Läufe aufgezeichnet. Modelldateien werden auch nachverfolgt, sodass Sie sie problemlos in der MLflow-Modellregistrierung protokollieren und für die Bewertung in Echtzeit mithilfe der MLflow-Modellbereitstellung bereitstellen können.

Weitere Informationen zur automatischen Protokollierung in Databricks finden Sie unter Automatische Databricks-Protokollierung.

Wichtige Änderungen an der Databricks Runtime ML Python-Umgebung

Python-Pakete, die ein Upgrade erhalten haben

  • automl 1.1.1 => 1.2.1
  • feature_store 0,3,3 => 0,3,4,1
  • Feiertage 0.10.5.2 => 0.11.2
  • Keras 2.5.0 => 2.6.0
  • mlflow 1.19.0 => 1.20.2
  • Petastorm 0.11.1 => 0.11.2
  • Plotly 4.14.3 => 5.1.0
  • Funken-Tensorflow-Verteiler 0.1.0 => 1.0.0
  • Sparkdl 2.2.0_db1 => 2.2.0_db3
  • Tensorboard 2.5.0 => 2.6.0
  • Tensorflow 2.5.0 => 2.6.0

Hinzugefügte Python-Pakete

  • databricks-automl-runtime 0.1.0

Systemumgebung

Die Systemumgebung in Databricks Runtime 9.1 LTS ML unterscheidet sich von Databricks Runtime 9.1 LTS wie folgt:

Bibliotheken

In den folgenden Abschnitten werden die in Databricks Runtime 9.1 LTS ML enthaltenen Bibliotheken aufgeführt, die sich von denen unterscheiden, die in Databricks Runtime 9.1 LTS enthalten sind.

Inhalt dieses Abschnitts:

Bibliotheken der obersten Ebene

Databricks Runtime 9.1 LTS ML enthält die folgenden Bibliotheken der obersten Ebene:

Python-Bibliotheken

Databricks Runtime 9.1 LTS ML verwendet Virtualenv für die Python-Paketverwaltung und enthält viele beliebte ML-Pakete.

Zusätzlich zu den Paketen, die in den folgenden Abschnitten angegeben sind, enthält Databricks Runtime 9.1 LTS ML auch die folgenden Pakete:

  • Hyperopt 0.2.5.db2
  • Sparkdl 2.2.0_db3
  • feature_store 0.3.4.1
  • AutoML 1.2.1

Python-Bibliotheken in CPU-Clustern

Bibliothek Version Bibliothek Version Bibliothek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) AppDirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
Async-Generator 1.10 Attrs 20.3.0 Rückruf 0.2.0
bcrypt 3.2.0 Bleichmittel 3.3.0 Boto3 1.16.7
Botocore 1.19.7 Flaschenhals 1.3.2 CacheWerkzeuge 4.2.2
certifi 2020.12.5 cffi 1.14.5 Chardet 4.0.0
scheppern 5.0 klicken 7.1.2 Cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 Datum der Umstellung 2.3.2
Kryptographie 3.4.7 Fahrradfahrer 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
Dekorateur 5.0.6 defusedxml 0.7.1 Dill 0.3.2
Festplatten-Cache 5.2.1 Distlib 0.3.2 Distro-Informationen 0.23ubuntu1
Einstiegspunkte 0,3 Ephem 4.0.0.2 Übersicht der Facetten 1.0.0
Dateisperrung 3.0.12 Kolben 1.1.2 FlatBuffers 1.12
fsspec 0.9.0 Zukunft 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 Google-Authentifizierung 1.22.1
google-auth-oauthlib 0.4.2 Google-Pasta 0.2.0 GRPCIO 1.39.0
gunicorn 20.0.4 h5py 3.1.0 Hijri-Konverter 2.2.1
Ferien 0.11.2 Horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 Isodate 0.6.0 es ist gefährlich 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
Jupyter-Client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 Keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 koreanischer Lunarkalender 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 Mondkalender 0.0.9
Mako 1.1.3 Abschlag 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 fehltNein 0.5.0 Verstimmung 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 Multimethode 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 Natural Language Toolkit (nltk) 3.6.1
Notizbuch 6.3.0 numba 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Verpackung 20.9
Pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 Parso 0.7.0 Sündenbock 0.5.1
Petastorm 0.11.2 pexpect 4.8.0 phik 0.12.0
Gurke-Aktie 0.7.5 Kissen 8.2.0 Kern 21.0.1
Zeichnungsfläche 5.1.0 prometheus-client 0.10.1 Prompt-Toolkit 3.0.17
Prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 Pyarrow 4.0.0
Pyasn1 0.4.8 Pyasn1-Module 0.2.8 Pycparser 2,20
Pydantisch 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 Pyodbc 4.0.30
Pyparsing 2.4.7 Pyrsisent 0.17.3 Pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 Python-dateutil 2.8.1 python-editor 1.0.4
Pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 Aufforderungen 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 scikit-learn – Maschinelles Lernwerkzeug 0.24.1 SciPy 1.6.2
Seegeboren 0.11.1 Send2Trash 1.5.0 setuptools 52.0.0
setuptools-git 1.2 Schattierung 0.39.0 simplejson 3.17.2
Sechs 1.15.0 Schneidemaschine 0.0.7 smmap 3.0.5
Spark-Tensorflow-Distributor 1.0.0 sqlparse 0.4.1 ssh-import-id 5.10
StatistikModelle 0.12.2 tabellarisieren 0.8.7 Tangled-up-in-Unicode 0.1.0
Hartnäckigkeit 6.2.0 TensorBoard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0 TensorFlow-Estimator 2.6.0
Termcolor 1.1.0 terminado 0.9.4 Testpfad 0.4.4
Threadpoolctl 2.1.0 Fackel 1.9.0+cpu TorchVision 0.10.0+cpu
Tornado 6.1 tqdm 4.59.0 Traitlets 5.0.5
Erweiterungen für Typisierung 3.7.4.3 ujson 4.0.2 unbeaufsichtigte Aktualisierungen 0,1
urllib3 1.25.11 virtualenv 20.4.1 Visionen 0.7.1
wcwidth 0.2.5 Webkodierungen 0.5.1 WebSocket-Client 0.57.0
Werkzeug 1.0.1 Rad 0.36.2 widgetsnbextension 3.5.1
Eingehüllt 1.12.1 xgboost 1.4.2 ZIPP 3.4.1

Python-Bibliotheken für GPU-Cluster

Bibliothek Version Bibliothek Version Bibliothek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) AppDirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
Async-Generator 1.10 Attrs 20.3.0 Rückruf 0.2.0
bcrypt 3.2.0 Bleichmittel 3.3.0 Boto3 1.16.7
Botocore 1.19.7 Flaschenhals 1.3.2 CacheWerkzeuge 4.2.2
certifi 2020.12.5 cffi 1.14.5 Chardet 4.0.0
scheppern 5.0 klicken 7.1.2 Cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 Datum der Umstellung 2.3.2
Kryptographie 3.4.7 Fahrradfahrer 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
Dekorateur 5.0.6 defusedxml 0.7.1 Dill 0.3.2
Festplatten-Cache 5.2.1 Distlib 0.3.2 Distro-Informationen 0.23ubuntu1
Einstiegspunkte 0,3 Ephem 4.0.0.2 Übersicht der Facetten 1.0.0
Dateisperrung 3.0.12 Kolben 1.1.2 FlatBuffers 1.12
fsspec 0.9.0 Zukunft 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 Google-Authentifizierung 1.22.1
google-auth-oauthlib 0.4.2 Google-Pasta 0.2.0 GRPCIO 1.39.0
gunicorn 20.0.4 h5py 3.1.0 Hijri-Konverter 2.2.1
Ferien 0.11.2 Horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 Isodate 0.6.0 es ist gefährlich 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
Jupyter-Client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 Keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 koreanischer Lunarkalender 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 Mondkalender 0.0.9
Mako 1.1.3 Abschlag 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 fehltNein 0.5.0 Verstimmung 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 Multimethode 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 Natural Language Toolkit (nltk) 3.6.1
Notizbuch 6.3.0 numba 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Verpackung 20.9
Pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 Parso 0.7.0 Sündenbock 0.5.1
Petastorm 0.11.2 pexpect 4.8.0 phik 0.12.0
Gurke-Aktie 0.7.5 Kissen 8.2.0 Kern 21.0.1
Zeichnungsfläche 5.1.0 Prompt-Toolkit 3.0.17 Prophet 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 Pyarrow 4.0.0 Pyasn1 0.4.8
Pyasn1-Module 0.2.8 Pycparser 2,20 Pydantisch 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 Pyodbc 4.0.30 Pyparsing 2.4.7
Pyrsisent 0.17.3 Pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
Python-dateutil 2.8.1 python-editor 1.0.4 Pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
Regex 2021.4.4 Aufforderungen 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 rsa 4.7.2 s3transfer 0.3.7
scikit-learn – Maschinelles Lernwerkzeug 0.24.1 SciPy 1.6.2 Seegeboren 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
Schattierung 0.39.0 simplejson 3.17.2 Sechs 1.15.0
Schneidemaschine 0.0.7 smmap 3.0.5 Spark-Tensorflow-Distributor 1.0.0
sqlparse 0.4.1 ssh-import-id 5.10 StatistikModelle 0.12.2
tabellarisieren 0.8.7 Tangled-up-in-Unicode 0.1.0 Hartnäckigkeit 6.2.0
TensorBoard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-wit 1.8.0
TensorFlow 2.6.0 TensorFlow-Estimator 2.6.0 Termcolor 1.1.0
terminado 0.9.4 Testpfad 0.4.4 Threadpoolctl 2.1.0
Fackel 1.9.0+cu111 TorchVision 0.10.0+cu111 Tornado 6.1
tqdm 4.59.0 Traitlets 5.0.5 Erweiterungen für Typisierung 3.7.4.3
ujson 4.0.2 unbeaufsichtigte Aktualisierungen 0,1 urllib3 1.25.11
virtualenv 20.4.1 Visionen 0.7.1 wcwidth 0.2.5
Webkodierungen 0.5.1 WebSocket-Client 0.57.0 Werkzeug 1.0.1
Rad 0.36.2 widgetsnbextension 3.5.1 Eingehüllt 1.12.1
xgboost 1.4.2 ZIPP 3.4.1

Spark-Pakete mit Python-Modulen

Spark-Paket Python-Modul Version
Graphframes Graphframes 0.8.1-db3-spark3.1

R-Bibliotheken

Die R-Bibliotheken sind identisch mit den R-Bibliotheken in Databricks Runtime 9.1 LTS.

Java- und Scala-Bibliotheken (Scala 2.12-Cluster)

Zusätzlich zu den Java- und Scala-Bibliotheken in Databricks Runtime 9.1 LTS enthält Databricks Runtime 9.1 LTS ML die folgenden JARs:

Rechencluster

Gruppen-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-Cluster

Gruppen-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0