Delen via


Databricks Runtime 10.2 voor ML (EoS)

Notitie

Ondersteuning voor deze Databricks Runtime-versie is beëindigd. Zie de geschiedenis van einde van ondersteuning voor de einddatum van de ondersteuning. Zie release-opmerkingen en compatibiliteit van Databricks Runtime voor alle ondersteunde Databricks Runtime-versies.

Databricks heeft deze versie uitgebracht in december 2021.

Databricks Runtime 10.2 voor Machine Learning biedt een kant-en-klare omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 10.2 (EoS). Databricks Runtime ML bevat veel populaire machine learning-bibliotheken, waaronder TensorFlow, PyTorch en XGBoost. Databricks Runtime ML bevat AutoML, een hulpprogramma voor het automatisch trainen van machine learning-pijplijnen. Databricks Runtime ML biedt ook ondersteuning voor gedistribueerde Deep Learning-training met behulp van Horovod.

Zie AI en machine learning op Databricks voor meer informatie, inclusief instructies voor het maken van een Databricks Runtime ML-cluster.

Nieuwe functies en verbeteringen

Databricks Runtime 10.2 ML is gebouwd op Databricks Runtime 10.2. Zie de releaseopmerkingen van Databricks Runtime 10.2, waaronder Apache Spark MLlib en SparkR, voor informatie over wat er nieuw is in Databricks Runtime 10.2 (EoS ).

Autologging van Databricks (publieke preview)

Databricks Autologging is nu beschikbaar als openbare preview in alle regio's. Databricks Autologging is een oplossing zonder code waarmee automatisch experimenten worden bijgehouden voor machine learning-trainingssessies in Azure Databricks. Met Autologging van Databricks worden modelparameters, metrische gegevens, bestanden en herkomstgegevens automatisch vastgelegd wanneer u modellen traint uit verschillende populaire machine learning-bibliotheken. Trainingssessies worden vastgelegd als MLflow Tracking Runs. Modelbestanden worden ook bijgehouden, zodat u ze eenvoudig kunt registreren bij het MLflow-modelregister en ze kunt implementeren voor realtime scoren met MLflow Model Serving.

Voor meer informatie over Databricks Autologging, zie Databricks Autologging.

Verbeteringen aan AutoML

De volgende verbeteringen zijn aangebracht in AutoML.

  • AutoML negeert kolommen met slechts één waarde.
  • Voor classificatie- en regressieproblemen kan de tijdkolom, die wordt gebruikt om de dataset chronologisch te splitsen in trainings-, validatie- en testsets, nu van het type string zijn. Voorheen werden alleen tijdstempels en gehele getallen ondersteund. Zie Gegevens splitsen in trainings-, validatie- en testsets voor meer informatie.

Verbeteringen in Databricks Feature Store

De volgende verbeteringen zijn aangebracht in Databricks Feature Store.

Vereenvoudigde FeatureStoreClient interface

De Interface FeatureStoreClient is vereenvoudigd.

  • FeatureStoreClient.create_feature_table() is verouderd verklaard. Gebruik in plaats daarvan FeatureStoreClient.create_table().
  • FeatureStoreClient.get_feature_table() is verouderd verklaard. Gebruik in plaats daarvan FeatureStoreClient.get_table().
  • Alle argumenten voor FeatureStoreClient.publish_table() behalve name en online_store moeten worden doorgegeven als sleutelwoordargumenten.

Alleen geselecteerde kolommen publiceren in online winkels

Databricks Feature Store biedt nu ondersteuning voor het publiceren van alleen geselecteerde kolommen naar een online winkel. Zie Geselecteerde functies publiceren naar een online winkel voor meer informatie.

Belangrijke wijzigingen in de Python-omgeving van Databricks Runtime ML

De integratie van automatische MLflow-tracering voor Apache Spark MLlib, die is afgeschaft in Databricks Runtime 10.1 ML, is nu standaard uitgeschakeld in Databricks Runtime 10.2 ML. Het is vervangen door de integratie van PySpark ML Autologging van MLflow, die standaard is ingeschakeld met Databricks Autologging. Bij automatisch vastleggen worden aanvullende informatie vastgelegd die verder gaat dan wat geautomatiseerde MLflow-tracering voor MLlib heeft vastgelegd, inclusief de parameters, metrische gegevens en artefacten die zijn gekoppeld aan het beste model.

Python-pakketten bijgewerkt

  • databricks-cli 0.14.3 => 0.16.2
  • keras 2.6.0 => 2.7.0
  • lightgbm 3.3.0 => 3.3.1
  • mlflow 1.21.0 => 1.22.0
  • plotly 5.3.0 => 5.3.1
  • shap 0.39.0 => 0,40.0
  • spatie 3.1.3 => 3.2.0
  • tensorboard 2.6.0 => 2.7.0
  • tensorflow 2.6.0 => 2.7.0
  • torch 1.9.1 => 1.10.0
  • torchvision 0.10.1 => 0.11.1
  • transformatoren 4.11.3 => 4.12.3
  • xgboost 1.4.2 => 1.5.0

Systeemomgeving

De systeemomgeving in Databricks Runtime 10.2 ML verschilt als volgt van Databricks Runtime 10.2:

Bibliotheken

In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 10.2 ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 10.2.

In deze sectie:

Bibliotheken van topklasse

Databricks Runtime 10.2 ML bevat de volgende bibliotheken van topkwaliteit:

Python-bibliotheken

Databricks Runtime 10.2 ML maakt gebruik van Virtualenv voor Python-pakketbeheer en bevat veel populaire ML-pakketten.

Naast de pakketten die zijn opgegeven in de volgende secties, bevat Databricks Runtime 10.2 ML ook de volgende pakketten:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.6
  • automl 1.5.0

Python-bibliotheken op CPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) Appdirs (een hulpprogramma voor het beheren van applicatiedirectories) 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 kenmerken 20.3.0 terugbelactie 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleekmiddel 3.3.0
gelukzaligheid 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogus 2.0.6 certificaat 2020.12.5
cffiffi 1.14.5 chardet 4.0.0 klikken 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
Converteer datum 2.3.2 cryptografie 3.4.7 wielrijder 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime (automatische machine learning omgeving van Databricks) 0.2.4
databricks-cli 0.16.2 dbus-python 1.2.16 decorateur 5.0.6
defusedxml 0.7.1 dille 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23opgegeven1 invoerpunten 0,3
ephemeriden 4.1.1 facettenoverzicht 1.0.0 fasttext 0.9.2
bestandsvergrendeling 3.0.12 Flacon 1.1.2 FlatBuffers 2.0
fsspec 0.9.0 toekomst 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 Google-authenticatie 1.22.1
google-auth-oauthlib 0.4.2 Google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 vakantie 0.11.3.1 horovod (Russische volksdans) 0.23.0
htmlmin 0.1.12 huggingface-hub 0.1.2 IDNA 2.10
ImageHash 4.2.1 onevenwichtig leren 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate (ISO-datum) 0.6.0 hetisgevarlijk 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client (softwarepakket voor Jupyter-notebooks) 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 hard 2.7.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koala's 1.8.2 koreaans-maankalender 0.2.1
langcodes 3.3.0 libclang 12.0.0 lightgbm 3.3.1
llvmlite 0.37.0 Maankalender 0.0.9 Mako 1.1.3
Markdown 3.3.3 MarkupSafe 2.0.1 matplotlib 3.4.2
missingno 0.5.0 verkeerd afstemmen 0.8.4 mleap 0.18.1
mlflow-skinny 1.22.0 multimethode 1.6 murmurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 Natural Language Toolkit (nltk) 3.6.1
notitieboek 6.3.0 numba 0.54.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 verpakking 21.3
Pandas 1.2.4 pandas-profilering 3.1.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 ziekte 0.6.0
Patsy 0.5.1 petastorm 0.11.3 pexpect 4.8.0
"Phik" 0.12.0 pickleshare 0.7.5 Kussen 8.2.0
pit 21.0.1 plotly 5.3.1 vooraf geslagen 3.0.5
prometheus-client 0.10.1 prompt-hulpmiddelenpakket 3.0.17 profeet 1.0.1
protocolbuffers 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2,20
pydantic (een Python-bibliotheek voor datavalidatie en instellingenbeheer) 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil (een bibliotheek voor datum- en tijdgebaseerde functionaliteit in Python) 2.8.1 python-bewerker 1.0.4
python-engineio 4.3.0 python-socketio 5.4.1 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
regex 2021.4.4 verzoeken 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 RSA 4.7.2 s3transfer 0.3.7
sacremoses 0.0.46 scikit-learn 0.24.1 Scipy (een wetenschappelijke bibliotheek voor Python) 1.6.2
geboren op zee 0.11.1 Send2Trash 1.5.0 setuptools (een Python-pakket voor het beheren van installatie en distributie van pakketten) 52.0.0
setuptools-git 1.2 Shap 0.40.0 simplejson 3.17.2
Zes 1.15.0 Snijmachine 0.0.7 geavanceerd openen 5.2.0
smmap 3.0.5 spatie 3.2.0 spacy-legacy 3.0.8
spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
Serieus? 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
tabelleren 0.8.7 tangled-up-in-unicode 0.1.0 vasthoudendheid 6.2.0
Tensorbord 2.7.0 tensorboard-data-server (gegevensserver) 0.6.1 tensorboard-plugin-profiel 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.7.0 tensorflow-estimator 2.7.0
tensorflow-io-gcs-filesystem 0.22.0 termcolor 1.1.0 afgerond 0.9.4
testpath 0.4.4 thinc 8.0.12 threadpoolctl 2.1.0
tokenisatoren 0.10.3 fakkel 1.10.0+cpu fakkelvisie 0.11.1+cpu
tornado 6.1 tqdm 4.59.0 Traitlets (Python library voor het configureren van Python-objecten) 5.0.5
Transformers 4.12.3 typist 0.3.2 typen-extensies 3.7.4.3
ujson (een Python-bibliotheek voor snelle JSON-verwerking) 4.0.2 upgrades zonder toezicht 0,1 urllib3 1.25.11
virtualenv 20.4.1 Visies 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 webcoderingen 0.5.1 websocket-client 0.57.0
gereedschap 1.0.1 wiel 0.36.2 widgetsnbextension 3.5.1
omwikkeld 1.12.1 xgboost 1.5.0 ritssluiting 3.4.1

Python-bibliotheken op GPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) Appdirs (een hulpprogramma voor het beheren van applicatiedirectories) 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 kenmerken 20.3.0 terugbelactie 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleekmiddel 3.3.0
gelukzaligheid 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogus 2.0.6 certificaat 2020.12.5
cffiffi 1.14.5 chardet 4.0.0 klikken 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
Converteer datum 2.3.2 cryptografie 3.4.7 wielrijder 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime (automatische machine learning omgeving van Databricks) 0.2.4
databricks-cli 0.16.2 dbus-python 1.2.16 decorateur 5.0.6
defusedxml 0.7.1 dille 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23opgegeven1 invoerpunten 0,3
ephemeriden 4.1.1 facettenoverzicht 1.0.0 fasttext 0.9.2
bestandsvergrendeling 3.0.12 Flacon 1.1.2 FlatBuffers 2.0
fsspec 0.9.0 toekomst 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 Google-authenticatie 1.22.1
google-auth-oauthlib 0.4.2 Google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 vakantie 0.11.3.1 horovod (Russische volksdans) 0.23.0
htmlmin 0.1.12 huggingface-hub 0.1.2 IDNA 2.10
ImageHash 4.2.1 onevenwichtig leren 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate (ISO-datum) 0.6.0 hetisgevarlijk 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client (softwarepakket voor Jupyter-notebooks) 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 hard 2.7.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koala's 1.8.2 koreaans-maankalender 0.2.1
langcodes 3.3.0 libclang 12.0.0 lightgbm 3.3.1
llvmlite 0.37.0 Maankalender 0.0.9 Mako 1.1.3
Markdown 3.3.3 MarkupSafe 2.0.1 matplotlib 3.4.2
missingno 0.5.0 verkeerd afstemmen 0.8.4 mleap 0.18.1
mlflow-skinny 1.22.0 multimethode 1.6 murmurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 Natural Language Toolkit (nltk) 3.6.1
notitieboek 6.3.0 numba 0.54.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 verpakking 21.3
Pandas 1.2.4 pandas-profilering 3.1.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 ziekte 0.6.0
Patsy 0.5.1 petastorm 0.11.3 pexpect 4.8.0
"Phik" 0.12.0 pickleshare 0.7.5 Kussen 8.2.0
pit 21.0.1 plotly 5.3.1 vooraf geslagen 3.0.5
prompt-hulpmiddelenpakket 3.0.17 profeet 1.0.1 protocolbuffers 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.8.1 pycparser 2,20 pydantic (een Python-bibliotheek voor datavalidatie en instellingenbeheer) 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil (een bibliotheek voor datum- en tijdgebaseerde functionaliteit in Python) 2.8.1 python-bewerker 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
verzoeken 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
RSA 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 Scipy (een wetenschappelijke bibliotheek voor Python) 1.6.2 geboren op zee 0.11.1
Send2Trash 1.5.0 setuptools (een Python-pakket voor het beheren van installatie en distributie van pakketten) 52.0.0 setuptools-git 1.2
Shap 0.40.0 simplejson 3.17.2 Zes 1.15.0
Snijmachine 0.0.7 geavanceerd openen 5.2.0 smmap 3.0.5
spatie 3.2.0 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 Serieus? 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabelleren 0.8.7
tangled-up-in-unicode 0.1.0 vasthoudendheid 6.2.0 Tensorbord 2.7.0
tensorboard-data-server (gegevensserver) 0.6.1 tensorboard-plugin-profiel 2.5.0 tensorboard-plugin-wit 1.8.0
TensorFlow 2.7.0 tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.22.0
termcolor 1.1.0 afgerond 0.9.4 testpath 0.4.4
thinc 8.0.12 threadpoolctl 2.1.0 tokenisatoren 0.10.3
fakkel 1.10.0+cu111 fakkelvisie 0.11.1+cu111 tornado 6.1
tqdm 4.59.0 Traitlets (Python library voor het configureren van Python-objecten) 5.0.5 Transformers 4.12.3
typist 0.3.2 typen-extensies 3.7.4.3 ujson (een Python-bibliotheek voor snelle JSON-verwerking) 4.0.2
upgrades zonder toezicht 0,1 urllib3 1.25.11 virtualenv 20.4.1
Visies 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webcoderingen 0.5.1 websocket-client 0.57.0 gereedschap 1.0.1
wiel 0.36.2 widgetsnbextension 3.5.1 omwikkeld 1.12.1
xgboost 1.5.0 ritssluiting 3.4.1

Spark-pakketten met Python-modules

Spark-pakket Pythonmodule Versie
graphframes graphframes 0.8.2-db1-spark3.2

R-bibliotheken

De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 10.2.

Java- en Scala-bibliotheken (Scala 2.12-cluster)

Naast Java- en Scala-bibliotheken in Databricks Runtime 10.2 bevat Databricks Runtime 10.2 ML de volgende JAR's:

CPU-clusters

Groeps-id Artefact-ID Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.22.0
org.mlflow mlflow-spark 1.22.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-clusters

Groeps-id Artefact-ID Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.22.0
org.mlflow mlflow-spark 1.22.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0