Delen via


Databricks Runtime 10.1 voor ML (EoS)

Notitie

Ondersteuning voor deze Databricks Runtime-versie is beëindigd. Zie de geschiedenis van einde van ondersteuning voor de einddatum van de ondersteuning. Zie de versienotities en compatibiliteit van Databricks Runtime voor alle ondersteunde Databricks Runtime-versies.

Databricks Runtime 10.1 voor Machine Learning biedt een kant-en-klare omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 10.1 (EoS). Databricks Runtime ML bevat veel populaire machine learning-bibliotheken, waaronder TensorFlow, PyTorch en XGBoost. Het biedt ook ondersteuning voor gedistribueerde deep learning-training met behulp van Horovod.

Zie AI en machine learning op Databricks voor meer informatie, inclusief instructies voor het maken van een Databricks Runtime ML-cluster.

Nieuwe functies en verbeteringen

Databricks Runtime 10.1 ML is gebouwd op databricks Runtime 10.1. Zie de releaseopmerkingen van Databricks Runtime 10.1, waaronder Apache Spark MLlib en SparkR, voor informatie over wat er nieuw is in Databricks Runtime 10.1 (EoS ).

Verbeteringen aan AutoML

In Databricks Runtime 10.1 bevat AutoML verbeterde semantische typedetectie, nieuwe waarschuwingen voor potentiële gegevensproblemen tijdens de training, nieuwe mogelijkheden om overfitting van modellen te voorkomen en de mogelijkheid om de invoergegevensset te splitsen in trainings-, validatie- en testsets chronologisch.

Aanvullende semantische typedetecties

AutoML ondersteunt nu aanvullende semantische typedetectie:

  • Numerieke kolommen die categorische labels bevatten, worden behandeld als een categorisch type.
  • Kolommen met tekenreeksen die Engelse tekst bevatten, worden behandeld als een tekstkenmerk.

U kunt nu ook aantekeningen toevoegen om een kolomgegevenstype op te geven. Zie Semantische typedetectie voor meer informatie.

Waarschuwingen tijdens de training voor mogelijke problemen met gegevens

AutoML detecteert en genereert nu waarschuwingen voor mogelijke problemen met de gegevensset. Voorbeelden van waarschuwingen zijn niet-ondersteunde kolomtypen en kolommen met hoge kardinaliteit. Deze waarschuwingen worden weergegeven op de experimentpagina onder het nieuwe tabblad Waarschuwingen . Aanvullende informatie over waarschuwingen wordt opgenomen in het notitieblok voor gegevensverkenning. Zie Het experiment uitvoeren en de resultaten controleren voor meer informatie.

Vermindering van overfitting bij het model

Twee nieuwe mogelijkheden verminderen de kans op overfitting van een model bij het gebruik van AutoML:

  • AutoML rapporteert nu teststatistieken naast validatie- en trainingsgegevens.
  • AutoML maakt nu gebruik van vroegtijdig stoppen. Het stopt het trainen en afstemmen van modellen als de metrische validatiegegevens niet meer worden verbeterd.

Splits de gegevensset chronologisch in trainings-, validatie- en testsets.

Voor classificatie- en regressieproblemen kunt u de gegevensset opsplitsen in train-, validatie- en testsets chronologisch. Zie Gegevens splitsen in trainings-, validatie- en testsets voor meer informatie.

Verbeteringen in Databricks Feature Store

Databricks Feature Store ondersteunt nu aanvullende gegevenstypen voor functietabellen: BinaryType, DecimalTypeen MapType.

MLflow

De volgende verbeteringen zijn beschikbaar vanaf MLflow versie 1.21.0, die is opgenomen in Databricks Runtime 10.1 ML.

  • [Modellen] Upgrade de fastai modelvariant om fastai v2 (2.4.1 en hoger) te ondersteunen.
  • [Modellen] Introduceer een mlflow.prophet-modelvariant voor Prophet-tijdreeksmodellen.
  • [Scoren] Corrigeer een fout bij het afdwingen van schema's die datumachtige tekstreeksen onjuist omzet naar datum/tijd-objecten.

Hyperopt

SparkTrials ondersteunt nu de early_stopping_fn parameter voor fmin. U kunt de functie vroeg stoppen om voorwaarden op te geven wanneer Hyperopt hyperparameterafstemming moet stoppen voordat het maximum aantal evaluaties wordt bereikt. U kunt deze parameter bijvoorbeeld gebruiken om het afstemmen te beëindigen als de doelfunctie niet meer afneemt. Zie fmin()voor meer informatie.

Belangrijke wijzigingen in de Python-omgeving van Databricks Runtime ML

Python-pakketten bijgewerkt

  • automl 1.3.1 => 1.4.1
  • feature_store 0,3.4 => 0,3,5
  • feestdagen 0.11.2 => 0.11.3.1
  • horovod 0.22.1 => 0.23.0
  • hyperopt 0.2.5.db2 => 0.2.5.db4
  • imbalanced-learn 0,8.0 => 0,8.1
  • lightgbm 3.1.1 => 3.3.0
  • mlflow 1.20.2 => 1.21.0
  • petastorm 0.11.2 => 0.11.3
  • plotly 5.1.0 => 5.3.0
  • pytorch 1.9.0 => 1.9.1
  • spatie 3.1.2 => 3.1.3
  • sparkdl 2.2.0_db3 => 2.2.0_db4
  • torchvision 0.10.0 => 0.10.1
  • transformatoren 4.9.2 => 4.11.3

Python-pakketten toegevoegd

  • fasttext => 0.9.2
  • tensorboard-plugin-profile => 2.5.0

Afgeschafte onderdelen

MLlib geautomatiseerde MLflow-tracering wordt afgeschaft op clusters met Databricks Runtime 10.1 ML en hoger. Gebruik in plaats daarvan MLflow PySpark ML autologging door aan te roepen mlflow.pyspark.ml.autolog(). Autologging is standaard ingeschakeld met Databricks Autologging.

Systeemomgeving

De systeemomgeving in Databricks Runtime 10.1 ML verschilt als volgt van Databricks Runtime 10.1:

Bibliotheken

In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 10.1 ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 10.1.

In deze sectie:

Hoogwaardige bibliotheken

Databricks Runtime 10.1 ML bevat de volgende bibliotheken van topniveau:

Python-bibliotheken

Databricks Runtime 10.1 ML maakt gebruik van Virtualenv voor Python-pakketbeheer en bevat veel populaire ML-pakketten.

Naast de pakketten die in de volgende secties zijn opgegeven, bevat Databricks Runtime 10.1 ML ook de volgende pakketten:

  • hyperopt 0.2.5.db4
  • sparkdl 2.2.0-db4
  • feature_store 0.3.5
  • automl 1.4.0

Notitie

Databricks Runtime 10.1 ML bevat scikit-learn versie 0.24 in plaats van versie 1.0 vanwege incompatibiliteitsproblemen. Het scikit-learn-pakket communiceert met veel andere pakketten in Databricks Runtime 10.1 ML.

U kunt upgraden naar scikit-learn versie 1.0; Databricks biedt echter geen ondersteuning voor deze versie.

Om te upgraden, gebruikt u notebook-gescopeerde bibliotheken. Voer vanuit een notebook de opdracht uit %pip install --upgrade "scikit-learn>=1.0,<1.1".

Een alternatief is het gebruik van dit init-clusterscript:

#!/bin/bash

set -e

pip install --upgrade "scikit-learn>=1.0,<1.1"

Python-bibliotheken op CPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) Appdirs (een hulpprogramma voor het beheren van applicatiedirectories) 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 kenmerken 20.3.0 terugbelverzoek 0.2.0
bcrypt 3.2.0 bleekmiddel 3.3.0 geluk 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
catalogus 2.0.6 certificaat 2020.12.5 cffiffi 1.14.5
chardet 4.0.0 Clang 5,0 klikken 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
Converteer datum 2.3.2 cryptografie 3.4.7 wielrijder 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime (automatische machine learning omgeving van Databricks) 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 decorateur 5.0.6
defusedxml 0.7.1 dille 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23opgegeven1 invoerpunten 0,3
iets kortstondigs 4.1 overzicht van facetten 1.0.0 fasttext 0.9.2
bestandsvergrendeling 3.0.12 Flacon 1.1.2 FlatBuffers 1.12
fsspec 0.9.0 toekomst 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 Google-authenticatie 1.22.1
google-auth-oauthlib 0.4.2 Google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 vakantie 0.11.3.1 horovod (traditionele dans) 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 IDNA 2.10
ImageHash 4.2.1 onevenwichtig leren 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate (ISO-datum) 0.6.0 hetisgevarlijk 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client (softwarepakket voor Jupyter-notebooks) 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 hard 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koala's 1.8.2 koreaans-maankalender 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 Maankalender 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 verkeerd afstemmen 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethode 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
Natural Language Toolkit (nltk) 3.6.1 notitieboek 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
verpakking 20.9 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
aandoening 0.6.0 Patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 "Phik" 0.12.0 pickleshare 0.7.5
Kussen 8.2.0 pit 21.0.1 plotly 5.3.0
vooraf geslagen 3.0.5 prometheus-client 0.10.1 prompt-hulpmiddelenpakket 3.0.17
profeet 1.0.1 protocolbuffers 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.8.0
pycparser 2,20 pydantic (een Python-bibliotheek voor datavalidatie en instellingenbeheer) 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil (een bibliotheek voor datum- en tijdgebaseerde functionaliteit in Python) 2.8.1
python-bewerker 1.0.4 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
verzoeken 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
RSA 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 Scipy (een wetenschappelijke bibliotheek voor Python) 1.6.2 geboren op zee 0.11.1
Send2Trash 1.5.0 setuptools (een Python-pakket voor het beheren van installatie en distributie van pakketten) 52.0.0 setuptools-git 1.2
Shap 0.39.0 simplejson 3.17.2 Zes 1.15.0
snijmachine 0.0.7 slim openen 5.2.0 smmap 3.0.5
spatie 3.1.3 spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 Serieus? 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabuleren 0.8.7 tangled-up-in-unicode 0.1.0
vasthoudendheid 6.2.0 Tensorbord 2.6.0 tensorboard-data-server (gegevensserver) 0.6.1
tensorboard-plugin-profiel 2.5.0 tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0
tensorflow-estimator 2.6.0 termcolor 1.1.0 voltooid 0.9.4
testpath 0.4.4 thinc 8.0.9 threadpoolctl 2.1.0
tokenizers (woordafbrekers) 0.10.3 fakkel 1.9.1+cpu fakkelvisie 0.10.1+cpu
tornado 6.1 tqdm 4.59.0 Traitlets (Python library voor het configureren van Python-objecten) 5.0.5
Transformatoren 4.11.3 Typer 0.3.2 typen-extensies 3.7.4.3
ujson (een Python-bibliotheek voor snelle JSON-verwerking) 4.0.2 upgrades zonder toezicht 0,1 urllib3 1.25.11
virtualenv 20.4.1 Visies 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 Webencoderingen 0.5.1 websocket-client 0.57.0
Gereedschap 1.0.1 wiel 0.36.2 widgetsnbextension 3.5.1
gewikkeld 1.12.1 xgboost 1.4.2 ritssluiting 3.4.1

Python-bibliotheken op GPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) Appdirs (een hulpprogramma voor het beheren van applicatiedirectories) 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 kenmerken 20.3.0 terugbelverzoek 0.2.0
bcrypt 3.2.0 bleekmiddel 3.3.0 geluk 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
catalogus 2.0.6 certificaat 2020.12.5 cffiffi 1.14.5
chardet 4.0.0 Clang 5,0 klikken 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
Converteer datum 2.3.2 cryptografie 3.4.7 wielrijder 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime (automatische machine learning omgeving van Databricks) 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 decorateur 5.0.6
defusedxml 0.7.1 dille 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23opgegeven1 invoerpunten 0,3
iets kortstondigs 4.1 overzicht van facetten 1.0.0 fasttext 0.9.2
bestandsvergrendeling 3.0.12 Flacon 1.1.2 FlatBuffers 1.12
fsspec 0.9.0 toekomst 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 Google-authenticatie 1.22.1
google-auth-oauthlib 0.4.2 Google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 vakantie 0.11.3.1 horovod (traditionele dans) 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 IDNA 2.10
ImageHash 4.2.1 onevenwichtig leren 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate (ISO-datum) 0.6.0 hetisgevarlijk 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client (softwarepakket voor Jupyter-notebooks) 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 hard 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koala's 1.8.2 koreaans-maankalender 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 Maankalender 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 verkeerd afstemmen 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethode 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
Natural Language Toolkit (nltk) 3.6.1 notitieboek 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
verpakking 20.9 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
aandoening 0.6.0 Patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 "Phik" 0.12.0 pickleshare 0.7.5
Kussen 8.2.0 pit 21.0.1 plotly 5.3.0
vooraf geslagen 3.0.5 prompt-hulpmiddelenpakket 3.0.17 profeet 1.0.1
protocolbuffers 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2,20
pydantic (een Python-bibliotheek voor datavalidatie en instellingenbeheer) 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil (een bibliotheek voor datum- en tijdgebaseerde functionaliteit in Python) 2.8.1 python-bewerker 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 verzoeken 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 RSA 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
Scipy (een wetenschappelijke bibliotheek voor Python) 1.6.2 geboren op zee 0.11.1 Send2Trash 1.5.0
setuptools (een Python-pakket voor het beheren van installatie en distributie van pakketten) 52.0.0 setuptools-git 1.2 Shap 0.39.0
simplejson 3.17.2 Zes 1.15.0 snijmachine 0.0.7
slim openen 5.2.0 smmap 3.0.5 spatie 3.1.3
spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
Serieus? 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
tabuleren 0.8.7 tangled-up-in-unicode 0.1.0 vasthoudendheid 6.2.0
Tensorbord 2.6.0 tensorboard-data-server (gegevensserver) 0.6.1 tensorboard-plugin-profiel 2.5.0
tensorboard-plugin-wit 1.8.0 TensorFlow 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 voltooid 0.9.4 testpath 0.4.4
thinc 8.0.9 threadpoolctl 2.1.0 tokenizers (woordafbrekers) 0.10.3
fakkel 1.9.1+cu111 fakkelvisie 0.10.1+cu111 tornado 6.1
tqdm 4.59.0 Traitlets (Python library voor het configureren van Python-objecten) 5.0.5 Transformatoren 4.11.3
Typer 0.3.2 typen-extensies 3.7.4.3 ujson (een Python-bibliotheek voor snelle JSON-verwerking) 4.0.2
upgrades zonder toezicht 0,1 urllib3 1.25.11 virtualenv 20.4.1
Visies 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
Webencoderingen 0.5.1 websocket-client 0.57.0 Gereedschap 1.0.1
wiel 0.36.2 widgetsnbextension 3.5.1 gewikkeld 1.12.1
xgboost 1.4.2 ritssluiting 3.4.1

Spark-pakketten met Python-modules

Spark-pakket Pythonmodule Versie
graphframes graphframes 0.8.2-db1-spark3.2

R-bibliotheken

De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 10.1.

Java- en Scala-bibliotheken (Scala 2.12-cluster)

Naast Java- en Scala-bibliotheken in Databricks Runtime 10.1 bevat Databricks Runtime 10.1 ML de volgende JAR's:

CPU-clusters

Groeps-id Artefact-id Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-clusters

Groeps-id Artefact-id Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1-spark3.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.21.0
org.mlflow mlflow-spark 1.21.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0