Partager via


Databricks Runtime 10.4 LTS pour Machine Learning (EoS)

Note

La prise en charge de cette version databricks Runtime a pris fin. Pour connaître la date de fin de support, consultez l’historique de fin de support. Pour toutes les versions prises en charge de Databricks Runtime, consultez Notes de publication sur les versions et la compatibilité de Databricks Runtime.

Databricks Runtime 10.4 LTS pour le Machine Learning fournit un environnement prêt à l'emploi pour le machine learning et la science des données basé sur Databricks Runtime 10.4 LTS (EoS). Databricks Runtime ML contient de nombreuses bibliothèques populaires de Machine Learning, notamment TensorFlow, PyTorch et XGBoost. Databricks Runtime ML comprend AutoML, un outil permettant d’effectuer l’apprentissage automatique des pipelines Machine Learning. Databricks Runtime ML prend également en charge l'apprentissage profond distribué à l'aide d'Horovod.

Pour plus d’informations, y compris les instructions relatives à la création d’un cluster Databricks Runtime ML, consultez IA et machine learning sur Databricks.

Nouvelles fonctionnalités et améliorations

Databricks Runtime 10.4 LTS ML est basé sur Databricks Runtime 10.4 LTS. Pour plus d’informations sur les nouveautés de Databricks Runtime 10.4 LTS, notamment Apache Spark MLlib et SparkR, consultez les notes de publication databricks Runtime 10.4 LTS (EoS).

Améliorations apportées à AutoML

Les améliorations suivantes ont été apportées à AutoML.

AutoML est généralement disponible

À compter de Databricks Runtime 10.4 LTS ML, AutoML est généralement disponible.

Imputation des valeurs manquantes

Vous pouvez maintenant spécifier la façon dont les valeurs null sont imputées. Par défaut, AutoML sélectionne une méthode d’imputation en fonction du type et du contenu de la colonne. Consultez Imputation des valeurs manquantes pour plus de détails.

Sélection de colonnes à partir de l’interface utilisateur

Pour les problèmes de classification et de régression, vous pouvez désormais utiliser l’interface utilisateur en plus de l’API pour spécifier les colonnes que AutoML doit ignorer pendant ses calculs. Voir sélection de colonne.

Nouveau type de données

AutoML prend désormais en charge les types de tableaux numériques.

Emplacement personnalisé des notebooks générés et de l'expérimentation

Vous pouvez maintenant spécifier un emplacement dans l’espace de travail dans lequel AutoML doit enregistrer les notebooks et expériences générés. Utilise le paramètre experiment_dir. Consultez la référence de l’API Python AutoML.

Améliorations apportées à Databricks Feature Store

Les améliorations suivantes ont été apportées au Databricks Feature Store.

  • Vous pouvez maintenant inscrire une table Delta existante en tant que table de fonctionnalités.

Environnement du système

L’environnement système dans Databricks Runtime 10.4 LTS ML diffère de Databricks Runtime 10.4 LTS comme suit :

Libraries

Les sections suivantes répertorient les bibliothèques incluses dans Databricks Runtime 10.4 LTS ML qui diffèrent de celles incluses dans Databricks Runtime 10.4 LTS.

Dans cette section :

Bibliothèques de niveau supérieur

Databricks Runtime 10.4 LTS ML inclut les bibliothèques de niveau supérieur suivantes :

Bibliothèques Python

Databricks Runtime 10.4 LTS ML utilise Virtualenv pour la gestion des packages Python et inclut de nombreux packages ML populaires.

Outre les packages spécifiés dans les sections suivantes, Databricks Runtime 10.4 LTS ML inclut également les packages suivants :

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

Bibliothèques Python sur les clusters de processeurs

Pour reproduire l’environnement Python Ml Databricks Runtime dans votre environnement virtuel Python local, téléchargez le fichier requirements-10.4.txt et exécutez pip install -r requirements-10.4.txt. Cette commande installe toutes les bibliothèques open source que Databricks Runtime ML utilise, mais n’installe pas les bibliothèques développées Azure Databricks, telles que databricks-automl, databricks-feature-storeou la fourche Databricks de hyperopt.

Bibliothèque Version Bibliothèque Version Bibliothèque Version
absl-py 0.11.0 Antergos Linux 2015,10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
générateur asynchrone 1,10 attributs 20.3.0 appel de retour 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
félicité 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogue 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 cliquez 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 cryptographie 3.4.7 cycliste 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
décorateur 5.0.6 defusedxml 0.7.1 aneth 0.3.2
cache de disque 5.2.1 distlib 0.3.4 distro-infos 0.23ubuntu1
points d’entrée 0,3 ephem 4.1.3 aperçu des facettes 1.0.0
fasttext 0.9.2 verrou de fichier 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 futur 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 vacances 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
IDNA 2,10 ImageHash 4.2.1 imbalanced-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
c'est dangereux 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets (widgets pour JupyterLab) 1.0.0 keras 2.8.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 Koalas 1.8.2
calendrier lunaire coréen 0.2.1 codes de langue 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Calendrier lunaire 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny (version légère de mlflow) 1.24.0 multiméthode 1.7
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
empaquetage 21,3 Pandas 1.2.4 pandas-profilage 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
Pathy 0.6.0 patsy 0.5.1 Petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Oreiller 8.2.0 pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 prétraité 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 prophète 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.1 pycparser 2.20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
python-dateutil 2.8.1 éditeur de Python 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
requests 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
Rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy (bibliothèque Python pour le calcul scientifique) 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
forme 0.40.0 simplejson 3.17.2 six 1.15.0
segment 0.0.7 ouverture intelligente 5.2.0 smmap 3.0.5
spacy 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels, une bibliothèque Python pour la modélisation statistique 0.12.2 tabulate 0.8.7
emmêlé-up-in-unicode 0.1.0 ténacité 6.2.0 TensorBoard (outil de visualisation pour le machine learning) 2.8.0
serveur de données TensorBoard 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.8.0 estimateur TensorFlow 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor 1.1.0 terminé 0.9.4 chemin de test 0.4.4
tf-estimateur-nightly 2.8.0.dev2021122109 Thinc 8.0.12 threadpoolctl 2.1.0
générateurs de jetons 0.10.3 torche 1.10.2+cpu torchvision 0.11.3+cpu
tornade 6.1 tqdm 4.59.0 Traitlets 5.0.5
Transformateurs 4.16.2 Typer 0.3.2 extensions de typage 3.7.4.3
ujson 4.0.2 unattended-upgrades 0.1 urllib3 1.25.11
virtualenv 20.4.1 visions 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Outil 1.0.1 roue 0.36.2 widgetsnbextension 3.5.1
enveloppé 1.12.1 xgboost 1.5.2 zipp 3.4.1

Bibliothèques Python sur des clusters GPU

Bibliothèque Version Bibliothèque Version Bibliothèque Version
absl-py 0.11.0 Antergos Linux 2015,10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
générateur asynchrone 1,10 attributs 20.3.0 appel de retour 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
félicité 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogue 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 cliquez 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 cryptographie 3.4.7 cycliste 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
décorateur 5.0.6 defusedxml 0.7.1 aneth 0.3.2
cache de disque 5.2.1 distlib 0.3.4 distro-infos 0.23ubuntu1
points d’entrée 0,3 ephem 4.1.3 aperçu des facettes 1.0.0
fasttext 0.9.2 verrou de fichier 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 futur 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 vacances 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
IDNA 2,10 ImageHash 4.2.1 imbalanced-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
c'est dangereux 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets (widgets pour JupyterLab) 1.0.0 keras 2.8.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 Koalas 1.8.2
calendrier lunaire coréen 0.2.1 codes de langue 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Calendrier lunaire 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny (version légère de mlflow) 1.24.0 multiméthode 1.7
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
empaquetage 21,3 Pandas 1.2.4 pandas-profilage 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
Pathy 0.6.0 patsy 0.5.1 Petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Oreiller 8.2.0 pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 prétraité 3.0.5 prompt-toolkit 3.0.17
prophète 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.1
pycparser 2.20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil 2.8.1
éditeur de Python 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy (bibliothèque Python pour le calcul scientifique) 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 forme 0.40.0
simplejson 3.17.2 six 1.15.0 segment 0.0.7
ouverture intelligente 5.2.0 smmap 3.0.5 spacy 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels, une bibliothèque Python pour la modélisation statistique 0.12.2 tabulate 0.8.7 emmêlé-up-in-unicode 0.1.0
ténacité 6.2.0 TensorBoard (outil de visualisation pour le machine learning) 2.8.0 serveur de données TensorBoard 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.8.0
estimateur TensorFlow 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor 1.1.0
terminé 0.9.4 chemin de test 0.4.4 tf-estimateur-nightly 2.8.0.dev2021122109
Thinc 8.0.12 threadpoolctl 2.1.0 générateurs de jetons 0.10.3
torche 1.10.2+cu111 torchvision 0.11.3+cu111 tornade 6.1
tqdm 4.59.0 Traitlets 5.0.5 Transformateurs 4.16.2
Typer 0.3.2 extensions de typage 3.7.4.3 ujson 4.0.2
unattended-upgrades 0.1 urllib3 1.25.11 virtualenv 20.4.1
visions 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Outil 1.0.1
roue 0.36.2 widgetsnbextension 3.5.1 enveloppé 1.12.1
xgboost 1.5.2 zipp 3.4.1

Packages Spark contenant des modules Python

Paquet Spark Module Python Version
graphframes graphframes 0.8.2-db1-spark3.2

Bibliothèques R

Les bibliothèques R sont identiques aux bibliothèques R dans Databricks Runtime 10.4 LTS.

Bibliothèques Java et Scala (cluster Scala 2.12)

Outre les bibliothèques Java et Scala dans Databricks Runtime 10.4 LTS, Databricks Runtime 10.4 LTS ML contient les jaRs suivants :

Clusters de CPU

ID de groupe ID d’artefact Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clusters de GPU

ID de groupe ID d’artefact Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0