Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Observação
O suporte para esta versão do Databricks Runtime foi encerrado. Para obter a data de fim do suporte, consulte o Histórico de fim do suporte. Para todas as versões suportadas do Databricks Runtime, consulte Notas de versão do Databricks Runtime: versões e compatibilidade.
O Databricks Runtime 10.4 LTS para Machine Learning fornece um ambiente pronto para uso para machine learning e ciência de dados com base no Databricks Runtime 10.4 LTS (EoS). O Databricks Runtime ML contém muitas bibliotecas de machine learning populares, incluindo o TensorFlow, o PyTorch e o XGBoost. O Databricks Runtime ML inclui o AutoML, uma ferramenta para treinamento automático de pipelines de aprendizado de máquina. O Databricks Runtime ML também dá suporte ao treinamento de aprendizado profundo distribuído usando o Horovod.
Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, confira IA e Machine Learning no Databricks.
Novos recursos e melhorias
O Databricks Runtime 10.4 LTS ML é criado com base no Databricks Runtime 10.4 LTS. Para obter informações sobre as novidades no Databricks Runtime 10.4 LTS, incluindo Apache Spark MLlib e SparkR, consulte as notas de versão do Databricks Runtime 10.4 LTS (EoS ).
Aprimoramentos no AutoML
Os aprimoramentos a seguir foram feitos no AutoML.
O AutoML está em disponibilidade geral
A partir do Databricks Runtime 10.4 LTS ML, o AutoML está disponível em geral.
Imputação de valores ausentes
Agora você pode especificar como os valores nulos são imputados. Por padrão, o AutoML seleciona um método de imputação com base no tipo de coluna e no conteúdo. Consulte imputação de valores ausentes para obter detalhes.
Seleção de coluna da interface do usuário
Para problemas de classificação e regressão, agora você pode usar a interface do usuário além da API para especificar colunas que o AutoML deve ignorar durante seus cálculos. Consulte seleção de coluna.
Novo tipo de dados
O AutoML agora dá suporte a tipos de matriz numérica.
Localização personalizada para cadernos gerados e experimentos
Agora você pode especificar um local no workspace em que o AutoML deve salvar blocos de anotações e experimentos gerados. Use o parâmetro experiment_dir. Consulte Referência da API do AutoML Python.
Aprimoramentos no Databricks Feature Store
Foram feitos os seguintes aprimoramentos no Databricks Feature Store.
- Agora você pode registrar uma tabela Delta existente como uma tabela de recursos.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 10.4 LTS ML difere do Databricks Runtime 10.4 LTS da seguinte maneira:
-
DBUtils: O Databricks Runtime ML não inclui Utilitário de biblioteca (dbutils.library) (herdado).
Em vez disso, utilize os comandos
%pip. Veja Bibliotecas do Python no escopo do notebook. - Para clusters de GPU, o Databricks Runtime ML inclui as seguintes bibliotecas de GPU NVIDIA:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Libraries
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 10.4 LTS ML que diferem daquelas incluídas no Databricks Runtime 10.4 LTS.
Nesta seção:
- Bibliotecas de camada superior
- Bibliotecas do Python
- Bibliotecas do R
- Bibliotecas Java e Scala (cluster Scala 2.12)
Bibliotecas de camada superior
O Databricks Runtime 10.4 LTS ML inclui as seguintes bibliotecas de camada superior:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Bibliotecas do Python
O Databricks Runtime 10.4 LTS ML usa o Virtualenv para gerenciamento de pacotes python e inclui muitos pacotes ML populares.
Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 10.4 LTS ML também inclui os seguintes pacotes:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.8
- automl 1.7.2
Bibliotecas do Python em clusters de CPU
Para reproduzir o ambiente do Databricks Runtime ML Python em seu ambiente virtual do Python local, baixe o arquivo requirements-10.4.txt e execute pip install -r requirements-10.4.txt. Esse comando instala todas as bibliotecas de software livre que o Databricks Runtime ML usa, mas não instala bibliotecas desenvolvidas pelo Azure Databricks, como databricks-automl, databricks-feature-store, ou a bifurcação do Databricks de hyperopt.
| Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
|---|---|---|---|---|---|
| absl-py | 0.11.0 | Antergos Linux | outubro de 2015 (ISO-Rolling) | appdirs | 1.4.4 |
| argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
| gerador assíncrono | 1.10 | atributos | 20.3.0 | chamada de retorno | 0.2.0 |
| bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
| felicidade | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
| ferramentas de cache | 4.2.4 | catálogo | 2.0.6 | certificado | 2020.12.5 |
| cffi | 1.14.5 | chardet | 4.0.0 | click | 7.1.2 |
| cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
| convertdate | 2.3.2 | criptografia | 3.4.7 | ciclista | 0.10.0 |
| cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
| databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
| decorador | 5.0.6 | defusedxml | 0.7.1 | endro | 0.3.2 |
| cache de disco | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
| pontos de entrada | 0,3 | efêm | 4.1.3 | Visão geral de facetas | 1.0.0 |
| fasttext | 0.9.2 | bloqueio de arquivo | 3.0.12 | Flask | 1.1.2 |
| flatbuffers | 2.0 | fsspec | 0.9.0 | futuro | 0.18.2 |
| gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
| google-auth (autenticação do Google) | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
| grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
| h5py | 3.1.0 | hijri-converter | 2.2.3 | Férias | 0.12 |
| horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
| IDNA | 2,10 | ImageHash | 4.2.1 | desequilibrado-learn | 0.8.1 |
| importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
| ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
| itsdangerous | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
| jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
| jsonschema | 3.2.0 | Cliente Jupyter | 6.1.12 | jupyter-core | 4.7.1 |
| jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
| Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | Coalas | 1.8.2 |
| calendário lunar coreano | 0.2.1 | códigos de idioma | 3.3.0 | libclang | 13.0.0 |
| lightgbm | 3.3.2 | llvmlite | 0.38.0 | Calendário Lunar | 0.0.9 |
| Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
| matplotlib | 3.4.2 | missingno | 0.5.1 | Mistune | 0.8.4 |
| mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimétodo | 1.7 |
| murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
| nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2,5 |
| nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.1 |
| numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
| empacotamento | 21.3 | Pandas | 1.2.4 | criação de perfil pandas | 3.1.0 |
| pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
| patia | 0.6.0 | patsy | 0.5.1 | petastorm | 0.11.4 |
| pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
| Almofada | 8.2.0 | pip | 21.0.1 | enredo | 5.5.0 |
| pmdarima | 1.8.4 | If the text refers to a technical term or specific term that may need localization, and a translation exists, that translation should be provided instead of remaining untranslated. | 3.0.5 | prometheus-client | 0.10.1 |
| prompt-toolkit | 3.0.17 | profeta | 1.0.1 | protobuf | 3.17.2 |
| psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
| Pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
| pybind11 | 2.9.1 | pycparser | 2,20 | pydantic | 1.8.2 |
| Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
| PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
| pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
| python-dateutil | 2.8.1 | editor de Python | 1.0.4 | python-engineio | 4.3.0 |
| python-socketio | 5.4.1 | Pytz | 2020.5 | PyWavelets | 1.1.1 |
| PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
| requests | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
| rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
| scikit-aprender | 0.24.1 | scipy | 1.6.2 | seaborn (biblioteca de visualização em Python) | 0.11.1 |
| Send2Trash | 1.5.0 | Ferramentas de configuração | 52.0.0 | setuptools-git | 1,2 |
| shap | 0.40.0 | simplejson | 3.17.2 | seis | 1.15.0 |
| segmentação | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
| espaçoso | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
| spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
| ssh-import-id | 5.10 | statsmodels (biblioteca para modelos estatísticos em Python) | 0.12.2 | tabulate | 0.8.7 |
| tangled-up-in-unicode | 0.1.0 | tenacidade | 6.2.0 | tensorboard | 2.8.0 |
| tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
| tensorflow-cpu | 2.8.0 | tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
| termcolor | 1.1.0 | terminado | 0.9.4 | caminho de teste | 0.4.4 |
| tf-estimator-nightly | 2.8.0.dev2021122109 | thinc | 8.0.12 | threadpoolctl | 2.1.0 |
| criadores de token | 0.10.3 | lanterna | 1.10.2+cpu | torchvision | 0.11.3+cpu |
| tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
| Transformadores | 4.16.2 | Typer | 0.3.2 | extensões de digitação | 3.7.4.3 |
| ujson | 4.0.2 | atualizações não supervisionadas | 0.1 | urllib3 | 1.25.11 |
| virtualenv | 20.4.1 | visões | 0.7.4 | wasabi | 0.8.2 |
| wcwidth | 0.2.5 | codificações web | 0.5.1 | websocket-client (cliente WebSocket) | 0.57.0 |
| Ferramentas | 1.0.1 | wheel | 0.36.2 | widgetsnbextension | 3.5.1 |
| embrulhado | 1.12.1 | xgboost | 1.5.2 | zipp | 3.4.1 |
Bibliotecas do Python em clusters de GPU
| Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
|---|---|---|---|---|---|
| absl-py | 0.11.0 | Antergos Linux | outubro de 2015 (ISO-Rolling) | appdirs | 1.4.4 |
| argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
| gerador assíncrono | 1.10 | atributos | 20.3.0 | chamada de retorno | 0.2.0 |
| bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
| felicidade | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
| ferramentas de cache | 4.2.4 | catálogo | 2.0.6 | certificado | 2020.12.5 |
| cffi | 1.14.5 | chardet | 4.0.0 | click | 7.1.2 |
| cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
| convertdate | 2.3.2 | criptografia | 3.4.7 | ciclista | 0.10.0 |
| cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
| databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
| decorador | 5.0.6 | defusedxml | 0.7.1 | endro | 0.3.2 |
| cache de disco | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
| pontos de entrada | 0,3 | efêm | 4.1.3 | Visão geral de facetas | 1.0.0 |
| fasttext | 0.9.2 | bloqueio de arquivo | 3.0.12 | Flask | 1.1.2 |
| flatbuffers | 2.0 | fsspec | 0.9.0 | futuro | 0.18.2 |
| gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
| google-auth (autenticação do Google) | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
| grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
| h5py | 3.1.0 | hijri-converter | 2.2.3 | Férias | 0.12 |
| horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
| IDNA | 2,10 | ImageHash | 4.2.1 | desequilibrado-learn | 0.8.1 |
| importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
| ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
| itsdangerous | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
| jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
| jsonschema | 3.2.0 | Cliente Jupyter | 6.1.12 | jupyter-core | 4.7.1 |
| jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
| Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | Coalas | 1.8.2 |
| calendário lunar coreano | 0.2.1 | códigos de idioma | 3.3.0 | libclang | 13.0.0 |
| lightgbm | 3.3.2 | llvmlite | 0.38.0 | Calendário Lunar | 0.0.9 |
| Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
| matplotlib | 3.4.2 | missingno | 0.5.1 | Mistune | 0.8.4 |
| mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimétodo | 1.7 |
| murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
| nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2,5 |
| nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.1 |
| numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
| empacotamento | 21.3 | Pandas | 1.2.4 | criação de perfil pandas | 3.1.0 |
| pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
| patia | 0.6.0 | patsy | 0.5.1 | petastorm | 0.11.4 |
| pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
| Almofada | 8.2.0 | pip | 21.0.1 | enredo | 5.5.0 |
| pmdarima | 1.8.4 | If the text refers to a technical term or specific term that may need localization, and a translation exists, that translation should be provided instead of remaining untranslated. | 3.0.5 | prompt-toolkit | 3.0.17 |
| profeta | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
| psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | Pyarrow | 4.0.0 |
| pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.1 |
| pycparser | 2,20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
| PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
| pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
| pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
| editor de Python | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
| Pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
| pyzmq | 20.0.0 | regex | 2021.4.4 | requests | 2.25.1 |
| requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
| s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-aprender | 0.24.1 |
| scipy | 1.6.2 | seaborn (biblioteca de visualização em Python) | 0.11.1 | Send2Trash | 1.5.0 |
| Ferramentas de configuração | 52.0.0 | setuptools-git | 1,2 | shap | 0.40.0 |
| simplejson | 3.17.2 | seis | 1.15.0 | segmentação | 0.0.7 |
| smart-open | 5.2.0 | smmap | 3.0.5 | espaçoso | 3.2.1 |
| spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
| sqlparse | 0.4.1 | srsly | 2.4.1 | ssh-import-id | 5.10 |
| statsmodels (biblioteca para modelos estatísticos em Python) | 0.12.2 | tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 |
| tenacidade | 6.2.0 | tensorboard | 2.8.0 | tensorboard-data-server | 0.6.1 |
| tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.8.0 |
| tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
| terminado | 0.9.4 | caminho de teste | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021122109 |
| thinc | 8.0.12 | threadpoolctl | 2.1.0 | criadores de token | 0.10.3 |
| lanterna | 1.10.2+cu111 | torchvision | 0.11.3+cu111 | tornado | 6.1 |
| tqdm | 4.59.0 | traitlets | 5.0.5 | Transformadores | 4.16.2 |
| Typer | 0.3.2 | extensões de digitação | 3.7.4.3 | ujson | 4.0.2 |
| atualizações não supervisionadas | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
| visões | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
| codificações web | 0.5.1 | websocket-client (cliente WebSocket) | 0.57.0 | Ferramentas | 1.0.1 |
| wheel | 0.36.2 | widgetsnbextension | 3.5.1 | embrulhado | 1.12.1 |
| xgboost | 1.5.2 | zipp | 3.4.1 |
Pacotes do Spark que contêm módulos do Python
| Pacote do Spark | Módulo do Python | Versão |
|---|---|---|
| grafframes | grafframes | 0.8.2-db1-spark3.2 |
Bibliotecas de R
As bibliotecas do R são idênticas às Bibliotecas do R no Databricks Runtime 10.4 LTS.
Bibliotecas Java e Scala (cluster Scala 2.12)
Além das bibliotecas Java e Scala no Databricks Runtime 10.4 LTS, o Databricks Runtime 10.4 LTS ML contém os seguintes JARs:
Clusters de CPU
| ID do grupo | ID do artefato | Versão |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
| ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
| ml.dmlc | xgboost4j_2.12 | 1.5.2 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 1.24.0 |
| org.mlflow | mlflow-spark | 1.24.0 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters de GPU
| ID do grupo | ID do artefato | Versão |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
| ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
| ml.dmlc | xgboost4j_2.12 | 1.5.2 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 1.24.0 |
| org.mlflow | mlflow-spark | 1.24.0 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |