Partilhar via


Databricks Runtime para Machine Learning

Esta página descreve o Databricks Runtime for Machine Learning e fornece orientações sobre como criar um recurso de computação clássico que o utilize.

O que é Databricks Runtime for Machine Learning?

O Databricks Runtime for Machine Learning (Databricks Runtime ML) automatiza a criação de um recurso de computação com infraestrutura pré-construída de aprendizagem automática e deep learning, incluindo as bibliotecas de ML e DL mais comuns.

Bibliotecas incluídas no Databricks Runtime ML

O Databricks Runtime ML inclui uma variedade de bibliotecas de ML populares. As bibliotecas são atualizadas a cada versão para incluir novos recursos e correções.

O Databricks designou um subconjunto das bibliotecas suportadas como bibliotecas de camada superior. Para essas bibliotecas, o Databricks fornece uma cadência de atualização mais rápida, atualizando para as versões de pacotes mais recentes com cada release da execução (exceto em casos de conflitos de dependência). O Databricks também fornece suporte avançado, testes e otimizações incorporadas para bibliotecas de nível superior. As principais bibliotecas são adicionadas ou removidas apenas nas versões principais.

  • Para obter uma lista completa de bibliotecas de nível superior e outras bibliotecas fornecidas, consulte as notas de versão do Databricks Runtime ML.
  • Para obter informações sobre a frequência com que as bibliotecas são atualizadas e quando as bibliotecas são preteridas, consulte Política de manutenção do Databricks Runtime ML.

Pode instalar bibliotecas adicionais para criar um ambiente personalizado para o seu portátil ou recurso de computação.

  • Para disponibilizar uma biblioteca para todos os notebooks a correr num recurso de computação, crie uma biblioteca com escopo de computação. Também podes usar um script de init para instalar bibliotecas durante a criação de computação.
  • Para instalar uma biblioteca que está disponível apenas para uma sessão específica do bloco de anotações, use bibliotecas Python com escopo de bloco de anotações.

Criar um recurso de computação com Databricks Runtime para ML

Para criar um recurso de computação que utilize o Databricks Runtime para ML, selecione a caixa de selecção de Aprendizagem Máquina na interface de criação de computação. Isto define automaticamente o modo de acesso para Dedicado com a sua conta como utilizador dedicado. Pode atribuir manualmente o recurso de computação a um utilizador ou grupo diferente na secção Avançada do Create Compute UI.

Para computação baseada em GPU, selecione um tipo de instância habilitada para GPU na lista pendente de Tipo de Trabalho. Para obter a lista completa dos tipos de GPU suportados, consulte Tipos de instância suportados.

ML de tempo de execução de Photon e Databricks

Quando cria um recurso de computação que executa Databricks Runtime 15.2 ML ou superior, pode optar por ativar o Photon. Photon melhora o desempenho para aplicativos que usam Spark SQL, Spark DataFrames, engenharia de recursos, GraphFrames e xgboost4j. Não se espera que melhore o desempenho em aplicativos que usam RDDs Spark, UDFs Pandas e linguagens não-JVM, como Python. Assim, pacotes Python como XGBoost, PyTorch e TensorFlow não verão uma melhoria com o Photon.

As APIs do Spark RDD e o Spark MLlib têm compatibilidade limitada com o Photon. Ao processar grandes conjuntos de dados usando o Spark RDD ou o Spark MLlib, você pode enfrentar problemas de memória do Spark. Consulte Problemas de memória do Spark.

Modo de acesso de computação para Databricks Runtime ML

Para aceder a dados no Unity Catalog num recurso de computação que execute Databricks Runtime ML, deve definir o modo de acesso para Dedicado. O modo de acesso é automaticamente definido na interface de criação de computação quando seleciona a caixa Aprendizagem Automática.

Quando um recurso de computação tem modo de acesso dedicado , o recurso pode ser atribuído a um único utilizador ou a um grupo. Quando atribuída a um grupo, as permissões do utilizador reduzem automaticamente o escopo para as permissões do grupo, permitindo que o utilizador partilhe o recurso de forma segura com outros membros do grupo.

Ao usar o modo de acesso dedicado, os seguintes recursos só estão disponíveis no Databricks Runtime 15.4 LTS ML e superior: