Compartilhar via


Databricks Runtime para Machine Learning

Esta página descreve o Databricks Runtime para Machine Learning e fornece diretrizes sobre como criar um recurso de computação clássico que o usa.

O que é o Databricks Runtime para Machine Learning?

O Databricks Runtime para Machine Learning (Databricks Runtime ML) automatiza a criação de um recurso de computação com aprendizado de máquina pré-criado e infraestrutura de aprendizado profundo, incluindo as bibliotecas de ML e DL mais comuns.

Bibliotecas incluídas no Databricks Runtime para ML

O Databricks Runtime ML inclui uma variedade de bibliotecas de ML populares. As bibliotecas são atualizadas a cada versão para incluir novos recursos e correções.

O Databricks designou um subconjunto das bibliotecas com suporte como bibliotecas de camada superior. Para essas bibliotecas, o Databricks fornece uma cadência de atualização mais rápida, atualizando para as versões mais recentes do pacote com cada versão de runtime (exceto conflitos de dependência). O Databricks também fornece suporte avançado, testes e otimizações inseridas para bibliotecas de camada superior. As bibliotecas de alto nível são adicionadas ou removidas apenas com grandes lançamentos.

  • Para obter uma lista completa de bibliotecas de nível superior e outras fornecidas, consulte as notas de versão do Databricks Runtime ML.
  • Para obter informações sobre a frequência com que as bibliotecas são atualizadas e quando são consideradas obsoletas, consulte a política de manutenção do Databricks Runtime ML .

Você pode instalar bibliotecas adicionais para criar um ambiente personalizado para seu notebook ou recurso de computação.

  • Para disponibilizar uma biblioteca para todos os notebooks em execução em um ambiente de computação, crie uma biblioteca computacional. Você também pode usar um script de inicialização para instalar bibliotecas durante a criação da computação.
  • Para instalar uma biblioteca que fica disponível apenas para uma sessão específica de notebook, use bibliotecas do Python no escopo do notebook.

Criar um recurso de computação com o Databricks Runtime para ML

Para criar um recurso de computação que usa o Databricks Runtime para ML, selecione a caixa de seleção machine learning na interface do usuário de criação de computação. Isso define automaticamente o modo de acesso como Dedicado com sua conta como o usuário dedicado. Você pode atribuir manualmente o recurso de computação a um usuário ou grupo diferente na seção Avançado da interface do usuário de computação create.

Para computação baseada em GPU, selecione um tipo de instância habilitada para GPU no menu suspenso tipo de trabalhador. Para obter a lista completa de tipos de GPU com suporte, consulte Tipos de instância com suporte.

ML do Photon e do Databricks Runtime

Ao criar um recurso de computação que executa o Databricks Runtime 15.2 ML ou superior, você pode optar por habilitar o Photon. O Photon melhora o desempenho de aplicativos usando Spark SQL, Spark DataFrames, engenharia de recursos, GraphFrames e xgboost4j. Não se espera que ele melhore o desempenho em aplicativos usando RDDs do Spark, UDFs do Pandas e linguagens não JVM, como Python. Assim, pacotes Python como XGBoost, PyTorch e TensorFlow não verão uma melhoria com o Photon.

As APIs do Spark RDD e do Spark MLlib têm compatibilidade limitada com o Photon. Ao processar grandes conjuntos de dados usando o Spark RDD ou o Spark MLlib, você pode enfrentar problemas de memória do Spark. Veja Problemas de memória Spark.

Modo de acesso de computação para o Databricks Runtime ML

Para acessar dados no Catálogo do Unity em um recurso de computação que executa o Databricks Runtime ML, você deve definir o modo de acesso como Dedicado. O modo de acesso é definido automaticamente na interface de criação de computação quando você seleciona a opção aprendizagem de máquina.

Quando um recurso de computação tem o modo de acesso dedicado , o recurso pode ser atribuído a um único usuário ou grupo. Quando atribuído a um grupo, as permissões do usuário reduzem automaticamente o escopo para as permissões do grupo, permitindo que o usuário compartilhe com segurança o recurso com outros membros do grupo.

Ao usar o modo de acesso dedicado, os seguintes recursos só estão disponíveis no Databricks Runtime 15.4 LTS ML e acima: