Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Esta seção inclui exemplos que mostram como treinar modelos de aprendizado de máquina no Azure Databricks usando muitas bibliotecas de código aberto populares.
Você também pode usar o AutoML, que prepara automaticamente um conjunto de dados para treinamento de modelos, executa um conjunto de testes usando bibliotecas de código aberto, como scikit-learn e XGBoost, e cria um bloco de anotações Python com o código-fonte para cada execução de avaliação para que você possa revisar, reproduzir e modificar o código.
Exemplos de aprendizagem automática
| Pacote | Caderno(s) | Funcionalidades |
|---|---|---|
| scikit-learn | Tutorial de aprendizado de máquina | Unity Catalog, modelo de classificação, MLflow, ajuste automatizado de hiperparâmetros com Hyperopt e MLflow |
| scikit-learn | Exemplo de ponta a ponta | Unity Catalog, modelo de classificação, MLflow, ajuste automatizado de hiperparâmetros com Hyperopt e MLflow, XGBoost |
| MLlib | Exemplos de MLlib | Classificação binária, árvores de decisão, regressão GBT, Structured Streaming, transformador personalizado |
| xgboost | Exemplos de XGBoost | Python, PySpark e Scala, cargas de trabalho de nó único e treinamento distribuído |
Exemplos de ajuste de hiperparâmetros
Para obter informações gerais sobre o ajuste de hiperparâmetros no Azure Databricks, consulte Ajuste de hiperparâmetros.
| Pacote | Bloco de Notas | Funcionalidades |
|---|---|---|
| Optuna | Introdução ao Optuna | Optuna, Optuna distribuído, scikit-learn, MLflow |
| Hyperopt | Hyperopt distribuído | Hiperopta distribuída, scikit-learn, MLflow |
| Hyperopt | Comparar modelos | Usar o hiperopt distribuído para explorar o espaço de hiperparâmetros simultaneamente para diferentes tipos de modelos. |
| Hyperopt | Algoritmos de treinamento distribuído e hiperopta | Hiperoptia, MLlib |
| Hyperopt | Práticas recomendadas do Hyperopt | Práticas recomendadas para conjuntos de dados de tamanhos diferentes |