Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo fornece exemplos de treinamento de modelos de machine learning usando o XGBoost no Azure Databricks. O Databricks Runtime para Machine Learning inclui bibliotecas XGBoost para Python e Scala. Você pode treinar os modelos XGBoost em uma máquina individual ou de maneira distribuída.
Treinar modelos XGBoost em um único nó
Você pode treinar modelos usando o pacote do Python xgboost. Esse pacote oferece suporte apenas a cargas de trabalho de nó único. Para treinar um pipeline de ML do PySpark e aproveitar o treinamento distribuído, confira Treinamento distribuído de modelos XGBoost.
Notebook XGBoost Python
Treinamento distribuído de modelos XGBoost
Para o treinamento distribuído de modelos XGBoost, o Databricks inclui avaliadores do PySpark com base no pacote xgboost. No Databricks Runtime 16.4 LTS ML e abaixo, o Databricks também inclui o pacote xgboost-4jScala. Para obter detalhes e exemplos de notebooks, confira o seguinte:
-
Treinamento distribuído de modelos XGBoost usando
xgboost.spark(Databricks Runtime 12.0 ML e superior) -
Treinamento distribuído de modelos XGBoost usando
sparkdl.xgboost(obsoleto a partir do Databricks Runtime 12.0 ML) - Treinamento distribuído de modelos XGBoost usando Scala
Instalar o XGBoost no Azure Databricks
Se você precisar instalar o XGBoost no Databricks Runtime ou usar uma versão diferente da pré-instalada com o Databricks Runtime ML, siga estas instruções.
Instalar o XGBoost no ML Databricks Runtime
O XGBoost está incluído na Databricks Runtime ML. Você pode usar essas bibliotecas em Databricks Runtime ML sem instalar nenhum pacote.
Para a versão do XGBoost instalada na versão do Databricks Runtime ML que você está usando, confira as notas sobre a versão. Para instalar outras versões do Python no Databricks Runtime ML, instale o XGBoost como uma Biblioteca de databricks PyPI. Especifique-o como o seguinte e substitua <xgboost version> pela versão desejada.
xgboost==<xgboost version>
Instalar o XGBoost no ML Databricks Runtime
Pacote Python: execute o seguinte comando em uma célula do notebook:
%pip install xgboost
Para instalar uma versão específica, substitua <xgboost version> pela versão desejada:
%pip install xgboost==<xgboost version>
-
Pacotes do Scala/Java: instale o como uma Biblioteca de Databricks com o nome do pacote Spark
xgboost-linux64.