Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
APLICA-SE A:
Azure Data Factory
Azure Synapse Analytics
Sugestão
Experimente Data Factory no Microsoft Fabric, uma solução de análise completa para empresas. Microsoft Fabric abrange tudo, desde a movimentação de dados até à ciência de dados, análises em tempo real, inteligência empresarial e relatórios. Saiba como iniciar um novo teste gratuitamente!
A Atividade de Trabalho do Azure Databricks em um pipeline executa trabalhos do Databricks em seu espaço de trabalho do Azure Databricks, incluindo trabalhos sem servidor. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas. O Azure Databricks é uma plataforma gerenciada para executar o Apache Spark.
Você pode criar um trabalho Databricks diretamente por meio da interface do usuário do Azure Data Factory Studio.
Adicionar uma atividade de trabalho para o Azure Databricks a um pipeline com interface do usuário
Para usar uma atividade de Job para Azure Databricks num pipeline, conclua as seguintes etapas:
Pesquise por Job no painel Atividades do pipeline e arraste uma atividade de Job para o canvas do pipeline.
Selecione a nova atividade Trabalho na tela, se ainda não estiver selecionada.
Selecione a guia Azure Databricks para selecionar ou criar um novo serviço vinculado do Azure Databricks.
Observação
A atividade Trabalho do Azure Databricks é executada automaticamente em clusters sem servidor, portanto, você não precisa especificar um cluster em sua configuração de serviço vinculado. Em vez disso, escolha a opção Serverless .
Selecione a guia Configurações e especifique o trabalho a ser executado no Azure Databricks, parâmetros básicos opcionais a serem passados para o trabalho e quaisquer outras bibliotecas a serem instaladas no cluster para executar o trabalho.
Databricks Definição de atividade de trabalho
Aqui está a definição JSON de exemplo de uma atividade de trabalho Databricks:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksJob",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"jobID": "012345678910112",
"jobParameters": {
"testParameter": "testValue"
},
}
}
}
Databricks Propriedades da atividade de trabalho
A tabela a seguir descreve as propriedades JSON usadas na definição JSON:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| nome | Nome da atividade no fluxo de trabalho. | Sim |
| descrição | Texto que descreve o que a atividade faz. | Não |
| tipo | Para Databricks Job Activity, o tipo de atividade é DatabricksJob. | Sim |
| nomeDoServiçoVinculado | Nome do Serviço Vinculado Databricks no qual o trabalho Databricks é executado. Para saber mais sobre esse serviço vinculado, consulte o artigo Serviços vinculados de computação. | Sim |
| jobId | O ID do trabalho que será executado no espaço de trabalho Databricks. | Sim |
| parâmetros de trabalho | Uma matriz de pares Chave-Valor. Os parâmetros de trabalho podem ser usados para cada atividade executada. Se o trabalho usar um parâmetro que não é especificado, o valor padrão do trabalho será usado. Saiba mais sobre parâmetros em Databricks Jobs. | Não |
Passando parâmetros entre trabalhos e pipelines
Você pode passar parâmetros para trabalhos usando a propriedade jobParameters na atividade Databricks.
Observação
Os parâmetros de trabalho só são suportados no IR auto-hospedado versão 5.52.0.0 ou superior.