Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
APLICA-SE A:
Azure Data Factory
Azure Synapse Analytics
Dica
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!
A atividade de trabalho do Azure Databricks em um pipeline executa trabalhos do workspace do Databricks do Azure Databricks, incluindo trabalhos sem servidor. Este artigo se baseia no artigo sobre atividades de transformação de dados que apresenta uma visão geral da transformação de dados e as atividades de transformação permitidas. O Azure Databricks é uma plataforma gerenciada para executar o Apache Spark.
Você pode criar um trabalho do Databricks diretamente por meio da interface do usuário do Azure Data Factory Studio.
Adicionar uma atividade de Trabalho do Azure Databricks a um pipeline com a interface do usuário
Para usar uma atividade de Trabalho do Azure Databricks em um pipeline, conclua as seguintes etapas:
Pesquise Trabalho no painel Atividades do pipeline e arraste uma atividade de Trabalho para a tela do pipeline.
Selecione a nova atividade de trabalho no quadro se ela ainda não estiver selecionada.
Selecionar a guia Azure Databricks para selecionar ou criar um novo serviço vinculado do Azure Databricks.
Observação
A atividade de trabalho do Azure Databricks é executada automaticamente em clusters sem servidor, portanto, não é necessário especificar um cluster na configuração do seu serviço vinculado. Em vez disso, escolha a opção sem servidor .
Selecione a guia Configurações e especifique o trabalho a ser executado no Azure Databricks, parâmetros base opcionais a serem passados para o trabalho e quaisquer outras bibliotecas a serem instaladas no cluster para executar o trabalho.
Definição da atividade de Trabalho do Databricks
Aqui está a definição JSON de exemplo de uma Atividade de Trabalho do Databricks:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksJob",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"jobID": "012345678910112",
"jobParameters": {
"testParameter": "testValue"
},
}
}
}
Propriedades da atividade de trabalho do Databricks
A tabela a seguir descreve as propriedades JSON usadas na definição de JSON:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| nome | Nome da atividade no pipeline. | Sim |
| descrição | Texto que descreve o que a atividade faz. | Não |
| tipo | Para a Atividade de Trabalho do Databricks, o tipo de atividade é DatabricksJob. | Sim |
| nomeDoServiçoVinculado | Nome do Serviço Vinculado do Databricks no qual o trabalho do Databricks é executado. Para saber mais sobre esse serviço vinculado, consulte o artigo Compute linked services (Serviços de computação vinculados). | Sim |
| jobId | O ID do trabalho a ser executado no espaço de trabalho do Databricks. | Sim |
| parâmetrosDeTrabalho | Uma matriz de pares chave-valor. Os parâmetros de trabalho podem ser usados para cada execução de atividade. Se o trabalho usa um parâmetro que não é especificado, o valor padrão do trabalho será usado. Encontre mais sobre parâmetros em Trabalhos do Databricks. | Não |
Como passar parâmetros entre trabalhos e pipelines
Você pode passar parâmetros para trabalhos usando a propriedade jobParameters na atividade do Databricks.
Observação
Os parâmetros de trabalho só têm suporte no IR auto-hospedado versão 5.52.0.0 ou superior.