Partilhar via


Transformar dados ao executar um trabalho no Databricks.

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Sugestão

Experimente Data Factory no Microsoft Fabric, uma solução de análise completa para empresas. Microsoft Fabric abrange tudo, desde a movimentação de dados até à ciência de dados, análises em tempo real, inteligência empresarial e relatórios. Saiba como iniciar um novo teste gratuitamente!

A Atividade de Trabalho do Azure Databricks em um pipeline executa trabalhos do Databricks em seu espaço de trabalho do Azure Databricks, incluindo trabalhos sem servidor. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas. O Azure Databricks é uma plataforma gerenciada para executar o Apache Spark.

Você pode criar um trabalho Databricks diretamente por meio da interface do usuário do Azure Data Factory Studio.

Adicionar uma atividade de trabalho para o Azure Databricks a um pipeline com interface do usuário

Para usar uma atividade de Job para Azure Databricks num pipeline, conclua as seguintes etapas:

  1. Pesquise por Job no painel Atividades do pipeline e arraste uma atividade de Job para o canvas do pipeline.

  2. Selecione a nova atividade Trabalho na tela, se ainda não estiver selecionada.

  3. Selecione a guia Azure Databricks para selecionar ou criar um novo serviço vinculado do Azure Databricks.

    Observação

    A atividade Trabalho do Azure Databricks é executada automaticamente em clusters sem servidor, portanto, você não precisa especificar um cluster em sua configuração de serviço vinculado. Em vez disso, escolha a opção Serverless .

    Captura de ecrã da interface do utilizador de uma atividade de trabalho, com o separador Azure Databricks realçado.

  4. Selecione a guia Configurações e especifique o trabalho a ser executado no Azure Databricks, parâmetros básicos opcionais a serem passados para o trabalho e quaisquer outras bibliotecas a serem instaladas no cluster para executar o trabalho.

    Captura de ecrã da IU de uma atividade de Trabalho, com o separador Definições realçado.

Databricks Definição de atividade de trabalho

Aqui está a definição JSON de exemplo de uma atividade de trabalho Databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksJob",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "jobID": "012345678910112",
            "jobParameters": {
                "testParameter": "testValue"
            },
        }
    }
}

Databricks Propriedades da atividade de trabalho

A tabela a seguir descreve as propriedades JSON usadas na definição JSON:

Propriedade Descrição Obrigatório
nome Nome da atividade no fluxo de trabalho. Sim
descrição Texto que descreve o que a atividade faz. Não
tipo Para Databricks Job Activity, o tipo de atividade é DatabricksJob. Sim
nomeDoServiçoVinculado Nome do Serviço Vinculado Databricks no qual o trabalho Databricks é executado. Para saber mais sobre esse serviço vinculado, consulte o artigo Serviços vinculados de computação. Sim
jobId O ID do trabalho que será executado no espaço de trabalho Databricks. Sim
parâmetros de trabalho Uma matriz de pares Chave-Valor. Os parâmetros de trabalho podem ser usados para cada atividade executada. Se o trabalho usar um parâmetro que não é especificado, o valor padrão do trabalho será usado. Saiba mais sobre parâmetros em Databricks Jobs. Não

Passando parâmetros entre trabalhos e pipelines

Você pode passar parâmetros para trabalhos usando a propriedade jobParameters na atividade Databricks.

Observação

Os parâmetros de trabalho só são suportados no IR auto-hospedado versão 5.52.0.0 ou superior.