Compartilhar via


Transformar dados executando um trabalho do Databricks

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

A atividade de trabalho do Azure Databricks em um pipeline executa trabalhos do workspace do Databricks do Azure Databricks, incluindo trabalhos sem servidor. Este artigo se baseia no artigo sobre atividades de transformação de dados que apresenta uma visão geral da transformação de dados e as atividades de transformação permitidas. O Azure Databricks é uma plataforma gerenciada para executar o Apache Spark.

Você pode criar um trabalho do Databricks diretamente por meio da interface do usuário do Azure Data Factory Studio.

Adicionar uma atividade de Trabalho do Azure Databricks a um pipeline com a interface do usuário

Para usar uma atividade de Trabalho do Azure Databricks em um pipeline, conclua as seguintes etapas:

  1. Pesquise Trabalho no painel Atividades do pipeline e arraste uma atividade de Trabalho para a tela do pipeline.

  2. Selecione a nova atividade de trabalho no quadro se ela ainda não estiver selecionada.

  3. Selecionar a guia Azure Databricks para selecionar ou criar um novo serviço vinculado do Azure Databricks.

    Observação

    A atividade de trabalho do Azure Databricks é executada automaticamente em clusters sem servidor, portanto, não é necessário especificar um cluster na configuração do seu serviço vinculado. Em vez disso, escolha a opção sem servidor .

    Captura de tela da interface do usuário para uma atividade de trabalho, com a guia Azure Databricks destacada.

  4. Selecione a guia Configurações e especifique o trabalho a ser executado no Azure Databricks, parâmetros base opcionais a serem passados para o trabalho e quaisquer outras bibliotecas a serem instaladas no cluster para executar o trabalho.

    Captura de tela da interface do usuário para uma atividade de trabalho, com a guia Configurações realçada.

Definição da atividade de Trabalho do Databricks

Aqui está a definição JSON de exemplo de uma Atividade de Trabalho do Databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksJob",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "jobID": "012345678910112",
            "jobParameters": {
                "testParameter": "testValue"
            },
        }
    }
}

Propriedades da atividade de trabalho do Databricks

A tabela a seguir descreve as propriedades JSON usadas na definição de JSON:

Propriedade Descrição Obrigatório
nome Nome da atividade no pipeline. Sim
descrição Texto que descreve o que a atividade faz. Não
tipo Para a Atividade de Trabalho do Databricks, o tipo de atividade é DatabricksJob. Sim
nomeDoServiçoVinculado Nome do Serviço Vinculado do Databricks no qual o trabalho do Databricks é executado. Para saber mais sobre esse serviço vinculado, consulte o artigo Compute linked services (Serviços de computação vinculados). Sim
jobId O ID do trabalho a ser executado no espaço de trabalho do Databricks. Sim
parâmetrosDeTrabalho Uma matriz de pares chave-valor. Os parâmetros de trabalho podem ser usados para cada execução de atividade. Se o trabalho usa um parâmetro que não é especificado, o valor padrão do trabalho será usado. Encontre mais sobre parâmetros em Trabalhos do Databricks. Não

Como passar parâmetros entre trabalhos e pipelines

Você pode passar parâmetros para trabalhos usando a propriedade jobParameters na atividade do Databricks.

Observação

Os parâmetros de trabalho só têm suporte no IR auto-hospedado versão 5.52.0.0 ou superior.