Partilhar via


Transformar dados executando uma definição de trabalho do Synapse Spark

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

A Atividade de definição de trabalho do Azure Synapse Spark num pipeline executa uma definição de trabalho do Synapse Spark no seu espaço de trabalho do Azure Synapse Analytics. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas.

Definir o quadro de definição de trabalho do Apache Spark

Para usar uma atividade de definição de trabalho do Spark para Synapse em um pipeline, conclua as seguintes etapas:

Definições gerais

  1. Procure a definição de trabalho do Spark no painel Atividades do pipeline e arraste uma atividade de definição de trabalho do Spark sob a Sinapse para a tela do pipeline.

  2. Selecione a nova atividade de definição de trabalho do Spark na tela, se ainda não estiver selecionada.

  3. Na guia Geral, insira "sample" no campo Nome.

  4. (Opção) Você também pode inserir uma descrição.

  5. Tempo limite: quantidade máxima de tempo que uma atividade pode ser executada. O padrão é de sete dias, que também é a quantidade máxima de tempo permitida. O formato está em D.HH:MM:SS.

  6. Repetir: número máximo de tentativas de repetição.

  7. Intervalo de novas tentativas: o número de segundos entre cada tentativa de repetição.

  8. Saída segura: Quando marcada, a saída da atividade não será capturada no registro.

  9. Entrada segura: quando marcada, a entrada da atividade não será capturada nos registos.

Configurações do Azure Synapse Analytics (Artefactos)

  1. Selecione a nova atividade de definição de trabalho do Spark na tela, se ainda não estiver selecionada.

  2. Selecione o separador Azure Synapse Analytics (Artefatos) para selecionar ou criar um novo serviço incorporado do Azure Synapse Analytics que irá executar a tarefa de definição de atividade do Spark.

    Captura de ecrã que mostra a interface do utilizador da guia do serviço ligado para uma atividade de definição de job do spark.

Separador Definições

  1. Selecione a nova atividade de definição de trabalho do Spark na tela, se ainda não estiver selecionada.

  2. Selecione o separador Definições.

  3. Expanda a lista de definições de trabalho do Spark, você pode selecionar uma definição de trabalho existente do Apache Spark no espaço de trabalho vinculado do Azure Synapse Analytics.

  4. (Opcional) Você pode preencher as informações para a definição de trabalho do Apache Spark. Se as configurações a seguir estiverem vazias, as configurações da própria definição de trabalho de faísca serão usadas para executar; Se as configurações a seguir não estiverem vazias, elas substituirão as configurações da própria definição de trabalho do Spark.

    Propriedade Descrição
    Ficheiro de definição principal O arquivo principal usado para o trabalho. Selecione um arquivo PY/JAR/ZIP do seu armazenamento. Você pode selecionar Carregar arquivo para carregar o arquivo em uma conta de armazenamento.
    Exemplo: abfss://…/path/to/wordcount.jar
    Referências de subpastas Verificando subpastas da pasta raiz do arquivo de definição principal, esses arquivos serão adicionados como arquivos de referência. As pastas com os nomes "jars", "pyFiles", "files" ou "archives" serão verificadas, e os nomes das pastas são sensíveis a maiúsculas e minúsculas.
    Nome da classe principal O identificador totalmente qualificado ou a classe principal que está no arquivo de definição principal.
    Exemplo: WordCount
    Argumentos de linha de comando Você pode adicionar argumentos de linha de comando clicando no botão Novo . Deve-se notar que a adição de argumentos de linha de comando substituirá os argumentos de linha de comando definidos pela definição de trabalho do Spark.
    Amostra: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Piscina Apache Spark Você pode selecionar Apache Spark pool na lista.
    Referência de código Python Arquivos de código python adicionais usados para referência no arquivo de definição principal.
    Ele suporta a passagem de arquivos (.py, .py3, .zip) para a propriedade "pyFiles". Ele substituirá a propriedade "pyFiles" definida na definição de trabalho do Spark.
    Ficheiros de referência Arquivos adicionais usados para referência no arquivo de definição principal.
    Piscina Apache Spark Você pode selecionar Apache Spark pool na lista.
    Alocar executores dinamicamente Esta configuração corresponde à propriedade de alocação dinâmica na configuração do Spark para a alocação de executores da aplicação Spark.
    Número mínimo de executores Número mínimo de executores a ser alocado no pool Spark especificado para a tarefa.
    Max executores Número máximo de executores a serem alocados no Spark pool especificado para a tarefa.
    Tamanho do driver Número de núcleos e memória a serem usados para o driver fornecido no pool Apache Spark especificado para o trabalho.
    Configuração do Spark Especifique valores para as propriedades de configuração do Spark listadas no tópico: Configuração do Spark - Propriedades do aplicativo. Os usuários podem usar a configuração padrão e a configuração personalizada.
    Autenticação Identidades gerenciadas atribuídas pelo usuário ou identidades gerenciadas atribuídas pelo sistema já suportadas nas definições de trabalho do Spark.

    Captura de ecrã que mostra a interface do utilizador para a definição da atividade de trabalho Spark.

  5. Você pode adicionar conteúdo dinâmico clicando no botão Adicionar conteúdo dinâmico ou pressionando a tecla de atalho Alt++ Na página Adicionar Conteúdo Dinâmico, você pode usar qualquer combinação de expressões, funções e variáveis do sistema para adicionar ao conteúdo dinâmico.

    Captura de tela que exibe a interface do usuário para adicionar conteúdo dinâmico às atividades de definição de trabalho do Spark.

Guia Propriedades do usuário

Você pode adicionar propriedades para a atividade de definição de trabalho do Apache Spark neste painel.

Captura de ecrã que mostra a interface do utilizador das propriedades de uma atividade de definição de tarefa do Spark.

Definição de atividade de definição de trabalho de faísca do Azure Synapse

Aqui está a definição JSON de exemplo de uma atividade do Bloco de Anotações do Azure Synapse Analytics:

 {
        "activities": [
            {
                "name": "Spark job definition1",
                "type": "SparkJob",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "typeProperties": {
                    "sparkJob": {
                        "referenceName": {
                            "value": "Spark job definition 1",
                            "type": "Expression"
                        },
                        "type": "SparkJobDefinitionReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ],
    }

Propriedades de definição de trabalho do Azure Synapse Spark

A tabela a seguir descreve as propriedades JSON usadas na definição JSON:

Propriedade Descrição Obrigatório
nome Nome da atividade no fluxo de trabalho. Sim
descrição Texto descrevendo o que a atividade faz. Não
tipo Para a atividade de definição de Spark job do Azure Synapse, o tipo de atividade é SparkJob. Sim

Consulte o histórico de execução da atividade de definição de trabalho do Azure Synapse Spark

Vá para Pipeline executa na guia Monitor , você verá o pipeline que acionou. Abra o pipeline que contém a atividade de definição de trabalho do Azure Synapse Spark para ver o histórico de execução.

Captura de tela que mostra a interface do usuário para a entrada e saída para uma atividade de definição de trabalho de faísca executa.

Você pode ver a atividade do notebook entrada ou saída selecionando o botão de Entrada ou Saída. Se o pipeline falhou com um erro do usuário, selecione a saída para verificar o campo de resultado para ver o rastreio detalhado do erro do usuário.

Captura de tela que mostra a interface do utilizador para um erro de utilizador na execução de uma definição de atividade de trabalho do Spark.