Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Neste tutorial, saiba como criar uma definição de trabalho do Spark no Microsoft Fabric.
O processo de criação de definição de trabalho do Spark é rápido e simples; há várias maneiras de começar.
Você pode criar uma definição de trabalho do Spark no portal do Fabric ou usando a API REST do Microsoft Fabric. Este artigo se concentra na criação de uma definição de trabalho do Spark no portal do Fabric. Para obter informações sobre como criar uma definição de trabalho do Spark usando a API REST, consulte a API de definição de trabalho do Apache Spark v1 e a API de definição de trabalho do Apache Spark v2.
Pré-requisitos
Antes de começar, você precisa do:
- Uma conta de locatário do Fabric com uma assinatura ativa. Crie uma conta gratuitamente.
- Um workspace no Microsoft Fabric. Para obter mais informações, consulte Criar e gerenciar workspaces no Microsoft Fabric.
- Pelo menos um lakehouse no workspace. O lakehouse serve como o sistema de arquivos padrão para a definição de trabalho do Spark. Para mais informações, veja Criar um lakehouse.
- Um arquivo de definição principal para o trabalho do Spark. Esse arquivo contém a lógica do aplicativo e é obrigatório para executar um trabalho do Spark. Cada definição de trabalho do Spark pode ter apenas um arquivo de definição principal.
Você precisa dar um nome à definição de trabalho do Spark ao criá-la. O nome deve ser exclusivo no workspace atual. A nova definição de trabalho do Spark é criada em seu workspace atual.
Criar uma definição de trabalho do Spark no portal do Fabric
Para criar uma definição de trabalho do Spark no portal do Fabric, siga estas etapas:
- Entre no portal do Microsoft Fabric.
- Navegue até o workspace desejado onde você deseja criar a definição de trabalho do Spark.
- Selecione Novo Item>Definição de Trabalho do Spark.
- No painel Nova Definição de Trabalho do Spark , forneça as seguintes informações:
- Nome: insira um nome exclusivo para a definição de trabalho do Spark.
- Local: selecione o local do workspace.
- Selecione Criar para criar a definição de trabalho do Spark.
Um ponto de entrada alternativo para criar uma definição de trabalho do Spark é a análise de dados usando um bloco SQL ... na home page do Fabric. Você pode encontrar a mesma opção selecionando o bloco Geral.
Ao selecionar o bloco, você será solicitado a criar um novo workspace ou selecionar um existente. Depois de selecionar o workspace, a página de criação de definição de trabalho do Spark será aberta.
Personalizar uma definição de trabalho do Spark para PySpark (Python)
Antes de criar uma definição de tarefa do Spark para PySpark, é necessário ter um arquivo Parquet de exemplo carregado no lakehouse.
- Baixe o arquivo de exemplo Parquet yellow_tripdata_2022-01.parquet.
- Vá até a lakehouse onde você deseja carregar o arquivo.
- Carregue-o na seção "Arquivos" da lakehouse.
Para criar uma definição de trabalho do Spark para o PySpark:
Selecione PySpark (Python) na lista suspensa Linguagem.
Baixe o arquivo de definição de exemplo createTablefromParquet.py. Carregue-o como o arquivo de definição principal. O arquivo de definição principal (job.Main) é o arquivo que contém a lógica do aplicativo e é obrigatório para executar um trabalho do Spark. Para cada definição de trabalho do Spark, você só pode carregar um arquivo de definição principal.
Observação
Você pode carregar o arquivo de definição principal diretamente da área de trabalho local ou carregá-lo de um Azure Data Lake Storage (ADLS) Gen2 existente fornecendo o caminho ABFSS completo do arquivo. Por exemplo,
abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.Você pode carregar opcionalmente arquivos de referência como arquivos
.py(Python). Os arquivos de referência são os módulos python que o arquivo de definição principal importa. Assim como o arquivo de definição principal, você pode carregar da área de trabalho ou de um ADLS Gen2 existente. Há suporte para vários arquivos de referência.Dica
Se você usar um caminho do ADLS Gen2, verifique se o arquivo está acessível. Você deve fornecer à conta de usuário que executa o trabalho a permissão adequada para a conta de armazenamento. Aqui estão duas maneiras diferentes de conceder a permissão:
- Atribua à conta de usuário uma função de Colaborador para a conta de armazenamento.
- Conceda permissão de leitura e execução à conta de usuário do arquivo por meio da lista de controle de acesso (ACL) do ADLS Gen2.
Para uma execução manual, a conta do usuário conectado atual é usada para executar o trabalho.
Forneça argumentos de linha de comando para o trabalho, se necessário. Use um espaço como um divisor para separar os argumentos.
Adicione a referência de lakehouse ao trabalho. Você deve ter pelo menos uma referência de lakehouse adicionada ao trabalho. Este lakehouse é o contexto padrão do lakehouse para o trabalho.
Há suporte para várias referências de lakehouse. Localize o nome do lakehouse não padrão e a URL completa do OneLake na página de configurações do Spark.
Personalizar uma definição de trabalho do Spark para Scala/Java
Para criar uma definição de trabalho do Spark para Scala/Java:
Selecione Spark(Scala/Java) na lista suspensa Linguagem.
Carregue o arquivo de definição principal como um
.jararquivo (Java). O arquivo de definição principal é o arquivo que contém a lógica do aplicativo desse trabalho e é obrigatório para executar um trabalho do Spark. Para cada definição de trabalho do Spark, você só pode carregar um arquivo de definição principal. Forneça o nome de classe principal.Carregue opcionalmente arquivos de referência como arquivos
.jar(Java). Os arquivos de referência são os arquivos que o arquivo de definição principal faz referência/importa.Forneça argumentos de linha de comando para o trabalho, se necessário.
Adicione a referência de lakehouse ao trabalho. Você deve ter pelo menos uma referência de lakehouse adicionada ao trabalho. Este lakehouse é o contexto padrão do lakehouse para o trabalho.
Personalizar uma definição de trabalho do Spark para R
Para criar uma definição de trabalho do Spark para SparkR(R):
Selecione SparkR(R) na lista suspensa Linguagem.
Carregue o arquivo de definição principal como um arquivo
.r(R). O arquivo de definição principal é o arquivo que contém a lógica do aplicativo desse trabalho e é obrigatório para executar um trabalho do Spark. Para cada definição de trabalho do Spark, você só pode carregar um arquivo de definição principal.Carregue opcionalmente arquivos com a extensão (R) como arquivos de referência. Os arquivos de referência são os arquivos referenciados/importados pelo arquivo de definição principal.
Forneça argumentos de linha de comando para o trabalho, se necessário.
Adicione a referência de lakehouse ao trabalho. Você deve ter pelo menos uma referência de lakehouse adicionada ao trabalho. Este lakehouse é o contexto padrão do lakehouse para o trabalho.
Observação
A definição de trabalho do Spark é criada em seu workspace atual.
Opções para personalizar definições de trabalho do Spark
Há algumas opções para personalizar ainda mais a execução de definições de trabalho do Spark.
Computação do Spark: na guia Computação do Spark , você pode ver a versão de runtime do Fabric usada para executar o trabalho do Spark. Você também pode ver as configurações do Spark usadas para executar o trabalho. Você pode personalizar as configurações do Spark selecionando o botão Adicionar .
Otimização: na guia Otimização, você pode habilitar e configurar a política de repetição para o trabalho. Quando habilitado, o trabalho será repetido se falhar. Você também pode definir o número máximo de repetições e o intervalo entre elas. Para cada tentativa de repetição, o trabalho é reiniciado. Verifique se o trabalho é idempotente.