Compartilhar via


Configurar o modo de alta simultaneidade para notebooks do Fabric em pipelines

Ao executar uma etapa de notebook em um pipeline, uma sessão do Apache Spark é iniciada e é usada para executar as consultas enviadas do notebook. Ao habilitar o modo de alta simultaneidade para pipelines, seus notebooks serão automaticamente empacotados nas sessões do Spark existentes.

Isso oferece funcionalidade de compartilhamento de sessão em todos os blocos de anotações dentro de um único limite de usuário. O sistema compacta automaticamente todos os notebooks em uma sessão de alta simultaneidade existente.

Animação mostrando sessão de alta simultaneidade para notebooks.

Observação

O compartilhamento de sessão com modo de alta simultaneidade está sempre dentro de um único limite de usuário. Para compartilhar uma única sessão do Spark, os notebooks devem ter configurações do Spark correspondentes, eles devem fazer parte do mesmo espaço de trabalho e compartilhar o mesmo lakehouse e bibliotecas padrão.

Condições de compartilhamento de sessão

Para que os notebooks compartilhem uma única sessão do Spark, eles devem:

  • Ser executados pelo mesmo usuário.
  • Ter o mesmo lakehouse padrão. Notebooks sem um lakehouse padrão podem compartilhar sessões com outros notebooks que não têm um lakehouse padrão.
  • Ter as mesmas configurações de computação do Spark.
  • Ter os mesmos pacotes de biblioteca. Você pode ter diferentes instalações de biblioteca embutida como parte das células do notebook e ainda compartilhar a sessão com notebooks que têm dependências de biblioteca diferentes.

Configurar o modo de alta simultaneidade

Os administradores do espaço de trabalho do Fabric podem habilitar o modo de alta simultaneidade para pipelines usando as configurações do espaço de trabalho. Use as seguintes etapas para configurar o recurso de alta simultaneidade:

  1. Selecione a opção Configurações do workspace no workspace do Fabric.

  2. Navegue até a seção Ciência/Engenharia de Dados, >Configurações do Spark>Alta simultaneidade.

  3. Na seção Alta simultaneidade, habilite a configuração Para pipeline executando vários notebooks.

    Captura de tela mostrando a seção alta simultaneidade nas configurações do espaço de trabalho.

  4. Habilitar a opção de alta simultaneidade permite que todas as sessões de notebook disparadas por pipelines como uma sessão de alta simultaneidade.

  5. O sistema compacta automaticamente as sessões de notebook de entrada para sessões ativas de alta simultaneidade. Se não houver sessões de alta simultaneidade ativas, uma nova sessão de alta simultaneidade será criada e os notebooks simultâneos enviados serão compactados na nova sessão.

Usar marca de sessão no notebook para agrupar sessões compartilhadas

  1. Navegue até seu workspace, selecione o botão Novo item e crie um novo Pipeline.

  2. Navegue até o guia Atividades na faixa de opções do menu e adicione uma atividade do Notebook.

  3. Nas configurações avançadas, especifique qualquer valor de cadeia de caracteres para a propriedade de marca de sessão.

  4. Depois que a marca de sessão é adicionada, o compartilhamento de notebook usa essa marca como critérios correspondentes agrupando todos os notebooks com a mesma marca de sessão.

    Captura de tela mostrando a opção para iniciar uma nova sessão de alta simultaneidade no menu do notebook.

Observação

Para otimizar o desempenho, uma única sessão de alta simultaneidade pode compartilhar recursos em um máximo de cinco notebooks identificados pela mesma tag de sessão. Quando mais de 5 notebooks são enviados com a mesma etiqueta, o sistema criará automaticamente uma nova sessão de alta concorrência para hospedar os passos subsequentes dos notebooks. Isso permite dimensionamento eficiente e balanceamento de carga distribuindo a carga de trabalho em várias sessões.

Monitorar e depurar notebooks disparados por pipelines

O monitoramento e a depuração podem ser desafiadores quando vários notebooks estão em execução em uma sessão compartilhada. No modo de alta simultaneidade, a separação de log é fornecida, permitindo rastrear logs de eventos do Spark para cada notebook individual.

  1. Quando a sessão estiver em andamento ou em estado concluído, você poderá exibir o status da sessão navegando até o menu Executar e selecionando a opção Todas as Execuções.

  2. Isso abre o histórico de execuções do notebook com a lista de sessões ativas e históricas atuais do Spark.

    Captura de tela mostrando todas as páginas de execução para um notebook de uma nova sessão de alta simultaneidade.

  3. Ao selecionar uma sessão, você poderá acessar o modo de exibição de detalhes de monitoramento, que exibe uma lista de todos os trabalhos do Spark executados nessa sessão.

  4. Para sessão de alta simultaneidade, você poderá identificar os trabalhos e seus logs associados de blocos de anotações diferentes usando o guia Notebook relacionado, que mostra o notebook a partir do qual o trabalho foi executado.

    Captura de tela mostrando todos os notebooks relacionados para sessões de alta simultaneidade na visualização detalhada do monitoramento.