Partilhar via


Configurar o modo de alta simultaneidade para blocos de anotações de malha em pipelines

Quando executas um passo do notebook dentro de um pipeline, é iniciada uma sessão do Apache Spark que é utilizada para executar as consultas enviadas a partir do notebook. Quando ativa o modo de alta simultaneidade para pipelines, os seus notebooks serão automaticamente empacotados nas sessões de Spark existentes.

Isso oferece a capacidade de partilhar sessões em todos os cadernos dentro da fronteira de um único utilizador. O sistema embala automaticamente todos os notebooks em uma sessão existente de alta concorrência.

Animação mostrando sessão de alta simultaneidade para notebooks.

Nota

O compartilhamento de sessão com o modo de alta simultaneidade está sempre dentro de um único limite de usuário. Para partilhar uma única sessão Spark, os notebooks devem ter configurações Spark correspondentes, fazer parte do mesmo espaço de trabalho e partilhar o mesmo lakehouse e bibliotecas padrão.

Condições de partilha de sessões

Para que os blocos de notas partilhem uma única sessão do Spark, devem:

  • Ser executado pelo mesmo usuário.
  • Tenha a mesma casa de lago padrão. Blocos de anotações sem um lakehouse padrão podem compartilhar sessões com outros blocos de anotações que não têm um lakehouse padrão.
  • Tenha as mesmas configurações de computação do Spark.
  • Tenha os mesmos pacotes de biblioteca. Você pode ter diferentes instalações de biblioteca integradas nas células dos notebooks e ainda compartilhar a sessão com notebooks que tenham diferentes dependências de biblioteca.

Configurar o modo de simultaneidade alta

Os administradores do espaço de trabalho do Fabric podem ativar o modo de alta simultaneidade para pipelines usando as configurações do espaço de trabalho. Use as seguintes etapas para configurar o recurso de alta simultaneidade:

  1. Selecione a opção Configurações do espaço de trabalho no seu espaço de trabalho Fabric.

  2. Navegue até a seção Data Engineering/Science>Configurações do Spark>Alta Simultaneidade.

  3. Na seção Alta Concorrência, habilite a configuração Para execução de pipeline com múltiplos notebooks.

    Captura de tela mostrando a seção de alta simultaneidade nas configurações do espaço de trabalho.

  4. Ativar a opção de alta simultaneidade permite que todas as sessões de bloco de anotações iniciadas por pipelines sejam tratadas como sessões de alta simultaneidade.

  5. O sistema agrupa automaticamente as sessões de notebooks recebidas em sessões de alta concorrência ativa. Se não houver sessões ativas de alta concorrência, uma nova sessão de alta concorrência será criada e os cadernos concorrentes submetidos serão integrados na nova sessão.

Utilizar etiqueta de sessão no bloco de notas para agrupar sessões partilhadas

  1. Navegue até o espaço de trabalho, selecione o botão Novo item e crie um novo Pipeline.

  2. Navegue até à guia Atividades na barra de menu e adicione uma atividade de Bloco de Notas.

  3. Em Configurações avançadas, especifique qualquer valor de cadeia de caracteres para a propriedade session tag .

  4. Depois que a tag de sessão é adicionada, o compartilhamento de bloco de anotações usa essa tag como critério de correspondência, agrupando todos os blocos de anotações com a mesma tag de sessão.

    Captura de ecrã a mostrar a opção para iniciar uma nova sessão de simultaneidade elevada no Menu do Notebook.

Nota

Para otimizar o desempenho, uma única sessão de alta simultaneidade pode compartilhar recursos em um máximo de 5 cadernos identificados pela mesma etiqueta de sessão. Quando mais de 5 blocos de anotações são enviados com a mesma tag, o sistema criará automaticamente uma nova sessão de alta simultaneidade para hospedar as etapas subsequentes dos blocos de anotações. Isso permite dimensionamento e balanceamento de carga eficientes, distribuindo a carga de trabalho em várias sessões.

Monitorizar e depurar notebooks acionados por pipelines

O monitoramento e a depuração podem ser desafiadores quando vários blocos de anotações estão sendo executados em uma sessão compartilhada. No modo de alta simultaneidade, é fornecida a separação de registos, permitindo-lhe rastrear registos dos eventos do Spark para cada caderno individual.

  1. Quando a sessão estiver em andamento ou concluída, poderá visualizar o estado da sessão navegando até o menu Executar e selecionando a opção Todas as Execuções.

  2. Isso abre o histórico de execução do caderno com a lista de sessões Spark ativas e passadas.

    Captura de ecrã da página que mostra todas as execuções de um bloco de notas numa sessão de alta simultaneidade.

  3. Ao selecionar uma sessão, você pode acessar a exibição de detalhes de monitoramento, que exibe uma lista de todos os trabalhos do Spark executados nessa sessão.

  4. Para sessões de alta simultaneidade, pode identificar os trabalhos e os seus logs associados de diferentes blocos de anotações, usando a guia Notas Relacionadas, que mostra o bloco de anotações a partir do qual o trabalho foi executado.

    Captura de tela mostrando todos os blocos de anotações relacionados para sessão de alta simultaneidade na visualização de detalhes de monitoramento.