Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Ao executar uma etapa de notebook em um pipeline, uma sessão do Apache Spark é iniciada e é usada para executar as consultas enviadas do notebook. Ao habilitar o modo de alta simultaneidade para pipelines, seus notebooks serão automaticamente empacotados nas sessões do Spark existentes.
Isso oferece funcionalidade de compartilhamento de sessão em todos os blocos de anotações dentro de um único limite de usuário. O sistema compacta automaticamente todos os notebooks em uma sessão de alta simultaneidade existente.
Observação
O compartilhamento de sessão com modo de alta simultaneidade está sempre dentro de um único limite de usuário. Para compartilhar uma única sessão do Spark, os notebooks devem ter configurações do Spark correspondentes, eles devem fazer parte do mesmo espaço de trabalho e compartilhar o mesmo lakehouse e bibliotecas padrão.
Condições de compartilhamento de sessão
Para que os notebooks compartilhem uma única sessão do Spark, eles devem:
- Ser executados pelo mesmo usuário.
- Ter o mesmo lakehouse padrão. Notebooks sem um lakehouse padrão podem compartilhar sessões com outros notebooks que não têm um lakehouse padrão.
- Ter as mesmas configurações de computação do Spark.
- Ter os mesmos pacotes de biblioteca. Você pode ter diferentes instalações de biblioteca embutida como parte das células do notebook e ainda compartilhar a sessão com notebooks que têm dependências de biblioteca diferentes.
Configurar o modo de alta simultaneidade
Os administradores do espaço de trabalho do Fabric podem habilitar o modo de alta simultaneidade para pipelines usando as configurações do espaço de trabalho. Use as seguintes etapas para configurar o recurso de alta simultaneidade:
Selecione a opção Configurações do workspace no workspace do Fabric.
Navegue até a seção Ciência/Engenharia de Dados, >Configurações do Spark>Alta simultaneidade.
Na seção Alta simultaneidade, habilite a configuração Para pipeline executando vários notebooks.
Habilitar a opção de alta simultaneidade permite que todas as sessões de notebook disparadas por pipelines como uma sessão de alta simultaneidade.
O sistema compacta automaticamente as sessões de notebook de entrada para sessões ativas de alta simultaneidade. Se não houver sessões de alta simultaneidade ativas, uma nova sessão de alta simultaneidade será criada e os notebooks simultâneos enviados serão compactados na nova sessão.
Usar marca de sessão no notebook para agrupar sessões compartilhadas
Navegue até seu workspace, selecione o botão Novo item e crie um novo Pipeline.
Navegue até o guia Atividades na faixa de opções do menu e adicione uma atividade do Notebook.
Nas configurações avançadas, especifique qualquer valor de cadeia de caracteres para a propriedade de marca de sessão.
Depois que a marca de sessão é adicionada, o compartilhamento de notebook usa essa marca como critérios correspondentes agrupando todos os notebooks com a mesma marca de sessão.
Observação
Para otimizar o desempenho, uma única sessão de alta simultaneidade pode compartilhar recursos em um máximo de cinco notebooks identificados pela mesma tag de sessão. Quando mais de 5 notebooks são enviados com a mesma etiqueta, o sistema criará automaticamente uma nova sessão de alta concorrência para hospedar os passos subsequentes dos notebooks. Isso permite dimensionamento eficiente e balanceamento de carga distribuindo a carga de trabalho em várias sessões.
Monitorar e depurar notebooks disparados por pipelines
O monitoramento e a depuração podem ser desafiadores quando vários notebooks estão em execução em uma sessão compartilhada. No modo de alta simultaneidade, a separação de log é fornecida, permitindo rastrear logs de eventos do Spark para cada notebook individual.
Quando a sessão estiver em andamento ou em estado concluído, você poderá exibir o status da sessão navegando até o menu Executar e selecionando a opção Todas as Execuções.
Isso abre o histórico de execuções do notebook com a lista de sessões ativas e históricas atuais do Spark.
Ao selecionar uma sessão, você poderá acessar o modo de exibição de detalhes de monitoramento, que exibe uma lista de todos os trabalhos do Spark executados nessa sessão.
Para sessão de alta simultaneidade, você poderá identificar os trabalhos e seus logs associados de blocos de anotações diferentes usando o guia Notebook relacionado, que mostra o notebook a partir do qual o trabalho foi executado.
Conteúdo relacionado
- Para saber mais sobre o modo de alta simultaneidade no Microsoft Fabric, confira Modo de alta simultaneidade no Apache Spark para Fabric.
- Para começar a usar o modo de alta simultaneidade em notebooks, confira Configurar o modo de alta simultaneidade para notebooks do Fabric.