Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Nota
Este artigo faz parte da série de artigos Sucesso da Implementação do Azure Synapse por Design. Para obter uma visão geral da série, consulte o artigo Sucesso na implementação do Azure Synapse por design.
O Azure Synapse Analytics contém o mesmo mecanismo de integração de dados e experiências que o Azure Data Factory (ADF), permitindo que você crie pipelines de ETL avançados em escala sem sair do Azure Synapse Analytics.
Este artigo descreve como avaliar o design dos componentes de integração de dados para seu projeto. Especificamente, ele ajuda você a determinar se os pipelines do Azure Synapse são os mais adequados para seus requisitos de integração de dados. O tempo investido na avaliação do projeto antes do desenvolvimento da solução pode ajudar a eliminar alterações inesperadas no projeto que podem afetar o cronograma ou o custo do projeto.
Análise de lacunas de adequação
Você deve realizar uma análise completa de lacunas de ajuste de sua estratégia de integração de dados. Se você escolher os pipelines do Azure Synapse como a ferramenta de integração de dados, revise os pontos a seguir para garantir que eles sejam os mais adequados para seus requisitos de integração de dados e orquestração. Mesmo se você escolher diferentes ferramentas de integração de dados, você ainda deve revisar os seguintes pontos para validar que todos os principais pontos de design foram considerados e que a ferramenta escolhida dará suporte às suas necessidades de solução. Essas informações devem ter sido capturadas durante a avaliação realizada anteriormente nesta metodologia.
- Revise as suas fontes de dados e destinos (alvos)
- Valide que as lojas de dados de origem e destino são armazenamentos de dados suportados.
- Se não forem suportados, verifique se pode utilizar as opções extensíveis.
- Analise os pontos de desencadeamento da sua integração de dados e a frequência:
- Os pipelines do Azure Synapse suportam gatilhos de programação, janelas deslizantes, e eventos de armazenamento.
- Valide o intervalo mínimo de recorrência e os eventos de armazenamento suportados em relação às suas necessidades.
- Analise os modos necessários de integração de dados:
- O processamento em lote agendado, periódico e acionado pode ser projetado de forma eficaz nos pipelines do Azure Synapse.
- Para implementar a funcionalidade Change Data Capture (CDC), use produtos de terceiros ou crie uma solução personalizada.
- Para dar suporte ao streaming em tempo real, use os Hubs de Eventos do Azure, os Hubs de Eventos do Azure do Apache Kafka ou o Hub IoT do Azure.
- Para executar pacotes do Microsoft SQL Server Integration Services (SSIS), você pode elevar e deslocar cargas de trabalho do SSIS para a nuvem.
- Analise o design de computação:
- A computação necessária para os pipelines precisa ser sem servidor ou provisionada?
- Os pipelines do Azure Synapse dão suporte a ambos os modos de tempo de execução de integração (IR): sem servidor ou auto-hospedado em uma máquina Windows.
- Valide portas e firewalls e configurações de proxy ao usar o IR autogerido (provisionado).
- Analise os requisitos de segurança, a configuração de rede e firewall do ambiente e compare-os com o design de configuração de segurança, rede e firewall:
- Analise como as fontes de dados são protegidas e conectadas em rede.
- Analise como os armazenamentos de dados de destino estão protegidos e ligados em rede. Os pipelines do Azure Synapse têm diferentes estratégias de acesso a dados que fornecem uma maneira segura de conectar armazenamentos de dados por meio de pontos de extremidade privados ou redes virtuais.
- Use o Azure Key Vault para armazenar credenciais sempre que aplicável.
- Use o ADF para a encriptação de credenciais com chave gerida pelo cliente (CMK) e armazene-as no IR auto-hospedado.
- Revise o design para monitoramento contínuo de todos os componentes de integração de dados.
Considerações sobre arquitetura
Ao analisar o design de integração de dados, considere as seguintes recomendações e diretrizes para garantir que os componentes de integração de dados de sua solução forneçam excelência operacional contínua, eficiência de desempenho, confiabilidade e segurança.
Excelência operacional
Para excelência operacional, avalie os seguintes pontos.
- Ambiente: Ao planejar seus ambientes, separe-os por desenvolvimento/teste, teste de aceitação do usuário (UAT) e produção. Use as opções organizacionais da pasta para organizar os seus pipelines e datasets por tarefas empresariais/ETL de forma a suportar uma melhor manutenção. Use anotações para etiquetar os teus pipelines para que possas monitorizá-los facilmente. Crie pipelines reutilizáveis usando parâmetros, iteração e atividades condicionais.
- Monitoramento e alerta: os espaços de trabalho do Synapse incluem o Monitor Hub, que possui informações de monitoramento avançadas de cada pipeline executado. Ele também se integra ao Log Analytics para análise e alertas de log adicionais. Você deve implementar esses recursos para fornecer notificações de erro proativas. Além disso, utilize os caminhos Upon Failure para implementar tratamento de erros personalizado .
- Implantação e teste automatizados: os pipelines do Azure Synapse são incorporados no ambiente de trabalho Synapse, para que se possa tirar partido da automação e da implantação do ambiente de trabalho. Use modelos ARM para minimizar as atividades manuais ao criar espaços de trabalho Synapse. Além disso, integre espaços de trabalho Synapse com o Azure DevOps para criar controle de versão de código e automatizar a publicação.
Eficiência de desempenho
Para eficiência de desempenho, avalie os seguintes pontos.
- Siga as orientações de desempenho e os recursos de otimização ao trabalhar com a atividade de cópia.
- Escolha conectores otimizados para transferência de dados em vez de conectores genéricos. Por exemplo, use PolyBase em vez de realizar uma inserção em massa ao mover dados do Azure Data Lake Storage Gen2 (ALDS Gen2) para um pool SQL dedicado.
- Ao criar um novo IR (Runtime de Integração) do Azure, defina a localização da região como auto-resolver ou selecione a mesma região que os armazenamentos de dados.
- Para IR auto-hospedado, escolha o tamanho da máquina virtual (VM) do Azure com base nos requisitos de integração.
- Escolha uma conexão de rede estável, como o Azure ExpressRoute, para uma largura de banda rápida e consistente.
Fiabilidade
Quando você executa um pipeline usando o IR do Azure, ele é sem servidor por natureza e, portanto, fornece resiliência pronta para uso. Há pouco para os clientes gerenciarem. No entanto, quando um pipeline é executado em um IR auto-hospedado, recomendamos que você o execute usando uma configuração de alta disponibilidade nas VMs do Azure. Essa configuração garante que os pipelines de integração não sejam quebrados, mesmo quando uma VM fica offline. Além disso, recomendamos que você use o Azure ExpressRoute para uma conexão de rede rápida e confiável entre o local e o Azure.
Segurança
Uma plataforma de dados segura é um dos principais requisitos de todas as organizações. Você deve planejar completamente a segurança para toda a plataforma, em vez de componentes individuais. Aqui estão algumas diretrizes de segurança para soluções de pipeline do Azure Synapse.
- Proteja a movimentação de dados para a nuvem usando endereços privados do Azure Synapse.
- Use identidades gerenciadas do Microsoft Entra para autenticação.
- Use o RBAC (controle de acesso baseado em função) do Azure e o Synapse RBAC para autorização.
- Armazene credenciais, segredos e chaves no Cofre de Chaves do Azure em vez de no pipeline. Para mais informações, consulte Utilizar segredos do Cofre de Chaves do Azure em atividades de pipeline.
- Conecte-se a recursos locais por meio do Azure ExpressRoute ou VPN sobre endpoints privados.
- Habilite as opções Saída segura e Entrada segura em atividades de pipeline quando os parâmetros armazenarem segredos ou senhas.
Próximos passos
No próximo artigo da série Azure Synapse success by design, saiba como avaliar seu design de pool SQL dedicado para identificar problemas e validar se ele atende às diretrizes e requisitos.