Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este cenário de exemplo demonstra um pipeline de dados que integra grandes quantidades de dados de várias fontes em uma plataforma de análise unificada no Azure. Esse cenário específico é baseado em uma solução de vendas e marketing, mas os padrões de design são relevantes para muitos setores que exigem análises avançadas de grandes conjuntos de dados, como comércio eletrônico, varejo e saúde.
Arquitetura
Baixe um arquivo Visio desta arquitetura.
Fluxo de dados
Os dados fluem através da solução da seguinte forma:
- Para cada fonte de dados, todas as atualizações são exportadas periodicamente para uma área de preparo no Armazenamento do Azure Data Lake.
- O Azure Data Factory carrega incrementalmente os dados do Armazenamento Azure Data Lake em tabelas de preparo no Azure Synapse Analytics. Os dados são limpos e transformados durante este processo. O PolyBase pode paralelizar o processo para grandes conjuntos de dados.
- Depois de carregar um novo lote de dados no depósito, um modelo de tabela do Azure Analysis Services criado anteriormente é atualizado. Esse modelo semântico simplifica a análise de dados e relacionamentos de negócios.
- Os analistas de negócios usam o Microsoft Power BI para analisar dados armazenados por meio do modelo semântico do Analysis Services.
Componentes
A empresa tem fontes de dados em muitas plataformas diferentes:
- SQL Server no local
- Oracle local
- Base de Dados SQL do Azure
- Armazenamento de tabelas do Azure
- Azure Cosmos DB
Os dados são carregados dessas diferentes fontes de dados usando vários componentes do Azure:
- O Data Lake Storage é um serviço de armazenamento de dados escalável para dados estruturados e não estruturados. Nessa arquitetura, ele prepara os dados de origem antes que o Azure Synapse Analytics carregue os dados. Ele serve como a zona de pouso inicial para dados brutos.
- O Azure Data Factory é um serviço de integração de dados baseado na nuvem. Nesta arquitetura, orquestra a transformação de dados em etapas numa estrutura comum no Azure Synapse Analytics. O Azure Data Factory usa o PolyBase quando carrega dados no Azure Synapse Analytics para maximizar a taxa de transferência.
- O Azure Synapse Analytics é um sistema de análise distribuído que combina big data e data warehousing. Nesta arquitetura. ele armazena e analisa grandes conjuntos de dados usando processamento paralelo maciço (MPP). Ele serve como o motor analítico central. O Azure Synapse Analytics pode usar o PolyBase para carregar rapidamente dados do Armazenamento Data Lake.
- O Analysis Services é uma plataforma totalmente gerenciada para criar modelos de dados semânticos. Nessa arquitetura, ele fornece um modelo semântico tabular que simplifica a análise de dados e melhora o desempenho da consulta. Ele pode ser configurado para ser atualizado após cada carregamento de dados no Azure Synapse Analytics para garantir insights de up-todata.
- O Power BI é um conjunto de ferramentas de análise de negócios para analisar dados e compartilhar insights. Nessa arquitetura, o Power BI permite que os analistas de negócios explorem e visualizem dados. Ele se conecta ao Analysis Services para consulta semântica ou diretamente ao Azure Synapse Analytics para acesso a dados brutos.
- O Microsoft Entra ID é um serviço de gerenciamento de identidade e acesso baseado em nuvem. Nessa arquitetura, ele autentica os usuários que se conectam ao servidor do Analysis Services por meio do Power BI. O Azure Data Factory também pode usar o Microsoft Entra ID para autenticar no Azure Synapse Analytics por meio de uma entidade de serviço ou identidade gerenciada para recursos do Azure.
Alternativas
O pipeline de exemplo inclui vários tipos diferentes de fontes de dados. Esta arquitetura pode lidar com uma vasta gama de fontes de dados relacionais e não relacionais.
O Data Factory orquestra os fluxos de trabalho para seu pipeline de dados. Se quiser carregar dados apenas uma vez ou sob demanda, você pode usar ferramentas como cópia em massa do SQL Server (bcp) e AzCopy para copiar dados para o Armazenamento do Azure Data Lake. Em seguida, você pode carregar os dados diretamente no Azure Synapse usando PolyBase.
Se tiver conjuntos de dados de grande escala, considere usar o Data Lake Storage, que oferece armazenamento ilimitado para dados analíticos.
O Azure Synapse não é adequado para cargas de trabalho OLTP ou conjuntos de dados com menos de 250 GB. Para esses casos, você deve usar o Banco de Dados SQL do Azure ou o SQL Server.
Para comparações de outras alternativas, consulte:
Detalhes do cenário
Este exemplo demonstra uma empresa de vendas e marketing que cria programas de incentivo. Esses programas recompensam clientes, fornecedores, vendedores e funcionários. Os dados são fundamentais para esses programas, e a empresa quer melhorar os insights obtidos por meio da análise de dados usando o Azure.
A empresa precisa de uma abordagem moderna para analisar dados, para que as decisões sejam tomadas com os dados certos no momento certo. Os objetivos da empresa incluem:
- Combinando diferentes tipos de fontes de dados em uma plataforma em escala de nuvem.
- Transformar os dados de origem numa taxonomia e estrutura comuns, para tornar os dados consistentes e facilmente comparáveis.
- Carregamento de dados usando uma abordagem altamente paralelizada que pode suportar milhares de programas de incentivo, sem os altos custos de implantação e manutenção da infraestrutura local.
- Reduzindo consideravelmente o tempo necessário para reunir e transformar dados, para que você possa se concentrar na análise dos dados.
Potenciais casos de utilização
Esta abordagem também pode ser utilizada para:
- Estabeleça um armazém de dados para ser uma única fonte de verdade para os seus dados.
- Integre fontes de dados relacionais com outros conjuntos de dados não estruturados.
- Use modelagem semântica e poderosas ferramentas de visualização para uma análise de dados mais simples.
Considerações
Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que você pode usar para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Well-Architected Framework.
As tecnologias desta arquitetura foram escolhidas porque atendiam aos requisitos de escalabilidade e disponibilidade da empresa, ao mesmo tempo em que as ajudavam a controlar os custos.
- A arquitetura de processamento paralelo maciço do Azure Synapse fornece escalabilidade e alto desempenho.
- O Azure Synapse garantiu contratos de nível de serviço (SLAs) e práticas recomendadas para alcançar alta disponibilidade.
- Quando a atividade de análise é baixa, a empresa pode dimensionar o Azure Synapse sob demanda, reduzindo ou até mesmo pausando a computação para reduzir custos.
- O Azure Analysis Services pode ser expandido para reduzir os tempos de resposta durante cargas de trabalho de consulta elevadas. Você também pode separar o processamento do pool de consultas, para que as consultas do cliente não sejam pelas operações de processamento.
- O Azure Analysis Services também tem SLAs garantidos e práticas recomendadas para alcançar alta disponibilidade.
- O modelo de segurança do Azure Synapse fornece segurança de conexão, autenticação e autorização por meio de autenticação e criptografia do Microsoft Entra ID ou SQL Server. O Azure Analysis Services usa a ID do Microsoft Entra para gerenciamento de identidade e autenticação de usuário.
Otimização de Custos
A Otimização de Custos concentra-se em formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Lista de verificação de revisão de design para otimização de custos.
Analise um exemplo de preço para um cenário de armazenamento de dados por meio da calculadora de preços do Azure. Ajuste os valores para ver como seus requisitos afetam seus custos.
- O Azure Synapse permite dimensionar seus níveis de computação e armazenamento de forma independente. Os recursos de computação são cobrados por hora, e você pode dimensionar ou pausar esses recursos sob demanda. Os recursos de armazenamento são cobrados por terabyte, portanto, seus custos aumentarão à medida que você ingerir mais dados.
- Os custos do Data Factory são baseados no número de operações de leitura/gravação, operações de monitoramento e atividades de orquestração executadas em uma carga de trabalho. Os custos da sua fábrica de dados aumentarão com cada fluxo de dados adicional e a quantidade de dados processados por cada um.
- O Analysis Services está disponível nas camadas Developer, Basic e Standard. O preço das instâncias é calculado com base nas unidades de processamento de consultas (QPUs) e na memória disponível. Para manter seus custos mais baixos, minimize o número de consultas executadas, a quantidade de dados que elas processam e a frequência com que são executadas.
- O Power BI tem diferentes opções de produto para diferentes requisitos. O Power BI Embedded fornece uma opção baseada no Azure para incorporar a funcionalidade do Power BI em seus aplicativos. Uma instância do Power BI Embedded está incluída no exemplo de definição de preço acima.
Contribuidores
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelo seguinte colaborador.
Autor principal:
- Alex Buck - Brasil | Desenvolvedor de Conteúdo Sênior
Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.
Próximos passos
Saiba mais sobre os serviços usados neste cenário: