Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este cenário de exemplo demonstra um pipeline de dados que integra a grandes quantidades de dados de várias fontes em uma plataforma de análise unificada no Azure. Este cenário específico se baseia em uma solução de vendas e marketing, mas os padrões de design são relevantes para muitos setores que exigem análise avançada de grandes conjuntos de dados, como serviços de saúde, varejo e comércio eletrônico.
Arquitetura
Baixe um arquivo do Visio dessa arquitetura.
Fluxo de dados
Os dados fluem pela solução da seguinte maneira:
- Para cada fonte de dados, todas as atualizações são exportadas periodicamente para uma área de preparo no Azure Data Lake Storage.
- O Azure Data Factory carrega incrementalmente os dados do Azure Data Lake Storage em tabelas de preparo no Azure Synapse Analytics. Os dados são limpos e transformados durante esse processo. O PolyBase pode paralelizar o processo para grandes conjuntos de dados.
- Depois de carregar um novo lote de dados no warehouse, um modelo de tabela do Azure Analysis Services criado anteriormente é atualizado. Este modelo semântico simplifica a análise de dados de negócios e relações.
- Os analistas de negócios usam o Microsoft Power BI para analisar os dados escalonados por meio do modelo semântico do Analysis Services.
Componentes
A empresa tem fontes de dados em várias plataformas diferentes:
- SQL Server local
- Oracle local
- Banco de Dados SQL do Azure
- Armazenamento de tabelas do Azure
- Azure Cosmos DB
Os dados são carregados destas fontes de dados diferentes usando diversos componentes do Azure:
- O Data Lake Storage é um serviço de armazenamento de dados escalonável para dados estruturados e não estruturados. Nessa arquitetura, ele prepara os dados de origem antes que o Azure Synapse Analytics carregue os dados. Ele serve como a zona de destino inicial para dados brutos.
- O Azure Data Factory é um serviço de integração de dados baseado em nuvem. Nessa arquitetura, ele orquestra a transformação de dados em etapas em uma estrutura comum no Azure Synapse Analytics. O Azure Data Factory usa o PolyBase quando carrega dados no Azure Synapse Analytics para maximizar a taxa de transferência.
- O Azure Synapse Analytics é um sistema de análise distribuída que combina Big Data e data warehousing. Nesta arquitetura. armazena e analisa grandes conjuntos de dados usando MPP (processamento paralelo maciço). Ele serve como o mecanismo analítico principal. O Azure Synapse Analytics pode usar o PolyBase para carregar dados rapidamente do Data Lake Storage.
- O Analysis Services é uma plataforma totalmente gerenciada para a criação de modelos de dados semânticos. Nessa arquitetura, ele fornece um modelo semântico tabular que simplifica a análise de dados e melhora o desempenho da consulta. Ele pode ser configurado para atualizar após cada carregamento de dados no Azure Synapse Analytics para garantir up-toinsights de data.
- O Power BI é um conjunto de ferramentas de análise de negócios para analisar dados e compartilhar insights. Nessa arquitetura, o Power BI permite que analistas de negócios explorem e visualizem dados. Ele se conecta ao Analysis Services para consulta semântica ou diretamente ao Azure Synapse Analytics para acesso bruto a dados.
- Microsoft Entra ID é um serviço de gerenciamento de identidade e acesso baseado em nuvem. Nessa arquitetura, ele autentica os usuários que se conectam ao servidor do Analysis Services por meio do Power BI. O Azure Data Factory também pode usar a ID do Microsoft Entra para autenticar no Azure Synapse Analytics por meio de uma entidade de serviço ou identidade gerenciada para recursos do Azure.
Alternativas
O pipeline de exemplo inclui vários tipos diferentes de fontes de dados. Essa arquitetura pode lidar com uma ampla gama de fontes de dados relacionais e não relacionais.
O Data Factory coordena os fluxos de trabalho para o pipeline de dados. Se você quiser carregar dados apenas uma vez ou sob demanda, poderá usar ferramentas como a cópia em massa (bcp) do SQL Server e do AzCopy para copiar dados no Azure Data Lake Storage. Em seguida, é possível carregar os dados diretamente no Synapse Analytics usando o PolyBase.
Se você tiver conjuntos de dados em grande escala, considere o uso do Data Lake Storage, que fornece armazenamento ilimitado para dados de análise.
O Azure Synapse não é uma boa opção para cargas de trabalho OLTP ou conjuntos de dados menores que 250 GB. Para esses casos, você deve usar o banco de dados SQL do Azure ou o SQL Server.
Para comparações de outras alternativas, consulte:
Detalhes do cenário
Este exemplo demonstra uma empresa de vendas e marketing que cria programas de incentivo. Esses programas recompensam os clientes, fornecedores, vendedores e funcionários. Os dados são fundamentais para esses programas e a empresa deseja melhorar as informações obtidas por meio da análise de dados usando o Azure.
A empresa precisa de uma abordagem moderna para analisar dados, para que as decisões sejam tomadas usando os dados certos no momento certo. As metas da empresa incluem:
- Combinar tipos diferentes de fontes de dados em uma plataforma em escala de nuvem.
- Transformar os dados de origem em uma estrutura e taxonomia comum, para deixar os dados consistentes e facilitar a comparação.
- Carregar os dados usando uma abordagem altamente paralelizada que pode dar suporte a milhares de programas de incentivo, sem os altos custos de implantação e manutenção de infraestrutura local.
- Reduzir significativamente o tempo necessário para reunir e transformar dados, para que você possa se concentrar na análise de dados.
Possíveis casos de uso
Essa abordagem também pode ser usada para:
- Estabeleça um data warehouse para ser a única fonte de verdade para seus dados.
- Integre as fontes de dados relacionais com outros conjuntos de dados não estruturados.
- Use a modelagem semântica e as ferramentas de visualização poderosas para uma análise de dados mais simples.
Considerações
Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que você pode usar para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Well-Architected Framework.
As tecnologias nesta arquitetura foram escolhidas porque atendem aos requisitos de escalabilidade e disponibilidade da empresa, e ao mesmo tempo, ajudam a controlar os custos.
- A arquitetura de processamento paralelo maciço do Azure Synapse fornece escalabilidade e alto desempenho.
- O Azure Synapse tem SLAs (contratos de nível de serviço) garantidos e práticas recomendadas para alcançar alta disponibilidade.
- Quando a atividade de análise é baixa, a empresa pode dimensionar o Azure Synapse sob demanda, reduzindo ou até pausando a computação para reduzir os custos.
- O Azure Analysis Services pode ser dimensionado para reduzir os tempos de resposta durante cargas de trabalho de consulta altas. Também é possível separar o processamento do pool de consultas, para que as consultas de clientes não fiquem mais lentas devido às operações de processamento.
- O Azure Analysis Services também tem SLAs garantidos e práticas recomendadas para obter alta disponibilidade.
- O modelo de segurança do Azure Synapse fornece segurança de conexão, autenticação e autorização por meio da ID do Microsoft Entra ou da autenticação do SQL Server e da criptografia. O Azure Analysis Services usa a ID do Microsoft Entra para gerenciamento de identidade e autenticação de usuário.
Otimização de custos
A Otimização de Custos concentra-se em maneiras de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte a lista de verificação de revisão de design para Otimização de Custos.
Examine um exemplo de preços para um cenário de data warehouse por meio da calculadora de preços do Azure. Ajuste os valores para ver como seus requisitos afetam os custos.
- O Azure Synapse permite dimensionar seus níveis de computação e armazenamento de forma independente. Os recursos de computação são cobrados por hora e você pode dimensioná-los ou interrompê-los sob demanda. Os recursos de armazenamento são cobrados por terabyte, assim seus custos aumentam à medida que você insere mais dados.
- Os custos do Data Factory são baseados no número de operações de leitura/gravação, operações de monitoramento e atividades de orquestração executadas em uma carga de trabalho. Os custos de Data Factory aumentam com cada fluxo de dados adicional e a quantidade de dados processados por cada um.
- O Analysis Services está disponível nas camadas Developer, Basic e Standard. As instâncias são cobradas com base em QPUs (unidades de processamento de consulta) e na memória disponível. Para manter os custos reduzidos, minimize o número de consultas executadas, a quantidade de dados processada e a frequência de execução.
- O Power BI tem diferentes opções de produto para requisitos diferentes. O Power BI Embedded fornece uma opção baseada no Azure para inserir a funcionalidade do Power BI em seus aplicativos. Uma instância do Power BI Embedded está incluída no exemplo de preço acima.
Colaboradores
Esse artigo é mantido pela Microsoft. Ele foi escrito originalmente pelos colaboradores a seguir.
Autor principal:
- Alex Buck | Desenvolvedor sênior de conteúdo
Para ver perfis não públicos do LinkedIn, entre no LinkedIn.
Próximas etapas
Examine o design da arquitetura de bancos de dados.
Saiba mais sobre os serviços usados neste cenário: