Partilhar via


Escolher um armazenamento de dados analíticos no Azure

Em uma arquitetura de big data , muitas vezes há a necessidade de um armazenamento de dados analíticos que sirva dados processados em um formato estruturado que possa ser consultado usando ferramentas analíticas. Os armazenamentos de dados analíticos que suportam a consulta de dados de caminho quente e de caminho frio são coletivamente chamados de camada de serviço ou armazenamento de serviço de dados.

A camada de distribuição lida com dados processados tanto do caminho quente quanto do caminho frio. Na arquitetura do Lambda, a camada de serviço é subdividida em duas camadas. A camada de serviço de velocidade contém os dados processados incrementalmente. A camada de serviço em lote contém a saída processada em lote. A camada de serviço requer um forte suporte para leituras aleatórias com baixa latência. O armazenamento de dados para a camada de velocidade também deve suportar gravações aleatórias porque o carregamento de dados em lote neste armazenamento introduz atrasos indesejados. Como alternativa, o armazenamento de dados para a camada em lote precisa suportar gravações em lote, não gravações aleatórias.

Não há uma única e melhor opção de gerenciamento de dados para todas as tarefas de armazenamento de dados. Diferentes soluções de gerenciamento de dados são otimizadas para diferentes tarefas. A maioria dos aplicativos de nuvem do mundo real e processos de big data têm vários requisitos de armazenamento de dados e geralmente usam uma combinação de soluções de armazenamento de dados.

Soluções analíticas modernas, como o Microsoft Fabric, fornecem uma plataforma abrangente que integra vários serviços e ferramentas de dados para atender a diversas necessidades analíticas. O Fabric inclui o OneLake, que é um data lake lógico único e unificado para toda a sua organização. O OneLake foi projetado para armazenar, gerenciar e proteger todos os dados organizacionais em um único local. Essa flexibilidade permite que sua organização atenda a uma ampla gama de requisitos de armazenamento e processamento de dados.

Escolha um armazenamento de dados analíticos

Há várias opções para armazenamento de serviço de dados no Azure, dependendo das suas necessidades:

Os seguintes modelos de banco de dados são otimizados para diferentes tipos de tarefas:

  • Os bancos de dados de chave-valor armazenam um único objeto serializado para cada valor de chave. Eles são adequados para gerenciar grandes volumes de dados quando a recuperação é baseada em uma chave específica, sem a necessidade de consultar outras propriedades de item.

  • Os bancos de dados de documentos são bancos de dados chave-valor nos quais os valores são documentos. Neste contexto, um documento é uma coleção de campos nomeados e valores. O banco de dados normalmente armazena os dados em um formato como XML, YAML, JSON ou JSON binário, mas pode usar texto sem formatação. Os bancos de dados de documentos podem consultar em campos não-chave e definir índices secundários para melhorar a eficiência da consulta. Esse recurso torna um banco de dados de documentos mais adequado para aplicativos que precisam recuperar dados com base em critérios mais complexos do que o valor da chave do documento. Por exemplo, você pode consultar campos como ID do produto, ID do cliente ou nome do cliente.

  • Os bancos de dados de armazenamento de colunas são armazenamentos de dados de chave-valor que armazenam cada coluna separadamente no disco. Um banco de dados de armazenamento de coluna ampla é um tipo de banco de dados de armazenamento de coluna que armazena famílias de colunas, não apenas colunas únicas. Por exemplo, um banco de dados de censo pode ter uma família de colunas separada para cada um dos seguintes itens:

    • Os nomes de batismo, segundo nome e apelido de uma pessoa

    • Endereço dessa pessoa

    • Informações do perfil dessa pessoa, como data de nascimento ou sexo

    O banco de dados pode armazenar cada família de colunas em uma partição separada, mantendo todos os dados de uma pessoa relacionados à mesma chave. Uma aplicação pode ler uma única família de colunas sem examinar todos os dados de uma entidade.

  • Os bancos de dados gráficos armazenam informações como uma coleção de objetos e relações. Um banco de dados gráfico pode executar com eficiência consultas que atravessam a rede de objetos e as relações entre eles. Por exemplo, os objetos podem ser funcionários em um banco de dados de recursos humanos, e você pode querer facilitar consultas como "encontrar todos os funcionários que trabalham direta ou indiretamente para Scott".

  • Telemetria e bases de dados de séries temporais são uma coleção de objetos de apenas acréscimo. As bases de dados de telemetria indexam dados de forma eficiente em várias estruturas de colunas e na memória. Essa capacidade os torna a escolha ideal para armazenar e analisar grandes quantidades de dados de telemetria e séries temporais.

O Fabric suporta vários modelos de banco de dados, incluindo chave-valor, documento, armazenamento de colunas, gráficos e bancos de dados de telemetria. Essa flexibilidade garante escalabilidade para uma ampla gama de tarefas analíticas. Para escolher o armazenamento de dados de malha certo para suas cargas de trabalho analíticas, consulte Guia de decisão de malha: escolha um armazenamento de dados.

Principais critérios de seleção

Para refinar o processo de seleção, considere os seguintes critérios:

  • Você precisa de armazenamento de acesso rápido que possa servir como um canal rápido para os seus dados? Se sim, restrinja as suas opções para aquelas que são otimizadas para uma camada de resposta rápida.

  • Você precisa de suporte de processamento paralelo massivo, onde as consultas são distribuídas automaticamente em vários processos ou nós? Em caso afirmativo, selecione uma opção que ofereça suporte à expansão da consulta.

  • Você prefere usar um armazenamento de dados relacional? Se você fizer isso, restrinja suas opções para aquelas que têm um modelo de banco de dados relacional. No entanto, alguns repositórios não relacionais oferecem suporte à sintaxe SQL para consulta, e ferramentas como o SQL Endpoint podem ser usadas para consultar armazenamentos de dados não relacionais, como o OneLake.

  • Recolhem dados de séries cronológicas? Você utiliza dados de adição apenas? O Fabric OneLake oferece suporte a vários mecanismos analíticos, incluindo Analysis Services, T-SQL e Apache Spark. O Fabric Eventhouse o torna adequado para várias necessidades de processamento e consulta de dados de séries cronológicas.

Matriz de capacidades

As tabelas a seguir resumem as principais diferenças nos recursos desses serviços gerenciados.

Capacidades gerais

Capacidade Fabric Lakehouse Armazém de Tecidos Fabric Espaço de Eventos Banco de dados SQL Fabric Base de Dados SQL do Azure Azure Cosmos DB Analysis Services
Modelo de banco de dados primário Formato unificado de data lake, relacional e gerido pelo utilizador, usando Apache Parquet Data lake unificado, relacional, formato delta lake gerenciado pelo sistema usando apache parquet Armazenamento de dados orientado a apêndice de séries temporais, gráfico, vetor Relacional (formato de armazenamento em colunas quando se usam índices columnstore) Relacional (formato de armazenamento em colunas quando se usam índices columnstore) Armazenamento de documentos, gráfico, armazenamento de chave-valor, armazenamento de colunas amplas Modelos semânticos tabulares
Suporte à linguagem SQL Sim1 Sim Sim2 Sim Sim Sim Não
Otimizado para a camada de fornecimento rápido Sim Sim Sim3 Sim4 Sim5 Sim Não

[1] T-SQL via SQL Analytics Endpoint.

[2] O KQL tem suporte parcial à linguagem T-SQL.

[3] Suporta ingestão em fila e ingestão por streaming.

[4] Suporta precisão transacional com acesso de baixa latência e atualizações em tempo real.

[5] Usando tabelas com otimização de memória e índices hash ou não clusterizados.

Recursos de escalabilidade

Capacidade Fabric Lakehouse Armazém de Tecidos Fabric Espaço de Eventos Banco de dados SQL Fabric Base de Dados SQL do Azure Azure Cosmos DB Analysis Services
Servidores regionais redundantes para alta disponibilidade Sim1,2 Sim1,2 Sim Sim Sim Sim Sim
Suporta expansão de consulta Sim3 Sim4 Sim5 Sim Não Sim Sim
Escalabilidade dinâmica (escalar verticalmente) Sim3 Sim4 Sim5 Sim Sim Sim Sim
Suporta cache de dados na memória Sim6 Sim6 Sim7 Sim Sim Sim Não

[1] Os endpoints SQL são encaminhados por meio de gestores de tráfego globais, mas os dados são sempre processados na região de capacidade Fabric atribuída.

[2] Lakehouse e Warehouse armazenam dados no OneLake usando o formato Delta Parquet, que suporta consulta e replicação entre mecanismos.

[3] A Lakehouse suporta expansão baseada no Spark para dados estruturados e não estruturados.

[4] O Warehouse utiliza T-SQL e suporta transações multi-tabelas, gestão autónoma de carga de trabalho e processamento distribuído de consultas (DQP). O DQP atua como um gerenciador de cluster, alocando dinamicamente recursos de computação com base na complexidade da consulta.

[5] O Eventhouse suporta KQL e federação SQL, permitindo análises em tempo real em várias fontes, bem como aumentar os recursos de computação se a utilização de cache quente exceder ~95%.

[6] Cache inteligente para trabalhos Spark, cache na memória, cache de conjunto de resultados para pontos finais de análise SQL.

[7] Os dados frequentemente acedidos são armazenados numa cache quente que inclui armazenamento na memória e SSD.

Funcionalidades de segurança

Capacidade Fabric Lakehouse Armazém de Tecidos Fabric Espaço de Eventos Banco de dados SQL Fabric Base de Dados SQL do Azure Azure Cosmos DB Analysis Services
Autenticação Microsoft Entra ID Microsoft Entra ID Microsoft Entra ID Microsoft Entra ID SQL ou Microsoft Entra ID Usuários de banco de dados ou Microsoft Entra ID via controle de acesso (gerenciamento de identidade e acesso) Microsoft Entra ID
Encriptação de dados em repouso Sim Sim Sim Sim Sim1 Sim Sim
Segurança ao nível da linha Sim Sim Sim Sim Sim Não Sim
Suporta firewalls Sim2 Sim2 Sim3 Sim Sim Sim Sim
Máscara de dados dinâmica Sim4 Sim4 Não Sim Sim Não Não

[1] Requer que utilize encriptação de dados transparente para encriptar e desencriptar os seus dados em repouso.

[2] Os Links Privados e o Acesso Condicional Entra podem ser usados para restringir o acesso aos recursos do Fabric.

[3] As cargas de trabalho do Fabric Eventhouse e do Real-Time Intelligence podem ingerir dados de fontes seguras como Kafka, Hubs de Eventos do Azure e AMQP, com roteamento por meio de pontos de extremidade seguros.

** [4] Pode ser aplicado ao nível do Fabric SQL Endpoint

Contribuidores

A Microsoft mantém este artigo. Os seguintes colaboradores escreveram este artigo.

Principais autores:

Para ver perfis não públicos do LinkedIn, faça login no LinkedIn.

Próximos passos