Escolha uma tecnologia de armazenamento de big data no Azure

Este artigo compara opções de armazenamento de dados para soluções de big data — especificamente, armazenamento de dados para ingestão de dados em massa e processamento em lote, em oposição a armazenamentos de dados analíticos ou ingestão de streaming em tempo real.

Quais são suas opções ao escolher o armazenamento de dados no Azure?

Há várias opções para ingerir dados no Azure, dependendo das suas necessidades.

Data lake lógico unificado:

OneLake no Microsoft Fabric

Armazenamento de ficheiros:

Blobs de Armazenamento do Azure
Azure Data Lake Storage Gen2 (Armazenamento do Azure Data Lake Gen2)

Bases de dados NoSQL:

Bases de dados analíticas:

Azure Data Explorer

OneLake em tecido

O OneLake in Fabric é um data lake unificado e lógico adaptado para toda a organização. Ele serve como o hub central para todos os dados de análise e está incluído em todos os locatários do Microsoft Fabric. O OneLake in Fabric foi construído com base no Data Lake Storage Gen2.

OneLake em Tecido:

Suporta tipos de arquivos estruturados e não estruturados.
Armazena todos os dados tabulares no formato Delta Parquet.
Fornece um único data lake dentro dos limites do locatário que é governado por padrão.
Suporta a criação de espaços de trabalho dentro de um locatário para que uma organização possa distribuir políticas de propriedade e acesso.
Suporta a criação de vários itens de dados, como lakehouses e armazéns, a partir dos quais você pode acessar dados.

O OneLake in Fabric serve como o local de armazenamento comum para ingestão, transformação, insights em tempo real e visualizações de business intelligence. Ele centraliza vários serviços do Fabric e armazena itens de dados que todas as cargas de trabalho usam no Fabric. Para escolher o armazenamento de dados certo para suas cargas de trabalho do Fabric, consulte Guia de decisão do Fabric: escolha um armazenamento de dados.

Blobs de Armazenamento do Azure

O Armazenamento do Azure é um serviço de armazenamento gerenciado que é altamente disponível, seguro, durável, escalável e redundante. A Microsoft trata da manutenção e resolve os problemas críticos por si. O Armazenamento do Azure é a solução de armazenamento mais ubíqua que o Azure fornece, devido ao número de serviços e ferramentas que podem ser usados com ele.

Há vários serviços de Armazenamento do Azure que você pode usar para armazenar dados. A opção mais flexível para armazenar blobs de muitas fontes de dados é o armazenamento de Blobs. Blobs são basicamente arquivos. Eles armazenam imagens, documentos, arquivos HTML, discos rígidos virtuais (VHDs), big data, como logs, backups de bancos de dados — praticamente qualquer coisa. Os blobs são armazenados em contentores, que são semelhantes a pastas. Um contêiner fornece um agrupamento de um conjunto de blobs. Uma conta de armazenamento pode conter um número ilimitado de contentores, e um contentor pode armazenar um número ilimitado de blobs.

O Armazenamento do Azure é uma boa opção para soluções de big data e análise, devido à sua flexibilidade, alta disponibilidade e baixo custo. Ele fornece níveis de armazenamento quentes, frescos e arquivados para diferentes casos de uso. Para obter mais informações, consulte Armazenamento de Blob do Azure: camadas de armazenamento quentes, frias e de arquivamento.

O armazenamento de Blob do Azure pode ser acessado do Hadoop (disponível por meio do HDInsight). O HDInsight pode utilizar um contentor de blobs no Armazenamento do Azure como o sistema de ficheiros predefinido para o cluster. Por meio de uma interface HDFS (Hadoop Distributed File System) fornecida por um driver WASB, o conjunto completo de componentes do HDInsight pode operar diretamente em dados estruturados ou não estruturados armazenados como blobs. O armazenamento Azure Blob também pode ser acedido através de um atalho Microsoft Fabric Blob Storage.

Outros recursos que tornam o Armazenamento do Azure uma boa escolha são:

Múltiplas estratégias de concorrência.
Opções de recuperação de desastres e alta disponibilidade.
Encriptação em repouso.
RBAC (controle de acesso baseado em função) do Azure para controlar o acesso usando usuários e grupos do Microsoft Entra.

Data Lake Storage Gen2

O Data Lake Storage Gen2 é um repositório único e centralizado onde você pode armazenar todos os seus dados, estruturados e não estruturados. Um data lake permite à sua organização armazenar, aceder e analisar rapidamente e de forma mais fácil uma vasta gama de dados num único local. Com um data lake, você não precisa adaptar seus dados para se adequar a uma estrutura existente. Em vez disso, você pode armazenar seus dados em seu formato bruto ou nativo, geralmente como arquivos ou como objetos binários grandes (blobs).

O Data Lake Storage Gen2 converge os recursos do Azure Data Lake Storage Gen1 com o Azure Blob Storage. Por exemplo, o Data Lake Storage Gen2 fornece semântica do sistema de arquivos, segurança no nível de arquivo e escala. Como esses recursos são construídos sobre o armazenamento Blob, também obténs armazenamento escalonado de baixo custo, com capacidades de alta disponibilidade e recuperação de desastres.

O Data Lake Storage Gen2 torna o Armazenamento do Azure a base para a criação de data lakes corporativos no Azure. Projetado desde o início para atender a vários petabytes de informações enquanto sustenta centenas de gigabits de taxa de transferência, o Data Lake Storage Gen2 permite que você gerencie facilmente grandes quantidades de dados.

Azure Cosmos DB

O Azure Cosmos DB é o banco de dados multimodelo distribuído globalmente da Microsoft. O Azure Cosmos DB garante latências de milissegundos de um dígito no percentil 99 em qualquer lugar do mundo, fornece vários modelos de consistência bem definidos para otimizar o desempenho e garante alta disponibilidade com capacidades de multi-homing.

O Azure Cosmos DB é independente do esquema. Indexa automaticamente todos os dados sem ser necessário lidar com a gestão de esquema e índice. Também é multimodelo, suportando nativamente modelos de dados de documento, chave-valor, grafos e famílias de colunas.

Recursos do Azure Cosmos DB:

HBase no HDInsight

O Apache HBase é um banco de dados NoSQL de código aberto que é construído no Hadoop e modelado de acordo com o Google BigTable. O HBase fornece acesso aleatório e forte consistência para grandes quantidades de dados não estruturados e semiestruturados em um banco de dados sem esquema organizado por famílias de colunas.

Os dados são armazenados nas linhas de uma tabela e os dados de uma linha são agrupados por família de colunas. O HBase é sem esquema no sentido em que não precisa de definir as colunas e o tipo de dados armazenados nelas antes de as usar. O código open source é dimensionado linearmente para processar petabytes de dados em milhares de nós. Pode depender da redundância de dados, do processamento em lotes e de outras funcionalidades fornecidas por aplicações distribuídas do ecossistema do Hadoop.

A implementação do HDInsight usa a arquitetura de expansão do HBase para fornecer fragmentação automática de tabelas, forte consistência para leituras e gravações e failover automático. O desempenho é melhorado graças ao armazenamento em cache na memória para as leituras e à transmissão de alta capacidade para as escritas. Na maioria dos casos, você deseja criar o cluster HBase dentro de uma rede virtual para que outros clusters e aplicativos HDInsight possam acessar diretamente as tabelas.

Azure Data Explorer

O Azure Data Explorer é um serviço de exploração de dados rápido e altamente escalável para dados de log e telemetria. Ele ajuda você a lidar com os muitos fluxos de dados emitidos pelo software moderno para que você possa coletar, armazenar e analisar dados. O Azure Data Explorer é ideal para analisar grandes volumes de dados diversificados provenientes de qualquer origem de dados, como sites, aplicações, dispositivos IoT e muito mais. Estes dados são utilizados para diagnóstico, monitorização, relatórios, aprendizagem automática e capacidades de análise adicionais. O Azure Data Explorer simplifica a ingestão desses dados e permite que você faça consultas complexas não planejadas nos dados em segundos.

O Azure Data Explorer pode ser expandido linearmente para aumentar a taxa de transferência de ingestão e processamento de consultas. Um cluster do Azure Data Explorer pode ser implantado em uma Rede Virtual para habilitar redes privadas.

Principais critérios de seleção

Para restringir as escolhas, comece por responder a estas perguntas:

Você precisa de um data lake unificado com suporte multicloud, governança robusta e integração com ferramentas analíticas? Se sim, escolha OneLake in Fabric para gerenciamento de dados simplificado e colaboração aprimorada.
Você precisa de armazenamento gerenciado, de alta velocidade e baseado em nuvem para qualquer tipo de texto ou dados binários? Se sim, escolha uma das opções de armazenamento de arquivos ou análise.
Você precisa de armazenamento de arquivos otimizado para cargas de trabalho de análise paralela e alta taxa de transferência/IOPS? Se sim, escolha uma opção ajustada ao desempenho da carga de trabalho de análise.
Você precisa armazenar dados não estruturados ou semiestruturados em um banco de dados sem esquema? Em caso afirmativo, selecione uma das opções não relacionais ou analíticas. Compare opções para indexação e modelos de banco de dados. Dependendo do tipo de dados que você precisa armazenar, os modelos de banco de dados primários podem ser o maior fator.
Você pode usar o serviço na sua região? Verifique a disponibilidade regional para cada serviço do Azure. Para obter mais informações, veja Produtos disponíveis por região.

Matriz de capacidades

As tabelas a seguir resumem as principais diferenças nos recursos.

Recursos do OneLake in Fabric

Funcionalidade	OneLake em tecido
Data lake unificado	Fornece um único data lake unificado para toda a organização, o que elimina silos de dados.
Suporte multicloud	Suporta integração e compatibilidade com várias plataformas de nuvem.
Governação de dados	Inclui recursos como linhagem de dados, proteção de dados, certificação e integração de catálogo.
Hub de dados centralizado	Atua como um hub centralizado para descoberta e gerenciamento de dados.
Suporte analítico do motor	Compatível com múltiplos motores analíticos. Essa compatibilidade permite que diversas ferramentas e tecnologias operem com os mesmos dados.
Segurança e conformidade	Garante que os dados confidenciais permaneçam seguros e que o acesso seja restrito apenas a usuários autorizados.
Facilidade de utilização	Fornece um design amigável que está automaticamente disponível com todos os locatários do Fabric e não requer configuração.
Escalabilidade	Capaz de lidar com grandes volumes de dados de várias fontes.

Recursos de armazenamento de arquivos

Funcionalidade	Data Lake Storage Gen2	Contêineres de Armazenamento de Blob do Azure
Propósito	Armazenamento otimizado para cargas de trabalho de análise de big data	Armazenamento de objetos de uso geral para uma vasta gama de cenários de armazenamento
Casos de utilização	Batch, análise de streaming e dados de aprendizado de máquina, como arquivos de log, dados de IoT, fluxos de cliques, grandes conjuntos de dados	Qualquer tipo de texto ou dados binários, como back-end de aplicativos, dados de backup, armazenamento de mídia para streaming e dados de uso geral
Estrutura	Sistema de arquivos hierárquico	Armazenamento de objetos com namespace simples
Autenticação	Baseado em identidades Microsoft Entra	Com base em segredos partilhados, Chaves de Acesso à Conta, Chaves de Assinatura de Acesso Partilhado e RBAC do Azure
Protocolo de autenticação	Autorização aberta (OAuth) 2.0. As chamadas devem conter um JWT (token da Web JSON) válido emitido pelo Microsoft Entra ID	Código de Autenticação de Mensagem Baseado em Hash (HMAC). As chamadas devem conter um hash SHA-256 codificado em Base64 numa determinada parte do pedido HTTP.
Autorização	Listas de controlo de acesso POSIX (Portable Operating System Interface) (ACLs). As ACLs baseadas em identidades do Microsoft Entra podem ser definidas no nível de arquivo e pasta.	Para autorização no nível da conta, use as chaves de acesso da conta. Para autorização de conta, contêiner ou blob, use Chaves de Assinatura de Acesso Compartilhado.
Auditoria	Disponível.	Disponível
Encriptação de dados em repouso	Transparente, lado servidor	Transparente, do lado do servidor; Criptografia do lado do cliente
SDKs de desenvolvedor	.NET, Java, Python Node.js	.NET, Java, Python, Node.js, C++, Ruby
Desempenho da carga de trabalho do Analytics	Desempenho otimizado para cargas de trabalho de análise paralela, alta taxa de transferência e IOPS	Não otimizado para cargas de trabalho de análise
Limites de tamanho	Sem limites de tamanho de conta, tamanho de arquivo ou número de arquivos	Limites específicos documentados aqui
Georredundância	Localmente redundante (armazenamento localmente redundante (LRS)), globalmente redundante (armazenamento com redundância geográfica (GRS)), acesso de leitura globalmente redundante (armazenamento com redundância geográfica de acesso de leitura (RA-GRS)), redundante de zona (armazenamento com redundância de zona (ZRS)).	Localmente redundante (LRS), globalmente redundante (GRS), acesso de leitura globalmente redundante (RA-GRS), zona redundante (ZRS). Consulte Redundância de armazenamento do Azure para obter mais informações

Recursos de banco de dados NoSQL

Funcionalidade	Azure Cosmos DB	HBase no HDInsight
Modelo de banco de dados primário	Armazenamento de documentos, base de dados em grafo, armazenamento de chave-valor, armazenamento de colunas amplas	Armazenamento de coluna ampla
Índices secundários	Sim	Não
Suporte à linguagem SQL	Sim	Sim (usando o driver Phoenix JDBC)
Consistência	Consistência forte, consistência limitada, sessão, prefixo consistente, consistência eventual	Forte
Integração nativa do Azure Functions	Sim	Não
Distribuição global automática	Sim	Nenhumareplicação de cluster HBase pode ser configurada entre regiões com consistência eventual
Modelo de preços	Unidades de solicitação elasticamente escaláveis (RUs) carregadas por segundo, conforme necessário, armazenamento elasticamente escalável	Preços por minuto para cluster HDInsight (dimensionamento horizontal de nós), armazenamento

Recursos de banco de dados analítico

Funcionalidade	Azure Data Explorer
Modelo de banco de dados primário	Armazenamento relacional por colunas, telemetria e armazenamento de séries temporais
Suporte à linguagem SQL	Sim
Modelo de preços	Instâncias de cluster elasticamente escaláveis
Autenticação	Baseado nas identidades do Microsoft Entra
Encriptação de dados em repouso	Chaves suportadas e gerenciadas pelo cliente
Desempenho da carga de trabalho do Analytics	Desempenho otimizado para cargas de trabalho de análise paralela
Limites de tamanho	Escalável de forma linear

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Zoiner Tejada - Brasil | CEO e Arquiteto

Próximos passos

Feedback

Esta página foi útil?

Last updated on 2024-10-05