Partilhar via


Escolha uma tecnologia de armazenamento de big data no Azure

Este artigo compara opções de armazenamento de dados para soluções de big data — especificamente, armazenamento de dados para ingestão de dados em massa e processamento em lote, em oposição a armazenamentos de dados analíticos ou ingestão de streaming em tempo real.

Quais são suas opções ao escolher o armazenamento de dados no Azure?

Há várias opções para ingerir dados no Azure, dependendo das suas necessidades.

Data lake lógico unificado:

Armazenamento de ficheiros:

Bases de dados NoSQL:

Bases de dados analíticas:

OneLake em tecido

O OneLake in Fabric é um data lake unificado e lógico adaptado para toda a organização. Ele serve como o hub central para todos os dados de análise e está incluído em todos os locatários do Microsoft Fabric. O OneLake in Fabric foi construído com base no Data Lake Storage Gen2.

OneLake em Tecido:

  • Suporta tipos de arquivos estruturados e não estruturados.
  • Armazena todos os dados tabulares no formato Delta Parquet.
  • Fornece um único data lake dentro dos limites do locatário que é governado por padrão.
  • Suporta a criação de espaços de trabalho dentro de um locatário para que uma organização possa distribuir políticas de propriedade e acesso.
  • Suporta a criação de vários itens de dados, como lakehouses e armazéns, a partir dos quais você pode acessar dados.

O OneLake in Fabric serve como o local de armazenamento comum para ingestão, transformação, insights em tempo real e visualizações de business intelligence. Ele centraliza vários serviços do Fabric e armazena itens de dados que todas as cargas de trabalho usam no Fabric. Para escolher o armazenamento de dados certo para suas cargas de trabalho do Fabric, consulte Guia de decisão do Fabric: escolha um armazenamento de dados.

Blobs de Armazenamento do Azure

O Armazenamento do Azure é um serviço de armazenamento gerenciado que é altamente disponível, seguro, durável, escalável e redundante. A Microsoft trata da manutenção e resolve os problemas críticos por si. O Armazenamento do Azure é a solução de armazenamento mais ubíqua que o Azure fornece, devido ao número de serviços e ferramentas que podem ser usados com ele.

Há vários serviços de Armazenamento do Azure que você pode usar para armazenar dados. A opção mais flexível para armazenar blobs de muitas fontes de dados é o armazenamento de Blobs. Blobs são basicamente arquivos. Eles armazenam imagens, documentos, arquivos HTML, discos rígidos virtuais (VHDs), big data, como logs, backups de bancos de dados — praticamente qualquer coisa. Os blobs são armazenados em contentores, que são semelhantes a pastas. Um contêiner fornece um agrupamento de um conjunto de blobs. Uma conta de armazenamento pode conter um número ilimitado de contentores, e um contentor pode armazenar um número ilimitado de blobs.

O Armazenamento do Azure é uma boa opção para soluções de big data e análise, devido à sua flexibilidade, alta disponibilidade e baixo custo. Ele fornece níveis de armazenamento quentes, frescos e arquivados para diferentes casos de uso. Para obter mais informações, consulte Armazenamento de Blob do Azure: camadas de armazenamento quentes, frias e de arquivamento.

O armazenamento de Blob do Azure pode ser acessado do Hadoop (disponível por meio do HDInsight). O HDInsight pode utilizar um contentor de blobs no Armazenamento do Azure como o sistema de ficheiros predefinido para o cluster. Por meio de uma interface HDFS (Hadoop Distributed File System) fornecida por um driver WASB, o conjunto completo de componentes do HDInsight pode operar diretamente em dados estruturados ou não estruturados armazenados como blobs. O armazenamento Azure Blob também pode ser acedido através de um atalho Microsoft Fabric Blob Storage.

Outros recursos que tornam o Armazenamento do Azure uma boa escolha são:

Data Lake Storage Gen2

O Data Lake Storage Gen2 é um repositório único e centralizado onde você pode armazenar todos os seus dados, estruturados e não estruturados. Um data lake permite à sua organização armazenar, aceder e analisar rapidamente e de forma mais fácil uma vasta gama de dados num único local. Com um data lake, você não precisa adaptar seus dados para se adequar a uma estrutura existente. Em vez disso, você pode armazenar seus dados em seu formato bruto ou nativo, geralmente como arquivos ou como objetos binários grandes (blobs).

O Data Lake Storage Gen2 converge os recursos do Azure Data Lake Storage Gen1 com o Azure Blob Storage. Por exemplo, o Data Lake Storage Gen2 fornece semântica do sistema de arquivos, segurança no nível de arquivo e escala. Como esses recursos são construídos sobre o armazenamento Blob, também obténs armazenamento escalonado de baixo custo, com capacidades de alta disponibilidade e recuperação de desastres.

O Data Lake Storage Gen2 torna o Armazenamento do Azure a base para a criação de data lakes corporativos no Azure. Projetado desde o início para atender a vários petabytes de informações enquanto sustenta centenas de gigabits de taxa de transferência, o Data Lake Storage Gen2 permite que você gerencie facilmente grandes quantidades de dados.

Azure Cosmos DB

O Azure Cosmos DB é o banco de dados multimodelo distribuído globalmente da Microsoft. O Azure Cosmos DB garante latências de milissegundos de um dígito no percentil 99 em qualquer lugar do mundo, fornece vários modelos de consistência bem definidos para otimizar o desempenho e garante alta disponibilidade com capacidades de multi-homing.

O Azure Cosmos DB é independente do esquema. Indexa automaticamente todos os dados sem ser necessário lidar com a gestão de esquema e índice. Também é multimodelo, suportando nativamente modelos de dados de documento, chave-valor, grafos e famílias de colunas.

Recursos do Azure Cosmos DB:

HBase no HDInsight

O Apache HBase é um banco de dados NoSQL de código aberto que é construído no Hadoop e modelado de acordo com o Google BigTable. O HBase fornece acesso aleatório e forte consistência para grandes quantidades de dados não estruturados e semiestruturados em um banco de dados sem esquema organizado por famílias de colunas.

Os dados são armazenados nas linhas de uma tabela e os dados de uma linha são agrupados por família de colunas. O HBase é sem esquema no sentido em que não precisa de definir as colunas e o tipo de dados armazenados nelas antes de as usar. O código open source é dimensionado linearmente para processar petabytes de dados em milhares de nós. Pode depender da redundância de dados, do processamento em lotes e de outras funcionalidades fornecidas por aplicações distribuídas do ecossistema do Hadoop.

A implementação do HDInsight usa a arquitetura de expansão do HBase para fornecer fragmentação automática de tabelas, forte consistência para leituras e gravações e failover automático. O desempenho é melhorado graças ao armazenamento em cache na memória para as leituras e à transmissão de alta capacidade para as escritas. Na maioria dos casos, você deseja criar o cluster HBase dentro de uma rede virtual para que outros clusters e aplicativos HDInsight possam acessar diretamente as tabelas.

Azure Data Explorer

O Azure Data Explorer é um serviço de exploração de dados rápido e altamente escalável para dados de log e telemetria. Ele ajuda você a lidar com os muitos fluxos de dados emitidos pelo software moderno para que você possa coletar, armazenar e analisar dados. O Azure Data Explorer é ideal para analisar grandes volumes de dados diversificados provenientes de qualquer origem de dados, como sites, aplicações, dispositivos IoT e muito mais. Estes dados são utilizados para diagnóstico, monitorização, relatórios, aprendizagem automática e capacidades de análise adicionais. O Azure Data Explorer simplifica a ingestão desses dados e permite que você faça consultas complexas não planejadas nos dados em segundos.

O Azure Data Explorer pode ser expandido linearmente para aumentar a taxa de transferência de ingestão e processamento de consultas. Um cluster do Azure Data Explorer pode ser implantado em uma Rede Virtual para habilitar redes privadas.

Principais critérios de seleção

Para restringir as escolhas, comece por responder a estas perguntas:

  • Você precisa de um data lake unificado com suporte multicloud, governança robusta e integração com ferramentas analíticas? Se sim, escolha OneLake in Fabric para gerenciamento de dados simplificado e colaboração aprimorada.

  • Você precisa de armazenamento gerenciado, de alta velocidade e baseado em nuvem para qualquer tipo de texto ou dados binários? Se sim, escolha uma das opções de armazenamento de arquivos ou análise.

  • Você precisa de armazenamento de arquivos otimizado para cargas de trabalho de análise paralela e alta taxa de transferência/IOPS? Se sim, escolha uma opção ajustada ao desempenho da carga de trabalho de análise.

  • Você precisa armazenar dados não estruturados ou semiestruturados em um banco de dados sem esquema? Em caso afirmativo, selecione uma das opções não relacionais ou analíticas. Compare opções para indexação e modelos de banco de dados. Dependendo do tipo de dados que você precisa armazenar, os modelos de banco de dados primários podem ser o maior fator.

  • Você pode usar o serviço na sua região? Verifique a disponibilidade regional para cada serviço do Azure. Para obter mais informações, veja Produtos disponíveis por região.

Matriz de capacidades

As tabelas a seguir resumem as principais diferenças nos recursos.

Recursos do OneLake in Fabric

Funcionalidade OneLake em tecido
Data lake unificado Fornece um único data lake unificado para toda a organização, o que elimina silos de dados.
Suporte multicloud Suporta integração e compatibilidade com várias plataformas de nuvem.
Governação de dados Inclui recursos como linhagem de dados, proteção de dados, certificação e integração de catálogo.
Hub de dados centralizado Atua como um hub centralizado para descoberta e gerenciamento de dados.
Suporte analítico do motor Compatível com múltiplos motores analíticos. Essa compatibilidade permite que diversas ferramentas e tecnologias operem com os mesmos dados.
Segurança e conformidade Garante que os dados confidenciais permaneçam seguros e que o acesso seja restrito apenas a usuários autorizados.
Facilidade de utilização Fornece um design amigável que está automaticamente disponível com todos os locatários do Fabric e não requer configuração.
Escalabilidade Capaz de lidar com grandes volumes de dados de várias fontes.

Recursos de armazenamento de arquivos

Funcionalidade Data Lake Storage Gen2 Contêineres de Armazenamento de Blob do Azure
Propósito Armazenamento otimizado para cargas de trabalho de análise de big data Armazenamento de objetos de uso geral para uma vasta gama de cenários de armazenamento
Casos de utilização Batch, análise de streaming e dados de aprendizado de máquina, como arquivos de log, dados de IoT, fluxos de cliques, grandes conjuntos de dados Qualquer tipo de texto ou dados binários, como back-end de aplicativos, dados de backup, armazenamento de mídia para streaming e dados de uso geral
Estrutura Sistema de arquivos hierárquico Armazenamento de objetos com namespace simples
Autenticação Baseado em identidades Microsoft Entra Com base em segredos partilhados, Chaves de Acesso à Conta, Chaves de Assinatura de Acesso Partilhado e RBAC do Azure
Protocolo de autenticação Autorização aberta (OAuth) 2.0. As chamadas devem conter um JWT (token da Web JSON) válido emitido pelo Microsoft Entra ID Código de Autenticação de Mensagem Baseado em Hash (HMAC). As chamadas devem conter um hash SHA-256 codificado em Base64 numa determinada parte do pedido HTTP.
Autorização Listas de controlo de acesso POSIX (Portable Operating System Interface) (ACLs). As ACLs baseadas em identidades do Microsoft Entra podem ser definidas no nível de arquivo e pasta. Para autorização no nível da conta, use as chaves de acesso da conta. Para autorização de conta, contêiner ou blob, use Chaves de Assinatura de Acesso Compartilhado.
Auditoria Disponível. Disponível
Encriptação de dados em repouso Transparente, lado servidor Transparente, do lado do servidor; Criptografia do lado do cliente
SDKs de desenvolvedor .NET, Java, Python Node.js .NET, Java, Python, Node.js, C++, Ruby
Desempenho da carga de trabalho do Analytics Desempenho otimizado para cargas de trabalho de análise paralela, alta taxa de transferência e IOPS Não otimizado para cargas de trabalho de análise
Limites de tamanho Sem limites de tamanho de conta, tamanho de arquivo ou número de arquivos Limites específicos documentados aqui
Georredundância Localmente redundante (armazenamento localmente redundante (LRS)), globalmente redundante (armazenamento com redundância geográfica (GRS)), acesso de leitura globalmente redundante (armazenamento com redundância geográfica de acesso de leitura (RA-GRS)), redundante de zona (armazenamento com redundância de zona (ZRS)). Localmente redundante (LRS), globalmente redundante (GRS), acesso de leitura globalmente redundante (RA-GRS), zona redundante (ZRS). Consulte Redundância de armazenamento do Azure para obter mais informações

Recursos de banco de dados NoSQL

Funcionalidade Azure Cosmos DB HBase no HDInsight
Modelo de banco de dados primário Armazenamento de documentos, base de dados em grafo, armazenamento de chave-valor, armazenamento de colunas amplas Armazenamento de coluna ampla
Índices secundários Sim Não
Suporte à linguagem SQL Sim Sim (usando o driver Phoenix JDBC)
Consistência Consistência forte, consistência limitada, sessão, prefixo consistente, consistência eventual Forte
Integração nativa do Azure Functions Sim Não
Distribuição global automática Sim Nenhumareplicação de cluster HBase pode ser configurada entre regiões com consistência eventual
Modelo de preços Unidades de solicitação elasticamente escaláveis (RUs) carregadas por segundo, conforme necessário, armazenamento elasticamente escalável Preços por minuto para cluster HDInsight (dimensionamento horizontal de nós), armazenamento

Recursos de banco de dados analítico

Funcionalidade Azure Data Explorer
Modelo de banco de dados primário Armazenamento relacional por colunas, telemetria e armazenamento de séries temporais
Suporte à linguagem SQL Sim
Modelo de preços Instâncias de cluster elasticamente escaláveis
Autenticação Baseado nas identidades do Microsoft Entra
Encriptação de dados em repouso Chaves suportadas e gerenciadas pelo cliente
Desempenho da carga de trabalho do Analytics Desempenho otimizado para cargas de trabalho de análise paralela
Limites de tamanho Escalável de forma linear

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Próximos passos