Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
As soluções de Big Data normalmente consistem em tarefas discretas de processamento em lote que contribuem para a solução geral de processamento de dados. Você pode usar o processamento em lote para cargas de trabalho que não exigem acesso imediato aos insights. O processamento em lote pode complementar os requisitos de processamento em tempo real. Você também pode usar o processamento em lote para equilibrar a complexidade e reduzir o custo de sua implementação geral.
O requisito fundamental dos mecanismos de processamento em lote é expandir os cálculos para lidar com um grande volume de dados. Ao contrário do processamento em tempo real, o processamento em lote tem latências, ou seja, o tempo entre a ingestão de dados e a computação de um resultado, é de minutos ou horas.
Escolha uma tecnologia para processamento em lote
A Microsoft oferece vários serviços que você pode usar para realizar o processamento em lote.
Microsoft Fabric
O Microsoft Fabric é uma plataforma de dados e análise completa para organizações. É uma oferta de software como serviço que simplifica a forma como você provisiona, gerencia e administra uma solução de análise de ponta a ponta. O Fabric lida com a movimentação de dados, o processamento, a ingestão, a transformação e a geração de relatórios de dados. Os recursos do Fabric que você usa para processamento em lote incluem engenharia de dados, data warehouses, lakehouses e processamento do Apache Spark. O Azure Data Factory no Fabric também é compatível com lakehouses. Para simplificar e acelerar o desenvolvimento, você pode ativar o Copilot orientado por IA.
Linguagens: R, Python, Java, Scala e SQL
Segurança: rede virtual gerenciada e controle de acesso RBAC (Controle de acesso baseado em função) do OneLake
Armazenamento primário: OneLake, que tem atalhos e opções de espelhamento
Spark: um pool inicial pré-hidratado e um pool Spark personalizado com tamanhos de nó predefinidos
Azure Databricks
O Azure Databricks é uma plataforma de análise baseada no Spark. Ele apresenta recursos avançados e premium do Spark, desenvolvidos com base no Spark de código aberto. O Azure Databricks é um serviço da Microsoft que se integra ao restante dos serviços do Azure. Ele apresenta configurações adicionais para implantações de cluster do Spark. E o Catálogo Unity ajuda a simplificar a governança dos objetos do Azure Databricks Spark.
Linguagens: R, Python, Java, Scala e Spark SQL.
Segurança: autenticação de usuário com o Microsoft Entra ID.
Armazenamento primário: Integração interna com o Armazenamento de Blobs do Azure, o Data Lake Storage, o Fabric OneLake e outros serviços. Para obter mais informações, consulte Fontes de dados.
Outros benefícios incluem:
Blocos de notas baseados na Web para colaboração e exploração de dados.
Início rápido do cluster, encerramento automático e escalação automática.
Suporte para clusters habilitados para GPU..
Principais critérios de seleção
Para escolher sua tecnologia para processamento em lote, considere as seguintes perguntas:
Você quer um serviço gerenciado ou quer gerenciar seus próprios servidores?
Você deseja criar a lógica do processamento em lotes de forma declarativa ou imperativa?
Você realiza o processamento em lote em rajadas? Em caso afirmativo, considere alternativas que ofereçam a capacidade de encerrar automaticamente um cluster ou que tenham modelos de preços para cada trabalho em lote.
Você precisa consultar armazenamentos de dados relacionais junto com o processamento em lotes, por exemplo, para pesquisar dados de referência? Em caso afirmativo, considere alternativas que ofereçam a capacidade de consultar armazenamentos relacionais externos.
Matriz de funcionalidades
As tabelas a seguir resumem as principais diferenças de recursos entre os serviços.
Funcionalidades gerais
| Recurso | Tecido | Azure Databricks |
|---|---|---|
| Software como serviço | Sim1 | Não |
| Serviço gerenciado | Não | Sim |
| Armazenamento de dados relacionais | Sim | Sim |
| Modelo de preços | Unidades de capacidade | Unidade 2 do Azure Databricks e hora do cluster |
[1] Capacidade atribuída do Fabric.
[2] Uma unidade do Azure Databricks é a capacidade de processamento por hora.
Outras funcionalidades
| Recurso | Tecido | Azure Databricks |
|---|---|---|
| Dimensionamento automático | Não | Sim |
| Granularidade de expansão | Por SKU do Fabric | Por cluster |
| Cache em memória de dados | Não | Sim |
| Consulta em bancos de dados relacionais externos | Sim | Sim |
| Autenticação | Microsoft Entra ID | Microsoft Entra ID |
| Auditoria | Sim | Sim |
| Segurança em nível de linha | Sim | Sim |
| Dá suporte a firewalls | Sim | Sim |
| Mascaramento de dados dinâmicos | Sim | Sim |
Colaboradores
Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.
Principais autores:
- Zoiner Tejada | CEO e arquiteto
- Pratima Valavala | Arquiteta de Soluções Principal
Para ver perfis não públicos do LinkedIn, entre no LinkedIn.