Partilhar via


O âmbito da plataforma lakehouse

Uma estrutura moderna de plataforma de dados e IA

Para discutir o escopo da Databricks Data Intelligence Platform, é útil primeiro definir uma estrutura básica para a plataforma moderna de dados e IA:

Estrutura de análise de dados na nuvem.

Visão geral do âmbito do lakehouse

A Databricks Data Intelligence Platform abrange toda a estrutura moderna da plataforma de dados. Ele é construído sobre a arquitetura lakehouse e alimentado por um mecanismo de inteligência de dados que entende as qualidades únicas de seus dados. É uma base aberta e unificada para cargas de trabalho ETL, ML/AI e DWH/BI, e tem o Unity Catalog como a solução central de governança de dados e IA.

Personas da estrutura da plataforma

A estrutura abrange os membros da equipe de dados primários (personas) que trabalham com os aplicativos na estrutura:

  • Os engenheiros de dados fornecem aos cientistas de dados e analistas de negócios dados precisos e reproduzíveis para tomada de decisões oportunas e insights em tempo real. Eles implementam processos de ETL altamente consistentes e confiáveis para aumentar a confiança do usuário nos dados. Eles garantem que os dados estejam bem integrados com os vários pilares do negócio e normalmente seguem as melhores práticas de engenharia de software.
  • Os cientistas de dados combinam experiência analítica e compreensão de negócios para transformar dados em insights estratégicos e modelos preditivos. Eles são hábeis em traduzir desafios de negócios em soluções orientadas por dados, seja por meio de insights analíticos retrospetivos ou modelagem preditiva prospetiva. Aproveitando técnicas de modelagem de dados e aprendizado de máquina, eles projetam, desenvolvem e implantam modelos que revelam padrões, tendências e previsões a partir de dados. Eles atuam como uma ponte, convertendo narrativas de dados complexas em histórias compreensíveis, garantindo que as partes interessadas do negócio não apenas entendam, mas também possam agir de acordo com as recomendações orientadas por dados, impulsionando uma abordagem centrada em dados para a solução de problemas dentro de uma organização.
  • Os engenheiros de ML (engenheiros de aprendizado de máquina) lideram a aplicação prática da ciência de dados em produtos e soluções, criando, implantando e mantendo modelos de aprendizado de máquina. Seu foco principal gira para o aspeto de engenharia do desenvolvimento e implantação de modelos. Os engenheiros de ML garantem a robustez, confiabilidade e escalabilidade dos sistemas de aprendizado de máquina em ambientes dinâmicos, abordando desafios relacionados à qualidade, infraestrutura e desempenho dos dados. Ao integrar modelos de IA e ML em processos de negócios operacionais e produtos voltados para o usuário, eles facilitam a utilização da ciência de dados na solução de desafios de negócios, garantindo que os modelos não permaneçam apenas na pesquisa, mas gerem valor comercial tangível.
  • Analistas de negócios e usuários de negócios: Os analistas de negócios fornecem às partes interessadas e às equipes de negócios dados acionáveis. Eles geralmente interpretam dados e criam relatórios ou outra documentação para gerenciamento usando ferramentas de BI padrão. Eles geralmente são o primeiro ponto de contato para usuários de negócios não técnicos e colegas de operações para perguntas de análise rápida. Painéis e aplicativos de negócios fornecidos na plataforma Databricks podem ser usados diretamente por usuários corporativos.
  • O Desenvolvedor de Aplicativos cria dados seguros e aplicativos de IA na plataforma de dados e compartilha esses aplicativos com usuários corporativos.
  • Os parceiros de negócios são partes interessadas importantes em um mundo de negócios cada vez mais conectado. Eles são definidos como uma empresa ou indivíduos com quem uma empresa tem um relacionamento formal para alcançar um objetivo comum, e podem incluir fornecedores, fornecedores, distribuidores e outros parceiros terceirizados. A partilha de dados é um aspeto importante das parcerias empresariais, uma vez que permite a transferência e o intercâmbio de dados para melhorar a colaboração e a tomada de decisões baseadas em dados.

Domínios do quadro da plataforma

A plataforma é composta por vários domínios:

  • Armazenamento: Na nuvem, os dados são armazenados principalmente em armazenamento de objetos escalável, eficiente e resiliente em provedores de nuvem.
  • Governação: Recursos em torno da governança de dados, como controle de acesso, auditoria, gerenciamento de metadados, rastreamento de linhagem e monitoramento para todos os dados e ativos de IA.
  • Motor de IA: O mecanismo de IA fornece recursos de IA generativa para toda a plataforma.
  • Ingerir e transformar: As funcionalidades para cargas de trabalho de ETL.
  • Análise avançada, ML e IA: Todos os recursos em torno de aprendizado de máquina, IA, IA generativa e também análise de streaming.
  • Armazém de dados: O domínio que suporta casos de uso de DWH e BI.
  • Base de Dados Operacional: Capacidades e serviços em torno de bases de dados operacionais como bases de dados OLTP (processamento de transações online), armazenamentos de chave-valor, etc.
  • Automação: Gerenciamento de fluxo de trabalho para processamento de dados, aprendizado de máquina, pipelines de análise, incluindo suporte a CI/CD e MLOps.
  • Ferramentas de ETL e Ciência de Dados: As ferramentas de front-end que os engenheiros de dados, cientistas de dados e engenheiros de ML usam principalmente para o trabalho.
  • Ferramentas de BI: As ferramentas de front-end que os analistas de BI usam principalmente para o trabalho.
  • Aplicativos de dados e IA Ferramentas que criam e hospedam aplicativos que usam os dados gerenciados pela plataforma subjacente e aproveitam seus recursos de análise e IA de forma segura e compatível com governança.
  • Colaboração: recursos para compartilhamento de dados entre duas ou mais partes.

O âmbito da Plataforma Databricks

A Databricks Data Intelligence Platform e seus componentes podem ser mapeados para a estrutura da seguinte maneira:

Diagrama do escopo da casa do lago.

Download: Escopo da casa do lago - Componentes Databricks

Cargas de trabalho de dados no Azure Databricks

Mais importante ainda, a Databricks Data Intelligence Platform cobre todas as cargas de trabalho relevantes para o domínio de dados em uma plataforma, com o Apache Spark/Photon como o mecanismo:

  • Ingerir e transformar

    O Databricks oferece várias formas de ingestão de dados:

    • Databricks Lakeflow Connect oferece conectores integrados para ingestão de aplicativos corporativos e bancos de dados. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por computação sem servidor e Lakeflow Spark Declarative Pipelines.
    • O Auto Loader processa de forma incremental e automática os arquivos que chegam ao armazenamento em nuvem em trabalhos programados ou contínuos - sem a necessidade de gerenciar informações de estado. Uma vez ingeridos, os dados brutos precisam ser transformados para que estejam prontos para BI e ML/AI. O Databricks fornece recursos poderosos de ETL para engenheiros de dados, cientistas de dados e analistas.

    Lakeflow Spark Declarative Pipelines permite escrever trabalhos ETL de forma declarativa, simplificando todo o processo de implementação. A qualidade dos dados pode ser melhorada através da definição das suas expectativas.

  • Análise avançada, ML e IA

    A plataforma inclui o Databricks Mosaic AI, um conjunto de ferramentas de aprendizado de máquina e IA totalmente integradas para aprendizado de máquina e deep learning tradicional, bem como IA generativa e modelos de linguagem grande (LLMs). Ele cobre todo o fluxo de trabalho, desde a preparação de dados até a criação de modelos de aprendizado de máquina e aprendizado profundo , até o Mosaic AI Model Serving.

    O Spark Structured Streaming e o Lakeflow Spark Declarative Pipelines permitem análises em tempo real.

  • Armazém de dados

    A plataforma Databricks Data Intelligence também possui uma solução completa de data warehouse com Databricks SQL, governado centralmente pelo Unity Catalog com controle de acesso refinado.

    As funções de IA são funções SQL incorporadas que permitem aplicar IA aos seus dados diretamente a partir do SQL. A integração da IA em trabalhos de análise fornece acesso a informações anteriormente inacessíveis aos analistas e os capacita a tomar decisões mais informadas, gerenciar riscos e sustentar uma vantagem competitiva por meio de inovação e eficiência orientadas por dados.

  • Base de dados operacional

    Lakebase é um banco de dados de processamento de transações on-line (OLTP) baseado no Postgres e totalmente integrado com a Databricks Data Intelligence Platform. Ele permite que você crie um banco de dados OLTP no Databricks e integre cargas de trabalho OLTP com seu Lakehouse. O Lakebase permite sincronizar dados entre cargas de trabalho OLTP e OLAP (processamento analítico online) e está bem integrado com gerenciamento de recursos, armazéns SQL e aplicativos Databricks.

Visão geral das áreas de funcionalidades do Azure Databricks

Este é um mapeamento dos recursos da Databricks Data Intelligence Platform para as outras camadas da estrutura, de baixo para cima:

  • Armazenamento na nuvem

    Todos os dados relativos ao lakehouse são armazenados no armazenamento de objetos do provedor de nuvem. O Databricks oferece suporte a três provedores de nuvem: AWS, Azure e GCP. Arquivos em vários formatos estruturados e semiestruturados (por exemplo, Parquet, CSV, JSON e Avro), bem como formatos não estruturados (como imagens e documentos), são ingeridos e transformados usando processos em lote ou streaming.

    Delta Lake é o formato de dados recomendado para o lakehouse (transações de arquivos, confiabilidade, consistência, atualizações e assim por diante). Também é possível ler tabelas Delta usando clientes Apache Iceberg.

    Nenhum formato de dados proprietário é usado na Databricks Data Intelligence Platform: Delta Lake e Iceberg são de código aberto para evitar a dependência do fornecedor.

  • Governança de dados e IA

    Além da camada de armazenamento, o Unity Catalog oferece uma ampla gama de recursos de governança de dados e IA, incluindo gerenciamento de metadados no metastore, controle de acesso, auditoria, descoberta de dados e linhagem de dados.

    O monitoramento da qualidade de dados fornece métricas de qualidade prontas para uso para dados e ativos de IA, além de painéis gerados automaticamente para visualizar essas métricas.

    Fontes SQL externas podem ser integradas ao lakehouse e ao Unity Catalog por meio da federação lakehouse.

  • Motor de IA

    A Plataforma de Inteligência de Dados é construída na arquitetura lakehouse e aprimorada por recursos baseados em IA da Databricks. A IA Databricks combina IA generativa com os benefícios de unificação da arquitetura lakehouse para entender a semântica exclusiva de seus dados. O Intelligent Search e o Databricks Assistant são exemplos de serviços alimentados por IA que simplificam o trabalho com a plataforma para cada usuário.

  • Orquestração

    O Lakeflow Jobs permite que você execute diversas cargas de trabalho para o ciclo de vida completo de dados e IA em qualquer nuvem. Permitem-lhe orquestrar processos, bem como Lakeflow Spark Declarative Pipelines para SQL, Spark, notebooks, DBT, modelos de ML e muito mais.

    A plataforma suporta também CI/CD e MLOps

  • Ferramentas ETL & DS

    Na camada de consumo, os engenheiros de dados e os engenheiros de ML normalmente trabalham com a plataforma usando IDEs. Os cientistas de dados geralmente preferem notebooks e usam os tempos de execução de ML ou IA e o sistema de fluxo de trabalho de aprendizado de máquina MLflow para rastrear experimentos e gerenciar o ciclo de vida do modelo.

  • Ferramentas de BI

    Os analistas de negócios normalmente usam sua ferramenta de BI preferida para acessar o data warehouse do Databricks. O Databricks SQL pode ser consultado por diferentes ferramentas de análise e BI, consulte BI e visualização

    Além disso, a plataforma oferece ferramentas de consulta e análise prontas para uso:

    • Painéis de IA/BI para arrastar e soltar visualizações de dados e compartilhar insights.
    • Especialistas de domínio, como analistas de dados, configuram espaços do AI/BI Genie com conjuntos de dados, consultas de exemplo e diretrizes de texto para ajudar o Genie a traduzir perguntas de negócios em consultas analíticas. Após a configuração, os usuários corporativos podem fazer perguntas e gerar visualizações para entender os dados operacionais.
    • Editor SQL para analistas SQL analisarem dados.
  • Aplicativos de dados e IA

    O Databricks Apps permite que os desenvolvedores criem dados seguros e aplicativos de IA na plataforma Databricks e compartilhem esses aplicativos com os usuários.

  • Colaboração

    Delta Sharing é um protocolo aberto desenvolvido pela Databricks para compartilhamento seguro de dados com outras organizações, independentemente das plataformas de computação que usam.

    O Databricks Marketplace é um fórum aberto para a troca de produtos de dados. Ele aproveita o Delta Sharing para dar aos provedores de dados as ferramentas para compartilhar produtos de dados com segurança e aos consumidores de dados o poder de explorar e expandir seu acesso aos dados e serviços de dados de que precisam.

    As Salas Limpas usam o Compartilhamento Delta e a computação sem servidor para fornecer um ambiente seguro e que protege a privacidade, onde várias partes podem trabalhar juntas em dados corporativos confidenciais sem acesso direto aos dados uns dos outros.