Compartilhar via


O escopo da plataforma lakehouse

Uma estrutura moderna de dados e plataforma de IA

Para discutir o escopo da Plataforma de Inteligência de Dados do Databricks, é útil primeiro definir uma estrutura básica para os dados modernos e a plataforma de IA:

Estrutura de análise de dados de nuvem.

Visão geral do escopo do lakehouse

A Plataforma de Inteligência de Dados do Databricks abrange a estrutura completa da plataforma de dados moderna. Ele é baseado na arquitetura do lakehouse e alimentado por um mecanismo de inteligência de dados que entende as qualidades exclusivas de seus dados. É uma base aberta e unificada para cargas de trabalho de ETL, ML/IA e DWH/BI e tem o Catálogo do Unity como solução central de governança de dados e IA.

Personas da estrutura da plataforma

A estrutura abrange os membros da equipe de dados primários (personas) que trabalham com os aplicativos na estrutura:

  • Engenheiros de dados fornecem a cientistas de dados e analistas de negócios dados precisos e reproduzíveis para a tomada de decisões oportuna e insights em tempo real. Eles implementam processos ETL altamente consistentes e confiáveis para aumentar a confiança e a credibilidade do usuário nos dados. Eles garantem que os dados sejam bem integrados aos vários pilares da empresa e normalmente seguem as práticas recomendadas de engenharia de software.
  • Cientistas de dados mesclar experiência analítica e compreensão de negócios para transformar dados em insights estratégicos e modelos preditivos. Eles são hábeis em traduzir desafios de negócios em soluções controladas por dados, seja por meio de insights analíticos retrospectivas ou modelagem preditiva prospectiva. Aproveitando as técnicas de modelagem de dados e aprendizado de máquina, eles projetam, desenvolvem e implantam modelos que revelam padrões, tendências e previsões de dados. Eles atuam como uma ponte, convertendo narrativas de dados complexas em histórias compreensíveis, garantindo que os stakeholders empresariais não só entendam, mas também possam agir sobre as recomendações orientadas por dados, por sua vez, impulsionando uma abordagem centrada em dados para resolver problemas dentro de uma organização.
  • engenheiros de ML (engenheiros de machine learning) lideram a aplicação prática da ciência de dados em produtos e soluções criando, implantando e mantendo modelos de machine learning. Seu foco principal gira em direção ao aspecto de engenharia do desenvolvimento e implantação de modelos. Os engenheiros de ML garantem a robustez, a confiabilidade e a escalabilidade dos sistemas de machine learning em ambientes dinâmicos, abordando os desafios relacionados à qualidade dos dados, à infraestrutura e ao desempenho. Ao integrar modelos de IA e ML em processos de negócios operacionais e produtos voltados para o usuário, eles facilitam a utilização da ciência de dados na resolução de desafios de negócios, garantindo que os modelos não fiquem apenas em pesquisa, mas impulsionem o valor de negócios tangível.
  • Analistas denegócios e usuários de negócios: analistas de negócios fornecem aos stakeholders e equipes de negócios dados acionáveis. Eles geralmente interpretam dados e criam relatórios ou outra documentação para gerenciamento usando ferramentas de BI padrão. Normalmente, eles são o primeiro ponto de contato para usuários de negócios não técnicos e colegas de operações para perguntas de análise rápida. Painéis e aplicativos de negócios entregues na plataforma Databricks podem ser usados diretamente por usuários empresariais.
  • O Desenvolvedor de Aplicativos cria dados seguros e aplicativos de IA na plataforma de dados e compartilha esses aplicativos com usuários empresariais.
  • Os parceiros de negócios são partes interessadas importantes em um mundo de negócios cada vez mais interligado. Eles são definidos como uma empresa ou pessoas com as quais uma empresa mantém uma relação formal para atingir um objetivo comum e podem incluir vendedores, fornecedores, distribuidores e outros parceiros terceirizados. O compartilhamento de dados é um aspecto importante das parcerias comerciais, pois permite a transferência e a troca de dados para aprimorar a colaboração e a tomada de decisões controladas por dados.

Domínios da estrutura da plataforma

A plataforma consiste em vários domínios:

  • Armazenamento: na nuvem, os dados são armazenados principalmente em armazenamentos de objetos escalonáveis, eficientes e resilientes em provedores de nuvem.
  • Governança: os recursos relacionados à governança de dados, como controle de acesso, auditoria, gerenciamento de metadados, rastreamento de linhagem e monitoramento de todos os ativos de dados e IA.
  • Mecanismo de IA: o mecanismo de IA fornece recursos de IA generativa para toda a plataforma.
  • Ingerir e transformar: as funcionalidades para cargas de trabalho de ETL.
  • Análise avançada, ML e IA: todos os recursos de machine learning, IA, IA generativa e análise de streaming.
  • Data warehouse: o domínio que dá suporte a casos de uso de DWH e BI.
  • Banco de dados operacional: Recursos e serviços em torno de bancos de dados operacionais, como bancos de dados OLTP (processamento de transações online), repositórios de chave-valor etc.
  • Automação: Gerenciamento de fluxo de trabalho para processamento de dados, machine learning, pipelines de análise, incluindo suporte a CI/CD e MLOps.
  • Ferramentas de ETL e ciência de dados: As ferramentas front-end que engenheiros de dados, cientistas de dados e engenheiros de ML usam principalmente em seu trabalho.
  • Ferramentas de BI: as ferramentas de front-end que os analistas de BI usam principalmente para o trabalho.
  • Aplicativos de dados e IA Ferramentas que criam e hospedam aplicativos que usam os dados gerenciados pela plataforma subjacente e aproveitam suas funcionalidades de análise e IA de maneira segura e compatível com governança.
  • Colaboração: funcionalidades para compartilhamento de dados entre duas ou mais partes.

O escopo da Plataforma Databricks

A Plataforma de Inteligência de Dados do Databricks e seus componentes podem ser mapeados para a estrutura da seguinte maneira:

Diagrama do escopo do lakehouse.

Download: Escopo do lakehouse – componentes do Databricks

Cargas de trabalho de dados no Azure Databricks

Mais importante, a Plataforma de Inteligência de Dados do Databricks abrange todas as cargas de trabalho relevantes para o domínio de dados em uma plataforma, com Apache Spark/Photon como o mecanismo:

  • Ingestão e transformação

    O Databricks oferece várias maneiras de ingestão de dados:

    • O Databricks Lakeflow Connect oferece conectores internos para ingestão de aplicativos empresariais e bancos de dados. O pipeline de ingestão resultante é regido pelo Catálogo do Unity e é alimentado por computação sem servidor e Pipelines Declarativos do Lakeflow Spark.
    • O Carregador Automático processa incremental e automaticamente os arquivos que estão pousando no armazenamento em nuvem em trabalhos agendados ou contínuos , sem a necessidade de gerenciar informações de estado. Depois de ingeridos, os dados brutos precisam ser transformados para que estejam prontos para BI e ML/IA. O Databricks fornece recursos avançados de ETL para engenheiros de dados, cientistas de dados e analistas.

    O Lakeflow Spark Declarative Pipelines permite escrever trabalhos ETL de forma declarativa, simplificando todo o processo de implementação. A qualidade dos dados pode ser aprimorada definindo as expectativas de dados.

  • Análise avançada, ML e IA

    A plataforma inclui a IA do Mosaico do Databricks, um conjunto de ferramentas de machine learning e IA totalmente integradas para aprendizado de máquina e aprendizado profundo tradicionais, bem como IA geradora e LLMs (modelos de linguagem grande). Ela cobre todo o fluxo de trabalho, desde o preparo dos dados até a criação de modelos de machine learning e deep learning e o Mosaic AI Model Serving.

    O Streaming Estruturado do Spark e os Pipelines Declarativos do Spark do Lakeflow habilitam a análise em tempo real.

  • Data warehouse

    A plataforma Databricks Data Intelligence também conta com uma solução completa de data warehouse com o Databricks SQL, governada centralmente pelo Catálogo do Unity com controle de acesso refinado.

    As funções de IA são funções SQL internas que permitem que você aplique IA em seus dados diretamente do SQL. A integração da IA em trabalhos de análise fornece acesso a informações anteriormente inacessíveis aos analistas e os capacita a tomar decisões mais informadas, gerenciar riscos e sustentar uma vantagem competitiva por meio de inovação e eficiência orientadas por dados.

  • Banco de dados operacional

    O Lakebase é um banco de dados OLTP (processamento de transações online) baseado no Postgres e totalmente integrado à Plataforma de Inteligência de Dados do Databricks. Ele permite que você crie um banco de dados OLTP no Databricks e integre cargas de trabalho OLTP ao Lakehouse. O Lakebase permite sincronizar dados entre cargas de trabalho OLTP e OLAP (processamento analítico online) e é bem integrado ao gerenciamento de recursos, aos sql warehouses e aos Aplicativos do Databricks.

Visão geral das áreas de funcionalidades do Azure Databricks

Este é um mapeamento dos recursos da plataforma Databricks Data Intelligence para as outras camadas da estrutura, de baixo para cima:

  • Armazenamento em nuvem

    Todos os dados do lakehouse são armazenados no armazenamento de objetos do provedor de nuvem. O Databricks dá suporte a três provedores de nuvem: AWS, Azure e GCP. Arquivos em vários formatos estruturados e semiestruturados (por exemplo, Parquet, CSV, JSON e Avro), bem como formatos não estruturados (como imagens e documentos), são ingeridos e transformados usando processos de lote ou streaming.

    Delta Lake é o formato de dados recomendado para o lakehouse (transações de arquivo, confiabilidade, consistência, atualizações e assim por diante). Também é possível ler tabelas Delta usando clientes Apache Iceberg.

    Nenhum formato de dados proprietário é usado na Plataforma de Inteligência de Dados do Databricks: Delta Lake e Iceberg são de software livre para evitar o bloqueio do fornecedor.

  • Governança de dados e IA

    Além da camada de armazenamento, o Catálogo do Unity oferece uma ampla gama de recursos de governança de dados e IA, incluindo gerenciamento de metadados no metastore, controle de acesso, auditoria, descoberta de dados e linhagem de dados.

    O monitoramento de qualidade de dados fornece métricas de qualidade prontas para dados e ativos de IA e painéis gerados automaticamente para visualizar essas métricas.

    Fontes SQL externas podem ser integradas ao lakehouse e ao Unity Catalog por meio da federação lakehouse.

  • Mecanismo de IA

    A Plataforma de Data Intelligence é criada com base na arquitetura do lakehouse e aprimorada pelos recursos da plataforma IA do Databricks. A IA do Databricks combina IA generativa com os benefícios de unificação da arquitetura lakehouse para entender a semântica exclusiva de seus dados. A Pesquisa Inteligente e o Assistente do Databricks são exemplos de serviços de IA que simplificam o trabalho com a plataforma para cada usuário.

  • Orquestração

    Trabalhos do Lakeflow permitem executar cargas de trabalho diversas em qualquer nuvem, abrangendo o ciclo completo de dados e IA. Eles permitem orquestrar tarefas, assim como Pipelines Declarativos do Lakeflow Spark para SQL, Spark, notebooks, DBT, modelos de Aprendizado de Máquina e muito mais.

    A plataforma também dá suporte ao CI/CD e ao MLOps

  • ferramentas ETL & DS

    Na camada de consumo, engenheiros de dados e engenheiros de ML normalmente trabalham com a plataforma usando IDEs. Os cientistas de dados geralmente preferem notebooks e usam os runtimes de ML &AI e o MLflow do sistema de fluxo de trabalho de aprendizado de máquina para acompanhar experimentos e gerenciar o ciclo de vida do modelo.

  • Ferramentas de BI

    Os analistas de negócios normalmente usam sua ferramenta de BI preferencial para acessar o data warehouse do Databricks. O SQL do Databricks pode ser consultado por diferentes ferramentas de Análise e BI, consulte BI e visualização

    Além disso, a plataforma oferece ferramentas de consulta e análise prontas para uso:

    • Painéis de IA/BI para arrastar e soltar visualizações de dados e compartilhar insights.
    • Especialistas em domínio, como analistas de dados, configuram espaços Genie de IA/BI com conjuntos de dados, consultas de exemplo e diretrizes de texto para ajudar o Genie a converter perguntas de negócios em consultas analíticas. Após a configuração, os usuários empresariais podem fazer perguntas e gerar visualizações para entender os dados operacionais.
    • Editor de SQL para analistas do SQL analisarem dados.
  • Aplicativos de dados e IA

    O Databricks Apps permite que os desenvolvedores criem dados seguros e aplicativos de IA na plataforma Databricks e compartilhem esses aplicativos com os usuários.

  • Colaboração

    O Compartilhamento Delta é um protocolo em aberto desenvolvido pela Databricks para proteger o compartilhamento de dados com outras organizações, independente das plataformas de computação usadas por elas.

    O Databricks Marketplace é um fórum aberto para a troca de produtos de dados. Ele aproveita o compartilhamento Delta para dar aos provedores de dados as ferramentas para compartilhar produtos de dados com segurança e consumidores de dados o poder de explorar e expandir seu acesso aos dados e serviços de dados de que precisam.

    As Salas Limpas usam o Compartilhamento Delta e a computação sem servidor para fornecer um ambiente seguro e de proteção de privacidade, em que várias partes podem trabalhar juntas em dados corporativos confidenciais sem acesso direto aos dados uns dos outros.