Partilhar via


Plataforma de dados para cargas de trabalho de IA no Azure

Escolher uma plataforma de dados envolve compreender os desafios únicos que estas soluções trazem. As soluções GenAI, especialmente aquelas construídas com modelos de fundação, dependem de dados diversificados e de alta qualidade, acesso rápido a armazenamentos de dados escaláveis que suportam pesquisa vetorial. O objetivo é satisfazer estas necessidades sem adicionar complexidade desnecessária à sua arquitetura. Compreender os princípios do design eficaz de pipelines de dados é essencial antes de avaliar as opções de plataformas.

Ao avaliar as escolhas de plataforma, comece por perguntar se realmente precisa de componentes adicionais. Arquiteturas mais simples são frequentemente mais rápidas de implementar, mais fáceis de gerir e mais económicas. Pergunte a si mesmo:

  • O modelo consegue atingir o desempenho esperado usando dados de uma única fonte?
  • O armazenamento de dados de origem já fornece as capacidades de análise ou pesquisa de que precisa?
  • Os dados de origem já estão estruturados e indexados para IA ou pesquisa vetorial?

Se a resposta for sim à maioria destas perguntas, uma arquitetura complexa pode não ser necessária. Por exemplo, bases de dados como Azure Cosmos DB e Azure SQL Database já suportam tipos de dados vetoriais e pesquisa vetorial nativamente, mas precisam de ser ativados e configurados. Estas capacidades podem reduzir a necessidade de indexação separada ou bases de dados vetoriais especializadas, minimizando o movimento de dados enquanto melhoram o desempenho.

À medida que a sua carga de trabalho cresce e os dados vêm de múltiplas fontes, a decisão da plataforma torna-se mais complexa. Pode ser necessário considerar soluções que suportem pipelines ETL ou ELT, índices de pesquisa especializados e armazenamento escalável para grandes conjuntos de dados. Cada capacidade adicional deve servir um propósito claro, em vez de simplesmente expandir a pilha tecnológica.

Este artigo fornece orientações sobre a escolha de uma plataforma de dados para cargas de trabalho onde os dados precisam de ser armazenados, processados ou analisados. O foco está em soluções que suportam IA generativa (GenAI). É altamente recomendável que você entenda os princípios de um bom design de pipeline de dados antes de explorar os recursos tecnológicos descritos neste artigo. Para mais informações, consulte Design de dados fundamentais.

Para recomendações específicas ao treino e ajuste fino de modelos discriminativos, consulte considerações sobre plataformas de dados de treino.

Considerações para a plataforma de armazenamento de dados

Em cargas de trabalho de IA, os dados normalmente passam por várias fases de armazenamento e processamento, guiados por pipelines que ligam cada etapa. Uma etapa importante é o armazenamento de dados que contém informação recolhida e combinada de múltiplas fontes. Este repositório permite-lhe processar e refinar os dados até estarem prontos para a próxima fase.

Nota

Pode não precisar deste componente na sua arquitetura. Em alguns casos, poderia aceder diretamente aos dados a partir dos sistemas de origem. No entanto, isso pode levar a problemas de desempenho e sobrecarregar esses sistemas com consultas de IA. Também pode causar dificuldades de acesso ou fiabilidade. Para evitar estes problemas, normalmente é melhor copiar os dados para um armazenamento dedicado para agregação e processamento.

Ao escolher uma plataforma para esta loja, certifique-se de que segue os mesmos padrões de segurança dos seus sistemas de origem, é económica e funciona bem com tarefas de processamento ETL, ELT ou EL. As suas opções podem variar desde soluções simples de armazenamento até plataformas de dados em grande escala, dependendo do volume de dados e das suas necessidades de desempenho. Procure uma opção de armazenamento que seja fiável, escalável e que ofereça um bom valor para a sua carga de trabalho.

Aqui ficam algumas perguntas para ajudar a orientar a sua escolha de tecnologia de armazenamento de dados.

A plataforma consegue lidar com diferentes formatos de dados?

O seu armazenamento de dados deve ser capaz de armazenar uma variedade de formatos de dados e, quando necessário, converter dados entre eles.

Por exemplo, se o seu pipeline de ingestão trouxer dados tanto de uma base de dados relacional como de um ficheiro JSON, deve suportar dados estruturados e semi-estruturados. Pode querer converter os seus dados para formato Delta para permitir a funcionalidade mais rica que a tecnologia Delta Lake oferece. A plataforma deve fornecer ferramentas integradas para este tipo de transformação, para que não precise de escrever código personalizado.

Espera armazenar várias versões dos dados?

Os dados mudam ao longo do tempo, tanto em valores como em estrutura, e os sistemas fonte normalmente armazenam apenas o estado atual. Se precisar de contexto histórico, escolha uma plataforma de dados que suporte versionamento. Sem isso, pode ter de duplicar conjuntos de dados, o que acrescenta complexidade.

O versionamento tem outros benefícios. Em alguns casos, pode ser necessário cópias separadas de dados para diferentes casos de uso. Cada cópia pode evoluir de forma independente, e a plataforma deve gerir a versão de todas as cópias para preservar o contexto dos seus modelos de IA.

A plataforma tem capacidades integradas de gestão do ciclo de vida dos dados?

A gestão do ciclo de vida dos dados (DLM) ajuda a controlar o crescimento desde a criação até à eliminação. A sua plataforma deve remover automaticamente cópias intermédias, gerir dados arquivados e apoiar a retenção regulatória quando necessário. Sem isso, os dados podem crescer descontroladamente e esse volume desnecessário pode dificultar o processamento. Por exemplo, pode ser necessário repetir várias etapas de pré-processamento para melhorar a qualidade dos dados. A plataforma deve remover automaticamente cópias intermédias quando deixarem de ser necessárias.

Noutros casos, pode ser necessário guardar dados para conformidade ou auditorias. Procure opções de armazenamento que suportem camadas frias ou arquivadas para dados raramente acessados a um custo mais baixo.

A plataforma suporta funcionalidades de governação de dados?

A auditabilidade é um aspeto importante para cargas de trabalho de IA. A sua plataforma deve manter registos de auditoria para acompanhar o acesso aos dados, garantir a privacidade e documentar as origens dos dados. Deve também suportar um dicionário ou catálogo de dados que gere metadados, tipos de dados, propósito e linhagem, especialmente quando os dados provêm de múltiplas fontes.

Quanto de dados espera armazenar?

As cargas de trabalho de IA geram grandes volumes de dados, que podem crescer ainda mais com múltiplas versões e metadados adicionais. A sua plataforma de dados deve escalar de forma eficiente tanto para armazenamento como para rendimento, lidando com elevadas taxas de ingestão, escritas simultâneas e processamento intensivo sem degradação do desempenho.

Ao escolher uma plataforma, considere todo o fluxo de trabalho, pois a ingestão e o processamento muitas vezes acontecem ao mesmo tempo. O sistema deve suportar processamento paralelo e movimentação frequente de dados, e fornecer telemetria para fornecer uma visão clara do desempenho de leitura e escrita.

Este armazenamento de dados é crítico para a fiabilidade da sua carga de trabalho?

Escolha uma plataforma que suporte fiabilidade e escalabilidade através de replicação ou múltiplas instâncias. Muitos grandes armazenamentos de big data utilizam controladores que distribuem o processamento automaticamente e fornecem failover quando uma instância se torna indisponível.

Os dados também precisam de ser duráveis e acessíveis. Certifique-se de que a plataforma garante a integridade dos dados, fornece APIs acessíveis e suporta capacidades de backup ou restauro caso reconstruir dados do zero seja dispendioso.

Tem alguma restrição de custo?

Depois de cumpridos os requisitos de fiabilidade e desempenho, considere como otimizar os custos. Para muitas tarefas de IA, um padrão de gravação única e leitura múltipla é suficiente e ajuda a controlar os custos. Os dados de grounding devem ser económicos de armazenar e recuperar, mesmo que não exija o mesmo nível de resposta que uma base de dados de produção. O objetivo é equilibrar custo, eficiência e desempenho.

Precisa de apoiar a soberania dos dados ou os requisitos regionais de conformidade?

Para cargas de trabalho que lidam com dados regulados ou sensíveis, considere implementar numa cloud soberana, como Azure Government, Microsoft Azure operado pela 21Vianet, ou outras Cloud de Parceiros Nacionais. Estes ambientes são concebidos para cumprir requisitos rigorosos de residência de dados, privacidade e conformidade, garantindo que o armazenamento, processamento e acesso aos dados permanecem dentro de jurisdições específicas.

As nuvens soberanas proporcionam maior controlo e independência sobre os seus dados, o que é frequentemente um requisito para setores como governo, defesa ou banca. No entanto, tenha em mente que algumas funcionalidades avançadas de IA e plataformas de dados podem ainda não estar disponíveis nestas regiões. Revise a disponibilidade de serviços antes de desenhar a sua arquitetura.

Use o Microsoft Purview para manter a catalogação, classificação e rastreio de linhagem de dados nestes ambientes. Para cargas de trabalho altamente confidenciais, considere usar computação confidencial e chaves geridas pelo cliente para reforçar a proteção de dados. Deve verificar se a sua missão está em conformidade com as regulamentações regionais.

Opções tecnológicas

Function Tecnologias Recomendadas Alternativas / Ferramentas Complementares
Armazenamento de dados multi-formato Azure Data Lake Storage Gen2, Microsoft Fabric Lakehouse, Azure Databricks Lakehouse Azure Blob Storage, Azure Synapse Analytics, on-premises data warehouse
Versionamento de dados e linhagem Microsoft Fabric Lakehouse, Azure Data Lake Storage Gen2 (with Delta Lake), Azure Databricks (Delta Lake) Git LFS, DVC (Controlo de Versões de Dados), Apache Iceberg
Gestão do ciclo de vida dos dados (DLM) Azure Data Lake Storage Gen2 (políticas de ciclo de vida), Azure Blob Storage (tiering), Azure Databricks (otimização de tabelas) Amazon S3 (políticas de ciclo de vida), Google Cloud Storage
Governação e catalogação de dados Microsoft Purview, Azure Databricks Unity Catalog Apache Atlas, DataHub, Collibra
Armazenamento de dados de alto volume Azure Data Lake Storage Gen2, Azure Synapse Analytics, Azure Databricks Lakehouse Azure Blob Storage, Hadoop HDFS, Amazon S3

Considerações para a plataforma de processamento de dados

A plataforma de processamento de dados desempenha um papel fundamental na preparação e transformação dos dados para que estejam prontos para uso posterior, seja em indexação RAG, análises ou outros casos de uso.

Nota

Para GenAI e geração aumentada por recuperação (RAG), é útil compreender a diferença entre processos ETL, ELT e EL.

  • ETL: Extrair, transformar e depois carregar, típico do data warehousing tradicional.
  • ELT: Extrair, carregar e depois transformar, comum em data lakes e ferramentas de big data como o PySpark.
  • EL: Extrair e carregar, usado em cenários RAG onde se armazenam documentos primeiro, depois se realizam transformações como fragmentação de texto ou extração de imagens.

Existem dois locais onde o processamento pode acontecer:

  • Camada de Ingestão. O pipeline de ingestão recolhe dados de várias fontes e transfere-os para o seu armazenamento agregado de dados. Ao longo do processo, frequentemente realiza pré-processamento ou formatação básica para que os dados sejam consultáveis. Para reduzir a necessidade de código personalizado, é melhor usar uma plataforma de dados que trate ao máximo disto possível. Ao avaliar ferramentas, considere as funcionalidades ETL ou ELT necessárias para suportar as suas cargas de trabalho de IA, como a ampliação de dados.

  • Camada de Processamento. Depois de os dados chegarem ao armazenamento agregado, normalmente precisam de um processamento mais profundo antes de estarem prontos para indexação ou utilização em modelos de IA. Estes pipelines devem oferecer níveis semelhantes de fiabilidade e escalabilidade à camada de ingestão, mas o foco passa para transformar e remodelar os dados.

As tarefas típicas incluem:

  • Reconhecimento e enriquecimento de entidades
  • Integração de fontes de dados adicionais
  • Realização de consultas e transformações
  • Limpeza ou eliminação de dados irrelevantes

Uma plataforma de dados forte ajuda a automatizar e orquestrar estas operações de forma eficiente.

Qual é o suporte para ligação a fontes de dados?

A plataforma deve ligar-se facilmente às fontes de dados das quais espera ingerir, sejam bases de dados relacionais, grandes fontes de dados ou armazenamento de blobs.

Procura conectores pré-concebidos e integrações de baixo código. Idealmente, quer conectores de arrastar e largar ou baseados em configuração que suportem consultas, cópia de dados e governação.

A plataforma consegue processar vários formatos de dados?

Os dados apresentam muitas formas: estruturados (SQL, tabelas relacionais), semi-estruturados (JSON, XML, Parquet) e não estruturados (documentos, imagens) e streaming (dados IoT). Escolha uma plataforma que consiga lidar com os formatos que o seu caso de uso exige, tendo em conta os requisitos imediatos e de longo prazo.

A plataforma oferece funcionalidades para preparação e reavaliação de dados?

Antes de os seus dados estarem prontos para indexação ou consumo de modelos, precisam de ser limpos, enriquecidos e remodelados. Suas estratégias de design de dados devem descrever explicitamente os requisitos. Uma boa plataforma deve:

  • Remover duplicados e preencher valores em falta
  • Realizar stemming, normalização e outras tarefas básicas de limpeza ao planear dar suporte a pesquisa por palavras-chave ou híbrida (palavra-chave + vetor)
  • Apoia transformações avançadas como chunking, enriquecimento e análise de documentos

Se o seu armazenamento de dados suportar estas operações nativamente, pode processar os dados no local sem os mover. Caso contrário, usa ferramentas externas como Azure Databricks ou Azure Data Factory para transformações pesadas.

Em alguns casos, pode optar por externalizar parte desta responsabilidade para a plataforma que suporta a próxima etapa. Um exemplo comum desta abordagem é a implementação do RAG. Durante o processamento, os documentos são divididos em blocos mais pequenos, com cada bloco armazenado como uma linha separada no índice. Estes pedaços são depois emparelhados com embeddings, muitas vezes gerados através de um serviço da OpenAI. No Azure AI Search, este processo é coordenado como parte do pipeline de enriquecimento durante a indexação, onde os documentos são processados por um modelo de incorporação (como um modelo de incorporação OpenAI) para gerar representações vetoriais, que são depois armazenadas no índice.

Existe algum orquestrador incorporado para gerir fluxos de trabalho?

O processamento de dados ocorre tipicamente como tarefas modulares que requerem coordenação complexa. A sua plataforma deve incluir um orquestrador para definir, agendar e monitorizar estes fluxos de trabalho. Procure:

  • Suporte para dependências de trabalhos e verificações que validam a sequência de execução
  • Modificação flexível dos fluxos de trabalho que permite ajustes fáceis sem reescrever grandes porções de código.
  • Capacidades de monitorização e registo

Ferramentas populares incluem o Azure Data Factory pelo seu rico conjunto de funcionalidades para gestão de fluxos de trabalho, ou o Azure Databricks para orquestração mais complexa. Se o custo for uma preocupação, o Apache NiFi ou o Airflow podem ser alternativas mais económicas.

Quanto de dados espera ingerir?

Estima a quantidade de dados que vais ingerir e a frequência de ingestão. Por exemplo, se espera carregar 10 terabytes de dados diariamente num índice, a plataforma deve suportar uma forte paralelização e execução distribuída. Para cargas de trabalho mais pequenas, ferramentas mais simples como Logic Apps podem funcionar, mas para volumes mais elevados, o Data Factory ou o Databricks são mais adequados. Para escalabilidade e rendimento, considere:

  • Volume e frequência de dados
  • Requisitos de latência tolerável
  • Complexidade do trabalho

Por exemplo, a limpeza de dados envolve a validação e, potencialmente, a substituição de campos inválidos ou o mascaramento de informações confidenciais. Essas tarefas, embora básicas, exigem recursos significativos porque cada linha é processada individualmente, o que aumenta o tempo total.

Que capacidades de monitorização necessitas?

Os pipelines de processamento de dados devem ter recursos de monitoramento e fornecer informações sobre o desempenho do pipeline e o status dos trabalhos. A sua plataforma deve fornecer:

  • Acompanhamento do progresso profissional
  • Logs, métricas e alertas para compreender o comportamento do pipeline
  • Integração com a sua stack de monitorização mais ampla

Identifique quaisquer lacunas na telemetria integrada e determine qual monitoramento adicional você precisa implementar. Esse monitoramento pode envolver a adição de logs ou métricas personalizadas para capturar detalhes específicos sobre as etapas do trabalho.

Quanta fiabilidade espera da plataforma de processamento de dados?

Escolha uma plataforma que minimize pontos únicos de falha e suporte novas tentativas para tarefas que falharam. Por exemplo, alojar lógica de processamento personalizada invocada a partir do Data Factory no Azure Kubernetes Service (AKS) normalmente oferece maior fiabilidade do que alojá-la no Azure Logic Apps.

Se os seus dados são atualizados raramente e lida com o processamento em lotes semanalmente, falhas ocasionais podem ser aceitáveis. Mas para cenários de IA em tempo real, vais precisar de maior fiabilidade.

Existem restrições de custo?

O objetivo é evitar sobreengenharia e escolher uma plataforma que se adapte às suas necessidades atuais, deixando espaço para escalar. Por exemplo, se não precisar das funcionalidades avançadas do Databricks, o Data Factory pode oferecer uma opção mais acessível. Ferramentas open-source como Airflow ou NiFi podem reduzir ainda mais os custos.

Quais são os requisitos de segurança nos fluxos de trabalho e nos dados que processam?

Os requisitos de segurança, privacidade e residência de dados devem orientar a sua escolha. Idealmente, a plataforma deve fornecer suporte integrado para esse isolamento que permita um gerenciamento de dados eficiente e seguro. No mínimo, certifique-se de que a plataforma:

  • Cumpre as leis regionais de residência de dados. Talvez seja necessário executar pipelines separados para diferentes regiões, como um para a Europa e outro para a América, para atender às regulamentações locais de conformidade.
  • Suporta a gestão de identidade e acessos (IAM) para garantir que apenas as identidades autorizadas tenham acesso a tarefas ou etapas específicas dentro dos fluxos de trabalho.
  • Permite controlo de acesso detalhado ao nível de fluxo de trabalho ou de um passo.

Opções tecnológicas

Function Tecnologias Recomendadas Alternativas / Ferramentas Complementares
Limpeza de dados Azure Data Factory, Azure Databricks, Microsoft Fabric Dataflows Apache NiFi, Apache Airflow
Transformação de dados Azure Databricks, Azure Synapse Analytics, Microsoft Fabric Data Engineering Azure Data Factory Pipelines
Enriquecimento de dados Azure AI Document Intelligence, Azure OpenAI Service, Azure AI Search APIs Python personalizadas ou serviços de IA de terceiros
Orquestração de fluxos de trabalho Azure Data Factory Pipelines, Databricks Jobs Apache Airflow, Apache NiFi
Fluxos de Trabalho RAG Azure OpenAI Service, Azure AI Search, Azure Databricks Microsoft Fabric Data Science

Considerações para um índice de pesquisa

Um índice de pesquisa armazena os dados contextuais ou de base que são enviados para o endpoint de inferência do modelo juntamente com o prompt. As consultas de índice são um componente crítico na preparação dos dados enviados ao modelo nos pedidos de inferência e devem proporcionar desempenho de baixa latência.

Ao contrário dos pipelines ETL orientados por lotes, este índice deve suportar inferência em tempo real, o que implica que o alto desempenho e a fiabilidade são inegociáveis. Foi concebido especificamente para cargas de trabalho de IA e suporta capacidades como indexação de palavras-chave, filtragem e pesquisa baseada em vetor, que vão além do que os repositórios de dados tradicionais oferecem.

O design ideal é um armazenamento de dados de alto desempenho, otimizado para leituras, que consiga lidar com consultas imprecisas ou difusas, mas ainda assim devolver resultados relevantes. Escolha a tecnologia de índice tendo esses pontos em mente.

Que tipos de pesquisa suporta o índice de pesquisa?

Cada pedido ao sistema pode resultar numa ou mais consultas ao índice. Para geração aumentada por recuperação (RAG) e outras cargas de trabalho impulsionadas por IA, a pesquisa vetorial é indispensável. A pesquisa vetorial permite ao sistema encontrar pontos de dados semanticamente semelhantes usando embeddings em vez de correspondências exatas de palavras-chave.

No entanto, combinar pesquisa vetorial com pesquisa em texto completo, filtragem e tipos de dados especiais (como a geolocalização) torna o índice muito mais poderoso.

O design dos seus dados deve especificar claramente quais os tipos de pesquisa necessários e como devem funcionar em conjunto. Para obter mais informações, consulte Consulta eficiente no design de dados.

Como é que o índice lida com dados multimodais?

As cargas de trabalho de IA frequentemente lidam com dados que incluem não só texto, mas também imagens, áudio ou vídeo. O próprio índice não consegue compreender diretamente as imagens. Portanto, antes de adicionar imagens ao índice, estas precisam de ser convertidas numa representação baseada em texto (usando OCR ou legendas de imagem), a partir da qual são geradas as incorporações, ou podem ser geradas diretamente a partir da imagem usando modelos de visão. O índice pode então realizar pesquisa vetorial, permitindo consultas semânticas.

Neste caso de uso, o índice de pesquisa deve ter:

  • Suporte para pesquisa vetorial para armazenar e consultar embeddings (vetores numéricos) derivados da imagem.
  • Integração com APIs externas e serviços de IA para extração ou enriquecimento de dados durante o processo de indexação.
  • Capacidade de armazenar campos extraídos (texto, etiquetas, legendas, embeddings) em campos de esquema apropriados como metadados para pesquisa e filtragem.

O índice suporta capacidades de atualização automática quando os dados nas fontes de dados mudam?

A automação é fundamental para manter a frescura dos dados. Selecione um índice que suporte atualizações automáticas ou atualizações incrementais quando os dados subjacentes mudam.

Se a plataforma não oferecer isto nativamente, terá de implementar um processo personalizado para detetar e enviar atualizações. Transferir esta responsabilidade para a plataforma pode reduzir a sobrecarga operacional e simplificar a manutenção, especialmente à medida que os volumes de dados aumentam.

O índice consegue lidar com grandes volumes de dados?

O índice deve escalar de forma eficiente à medida que o volume de dados cresce. Para cargas de trabalho que implementam RAG, cada documento é frequentemente dividido em múltiplos blocos, o que aumenta significativamente a quantidade de dados armazenados.

A plataforma escolhida deverá ser capaz de:

  • Escalar horizontalmente à medida que os dados crescem
  • Manter o desempenho das consultas sob carga elevada
  • Armazena tanto dados brutos como metadados, enriquecimentos e entidades relacionadas.

O Index tem funcionalidades de fiabilidade integradas?

A fiabilidade do índice de pesquisa deve espelhar a do seu endpoint de inferência, pois ambos fazem parte do mesmo caminho de processamento em tempo real.

Cada etapa deve cumprir expectativas semelhantes de tempo de atividade e desempenho. Para isso, ao escolher a plataforma de dados, procure:

  • Alta disponibilidade e capacidades de redundância de zonas para sobreviver a interrupções zonais e regionais.
  • Recuperação automática e fácil reconstrução de índices para evitar o uso de um índice corrompido para inferências.
  • Capacidades de aliasing ou troca de índice para permitir atualizações sem interrupção.

Além disso, compreenda os modos de falha do sistema ou os indicadores de sobrecarga, como o estrangulamento. Por exemplo, durante a reindexação em segundo plano, a taxa de transferência pode diminuir. O sistema normalmente pode gerir 50 utilizadores simultâneos, mas apenas 30 durante esse trabalho. Planeie o tempo e a capacidade dos trabalhos em conformidade, tendo em conta tanto as consultas front-end como as tarefas de manutenção back-end.

Quais são os principais fatores de custo desta tecnologia?

Os custos do índice de pesquisa são tipicamente baseados na utilização, por isso é importante modelar o volume de dados esperado, a taxa de consulta e a largura de banda.

A maioria das plataformas de índice, como o Azure AI Search, são ofertas de Plataforma como Serviço (PaaS), onde os preços são abstraídos e apresentados em unidades de capacidade, armazenamento e utilização de funcionalidades.

Tenha em atenção a:

  • Preços por níveis e limites de escalabilidade
  • Custos extra de funcionalidades avançadas (por exemplo, extração de imagem ou enriquecimento de competências)
  • Capacidade não utilizada em níveis sobreprovisionados
  • Complexidade de índice (número de índices e limites concorrentes de consultas)

Para entender os custos associados à Pesquisa de IA, consulte Planejar e gerenciar custos de um serviço de Pesquisa de IA.

As funcionalidades de segurança do índice correspondem ao seu design de dados de segurança?

O design dos seus dados deve especificar claramente os requisitos de segurança e privacidade, e o seu índice deve suportá-los totalmente. Ao trabalhar em ambientes de desenvolvimento ou de teste que utilizam dados reais, certifique-se de que o índice cumpre as políticas de controlo de acesso e rastreabilidade. Procure características como:

  • Mascaramento de dados e remoção de PII
  • Gestão de identidade do cliente através do Microsoft Entra ID
  • Controlos de acesso ao nível do documento para filtrar resultados com base na identidade do utilizador

Se a plataforma não suportar isto nativamente, considere implementar filtros ao nível da consulta como plano B. Para obter mais informações, consulte Filtros de segurança para cortar resultados na Pesquisa de IA.

Do ponto de vista da segurança de rede, o índice deve:

  • Suportar controlo de saída e segmentação de rede
  • Integrar com redes privadas quando a computação é executada numa rede virtual
  • Use identidades geridas para autenticação através do Microsoft Entra ID
  • Evite expor componentes diretamente à internet pública

Os embeddings podem ainda expor informações sensíveis se não estiverem devidamente protegidos. Os riscos incluem inversão de embedding (reconstrução de texto original a partir de vetores), envenenamento de dados (inserção de vetores maliciosos) e acesso não autorizado a armazenamentos ou backups de embedding. Para mitigar estes riscos, aplique medidas de segurança como:

  • Encriptação em repouso e em trânsito
  • Controlos de acesso rigorosos
  • Conectividade de rede privada discutida acima
  • Monitorizar a incorporação dos endpoints para detetar anomalias ou adulteração

Tal como outros tipos de dados, existem processos para remover dados sensíveis ou pessoais. Tratar os índices vetoriais como armazenamentos de dados sensíveis que requerem o mesmo nível de segurança e governação que outros sistemas de produção.

Opções tecnológicas

Function Tecnologias Recomendadas Alternativas / Ferramentas Complementares
Pesquisa vetorial e pesquisa semântica Azure AI Search, Azure Cosmos DB (vector search), Azure Database for PostgreSQL (pgvector) Pinecone, Weaviate, Chroma, Qdrant
Pesquisa em texto completo e indexação por palavras-chave Pesquisa de IA do Azure Elasticsearch, Apache Solr, Azure SQL Database Full-Text Search
Processamento de dados multimodal Azure AI Search (com conjuntos de habilidades), Azure AI Document Intelligence, Azure AI Vision Processamento personalizado com APIs OpenAI, Amazon Textract
Atualização e indexação automática de dados Ferramenta de Pesquisa do Azure AI (com indexadores), acionadores do Azure Data Factory Soluções de sondagem personalizadas, Apache NiFi, captura de dados de alterações
Alta disponibilidade e fiabilidade Azure AI Search (redundância de zona), Azure Cosmos DB (distribuição global) Implementações multi-região, balanceadores de carga, Azure Traffic Manager
Aliás de índice e atualizações sem interrupção Azure AI Search (index aliases), Azure Cosmos DB Padrões de implementação azul-verde, lógica de encaminhamento personalizada
Segurança ao nível de documentos e controlo de acessos Azure AI Search (filtros de segurança), integração com o Microsoft Entra ID Camadas de autorização personalizadas, segurança ao nível das linhas em bases de dados
Segurança de rede e acesso privado Azure Private Link, integração com Rede Virtual, Identidades Geridas Gateways VPN, Azure Firewall, grupos personalizados de segurança de rede

Considerações de formação e afinação

Ao desenhar a sua plataforma de dados para cargas de trabalho tradicionais de aprendizagem automática (ML) ou não-GenAI, o seu foco muda da inferência em tempo real para a qualidade dos dados, reprodutibilidade e separação do ambiente. Estas cargas de trabalho dependem de dados agregados bem estruturados e frequentemente envolvem camadas adicionais, como repositórios de funcionalidades e armazenamentos de dados de inferência em lote, para otimizar o desempenho do modelo e a eficiência de custos.

É altamente recomendável que você entenda os princípios de um bom design de pipeline de dados antes de explorar os recursos tecnológicos descritos neste artigo. Para mais informações, consulte Design de Dados de Treino.

Planeia realizar formação com dados de produção?

A forma como implementas os teus modelos determina quão fortemente os dados de produção estão ligados ao teu ambiente de desenvolvimento. Existem duas abordagens principais de implantação:

  • Implementação de modelos. O modelo é treinado ou ajustado usando dados de produção durante o desenvolvimento. Esta abordagem pode melhorar a relevância do modelo, mas exige controlos de segurança rigorosos, uma vez que dados sensíveis estão a ser usados fora da produção.

  • Implementação de código. O modelo é treinado usando dados não de produção durante o desenvolvimento e só interage com dados reais depois de ser implementado em produção. Este método simplifica a segurança do desenvolvimento, mas pode aumentar os custos de computação e armazenamento, uma vez que o treino pode ter de ser repetido em múltiplos ambientes.

Independentemente da abordagem, a sua plataforma de dados deve separar claramente os ambientes de desenvolvimento e produção, garantindo o isolamento adequado e controlo de acessos.

Estás a dar prioridade à conveniência em vez da funcionalidade?

Ao escolher uma plataforma de dados para ML, não tome a decisão apenas com base no suporte de notebooks.

Os cadernos são ótimos para análise exploratória de dados, mas não são um fator decisivo na escolha de uma plataforma de dados de grau de produção. Os recursos computacionais de notebooks normalmente ficam fora do armazenamento de dados de agregação e estão integrados com ferramentas externas como Azure Machine Learning ou Databricks Workspaces.

Priorize capacidades essenciais, como versionamento de dados, governação, escalabilidade e segurança — em detrimento de funcionalidades de conveniência.

Como irá processar e preparar os seus dados?

Nas cargas de trabalho de ML, o padrão de processamento de dados que escolhes tem um grande impacto na flexibilidade e no desempenho.

  • ETL (Extrair, Transformar, Carregar) – Comum no armazenamento de dados tradicional, onde as restrições de esquema exigem que transforme os dados antes de os carregar no sistema de destino.
  • ELT (Extrair, Carregar, Transformar) – Típico para data lakes ou arquitetura lakehouse, onde os dados brutos são carregados primeiro e depois transformados usando ferramentas como Python ou PySpark.
  • EL (Extrair, Carregar) – Comum em padrões GenAI e RAG, onde se armazenam primeiro documentos ou media e se realizam transformações a jusante (como fragmentação de texto ou extração de imagens) mais tarde.

O ELT é frequentemente preferido porque preserva dados brutos e permite transformações mais flexíveis durante a preparação do modelo.

Precisas de uma loja de funcionalidades?

É frequentemente benéfico introduzir um feature store como camada intermédia de dados entre o seu armazenamento de dados agregados e o ambiente de treino.

Uma loja de funcionalidades funciona como um catálogo de funcionalidades selecionadas, completo com metadados como linhagem de funcionalidades, tempo de geração e origem. É o lugar perfeito para manter dados de treino "dourados" que podem ser reutilizados em múltiplos modelos ou experimentos.

As lojas de funcionalidades geridas, como a do Azure Machine Learning, integram-se diretamente com o MLflow e outras ferramentas do ciclo de vida de ML. Permitem reprodutibilidade, governação e controlo de versões para as suas funcionalidades.

Trate o armazenamento de funcionalidades como um armazenamento de dados sensíveis por si só, com controlos de acesso adequados, encriptação e auditoria.

Deves usar um armazenamento de dados de inferência por lote?

Em alguns casos, pode melhorar o desempenho e reduzir custos realizando inferências em lote, ou seja, pré-computando os resultados da inferência e armazenando-os para uso posterior, em vez de chamar o modelo em tempo real.

Esta abordagem pode ser altamente eficaz quando as mesmas consultas ou previsões são solicitadas repetidamente (por exemplo, gerando FAQs ou recomendações padrão).

Os principais benefícios incluem:

  • Latência reduzida e melhoria da experiência do utilizador, os resultados são apresentados instantaneamente.
  • Escalabilidade mais fácil porque a inferência pode ser agrupada e distribuída offline.
  • Fiabilidade aumentada que evita colocar carga em tempo real no endpoint de inferência.
  • Custos de computação mais baixos resultantes do processamento em lote podem usar hardware de nível inferior.
  • Pré-validação incorporada, onde os resultados podem ser verificados quanto à precisão antes de serem expostos aos utilizadores.

No entanto, esta abordagem funciona melhor quando uma percentagem significativa das previsões é reutilizada. Se a sua carga de trabalho envolve maioritariamente consultas únicas, manter um armazenamento de inferência em lote pode não compensar a complexidade.

O seu armazenamento de dados de inferência em lote deve ser otimizado para operações de leitura, escalável o suficiente para lidar com grandes conjuntos de dados e integrado com o seu armazenamento agregado de dados.

Tecnologias que se enquadram neste padrão incluem o Azure Cosmos DB para acesso rápido e distribuído globalmente, ou o Azure Table Storage para cargas de trabalho mais simples, de menor custo e leitura pesadas.

Opções tecnológicas

Function Tecnologias recomendadas Alternativas / ferramentas complementares
Armazenamento agregado de dados Azure Data Lake Storage Gen2, Microsoft Fabric Lakehouse, Azure Synapse Analytics Azure Blob Storage, SQL Database, armazém de dados local
Processamento e transformação de dados (ETL/ELT) Azure Data Factory, Azure Databricks (PySpark, SQL), Microsoft Fabric Data Engineering Apache Airflow, Apache NiFi, Synapse Pipelines
Ambiente de desenvolvimento e formação Azure Machine Learning (com integração MLflow), Azure Databricks Workspaces JupyterHub, Kubeflow, Amazon SageMaker
Armazenamento de funcionalidades Azure Machine Learning Feature Store, Databricks Feature Store Feast (código aberto), Tecton
Inferência em lote Azure Cosmos DB, Azure Table Storage Azure SQL Database, PostgreSQL, Redis Cache
Registo de modelos e rastreio de experiências MLflow (integrado em Azure Machine Learning ou Databricks) Weights & Biases, Neptune.ai, DVC
Orquestração e automação Azure Data Factory Pipelines, Azure Machine Learning Pipelines Fluxo de Ar Apache, Prefeito
Segurança e controlo de acessos Microsoft Entra ID (Azure AD), Azure Key Vault, Managed Identities HashiCorp Vault, AWS IAM

Próximos passos