Compartir a través de


Plataforma de datos para cargas de trabajo de inteligencia artificial en Azure

Elegir una plataforma de datos implica comprender los desafíos de datos únicos que aportan estas soluciones. Las soluciones de GenAI, especialmente las creadas con modelos de base, dependen de datos diversos y de alta calidad, acceso rápido a almacenes de datos escalables que admiten la búsqueda vectorial. El objetivo es satisfacer estas necesidades sin agregar complejidad innecesaria a la arquitectura. Comprender los principios del diseño eficaz de la canalización de datos es esencial antes de evaluar las opciones de la plataforma.

Al evaluar las opciones de la plataforma, empiece preguntando si realmente necesita componentes adicionales. Las arquitecturas más sencillas a menudo son más rápidas de implementar, más fáciles de administrar y más rentables. Pregúntese lo siguiente:

  • ¿El modelo puede lograr su rendimiento esperado mediante datos de un único origen?
  • ¿El almacén de datos de origen ya proporciona las funcionalidades de análisis o búsqueda que necesita?
  • ¿Están los datos de origen ya estructurados e indexados para la búsqueda de IA o la búsqueda vectorial?

Si la respuesta es sí a la mayoría de estas preguntas, es posible que no sea necesaria una arquitectura compleja. Por ejemplo, las bases de datos como Azure Cosmos DB y Azure SQL Database ya admiten tipos de datos vectoriales y búsqueda de vectores de forma nativa, pero deben habilitarse y configurarse. Estas funcionalidades pueden reducir la necesidad de separar la indexación o las bases de datos vectoriales especializadas, lo que minimiza el movimiento de datos a la vez que mejora el rendimiento.

A medida que la carga de trabajo crece y los datos proceden de varios orígenes, la decisión de la plataforma se vuelve más compleja. Es posible que tenga que tener en cuenta las soluciones que admiten canalizaciones ETL o ELT, índices de búsqueda especializados y almacenamiento escalable para grandes conjuntos de datos. Cada funcionalidad agregada debe servir para un propósito claro en lugar de simplemente expandir la pila de tecnología.

En este artículo se proporcionan instrucciones sobre cómo elegir una plataforma de datos para cargas de trabajo en las que los datos deben almacenarse, procesarse o analizarse. El enfoque se centra en las soluciones que admiten Inteligencia Artificial Generativa (GenAI). Le recomendamos encarecidamente que comprenda los principios del diseño de canalización de datos correctos antes de explorar las funcionalidades tecnológicas que describe este artículo. Para obtener más información, consulte Fundamentación del diseño de datos.

Para obtener recomendaciones específicas para el entrenamiento y ajuste de modelos discriminativos, consulte Consideraciones sobre la plataforma de datos de entrenamiento.

Consideraciones para la plataforma de almacenamiento de datos

En las cargas de trabajo de IA, los datos normalmente se mueven a través de varias fases de almacenamiento y procesamiento, guiadas por canalizaciones que conectan cada paso. Una fase importante es el almacén de datos que contiene información recopilada y combinada de varios orígenes. Este almacén le permite procesar y refinar los datos hasta que esté listo para la siguiente fase.

Nota:

Es posible que no necesite este componente en la arquitectura. En algunos casos, podría acceder a los datos directamente desde los sistemas de origen. Sin embargo, si lo hace, puede provocar problemas de rendimiento y puede sobrecargar esos sistemas con consultas de IA. También puede provocar desafíos de acceso o confiabilidad. Para evitar estos problemas, normalmente es mejor copiar los datos en un almacén dedicado para la agregación y el procesamiento.

Al elegir una plataforma para este almacén, asegúrese de que sigue los mismos estándares de seguridad que los sistemas de origen, es rentable y funciona bien con las tareas de procesamiento ETL, ELT o EL. Las opciones pueden variar desde soluciones de almacenamiento sencillas a plataformas de datos a gran escala, en función del volumen de datos y las necesidades de rendimiento. Busque una opción de almacenamiento confiable, escalable y proporcione un buen valor para la carga de trabajo.

Estas son algunas preguntas que le ayudarán a guiar su elección de tecnología de almacén de datos.

¿La plataforma puede controlar diferentes formatos de datos?

El almacén de datos debe poder almacenar una variedad de formatos de datos y, cuando sea necesario, convertir datos entre ellos.

Por ejemplo, si la canalización de ingesta trae datos de una base de datos relacional y un archivo JSON, debe admitir datos estructurados y semiestructurados. Es posible que quiera convertir los datos en formato Delta para habilitar la funcionalidad más completa que proporciona la tecnología delta Lake. La plataforma debe proporcionar herramientas integradas para este tipo de transformación para que no sea necesario escribir código personalizado.

¿Espera almacenar varias versiones de los datos?

Los datos cambian con el tiempo en los valores y la estructura, y los sistemas de origen suelen almacenar solo el estado actual. Si necesita contexto histórico, elija una plataforma de datos que admita el control de versiones. Sin él, es posible que tenga que duplicar conjuntos de datos, lo que agrega complejidad.

El control de versiones tiene otras ventajas. En algunos casos, es posible que necesite copias independientes de los datos para distintos casos de uso. Cada copia puede evolucionar de forma independiente y la plataforma debe administrar el control de versiones en todas las copias para conservar el contexto de los modelos de IA.

¿La plataforma tiene funcionalidades integradas de administración del ciclo de vida de los datos?

La administración del ciclo de vida de los datos (DLM) ayuda a controlar el crecimiento de la creación a la eliminación. La plataforma debe quitar automáticamente copias intermedias, administrar datos archivados y admitir la retención normativa cuando sea necesario. Sin eso, los datos pueden crecer sin control y ese volumen innecesario puede dificultar el procesamiento. Por ejemplo, es posible que tenga que volver a ejecutar pasos de preprocesamiento varias veces para mejorar la calidad de los datos. La plataforma debe quitar automáticamente copias intermedias cuando ya no sean necesarias.

En otros casos, es posible que tenga que conservar los datos para el cumplimiento o las auditorías. Busque opciones de almacenamiento que admitan niveles inactivos o archivados para datos a los que rara vez se accede a ellos a un costo menor.

¿La plataforma admite características de gobernanza de datos?

La auditabilidad es un aspecto importante para las cargas de trabajo de IA. La plataforma debe mantener pistas de auditoría para realizar un seguimiento del acceso a los datos, garantizar la privacidad y documentar los orígenes de datos. También debe admitir un diccionario de datos o catálogo que administre metadatos, tipos de datos, propósito y linaje, especialmente cuando los datos proceden de varios orígenes.

¿Cuántos datos espera almacenar?

Las cargas de trabajo de IA generan grandes volúmenes de datos, lo que puede aumentar aún más con varias versiones y metadatos adicionales. La plataforma de datos debe escalar de forma eficaz para el almacenamiento y el rendimiento, controlar altas tasas de ingesta, escrituras simultáneas y procesamiento intensivo sin degradación del rendimiento.

Al elegir una plataforma, tenga en cuenta todo el flujo de trabajo, ya que la ingesta y el procesamiento a menudo se producen al mismo tiempo. El sistema debe admitir el procesamiento paralelo y el movimiento frecuente de datos y proporcionar telemetría para proporcionar información clara sobre el rendimiento de lectura y escritura.

¿Este almacén de datos es fundamental para la confiabilidad de la carga de trabajo?

Elija una plataforma que admita confiabilidad y escalabilidad a través de la replicación o varias instancias. Muchos almacenes de macrodatos usan controladores que distribuyen el procesamiento automáticamente y proporcionan conmutación por error cuando una instancia deja de estar disponible.

Los datos también deben ser duraderos y accesibles. Asegúrese de que la plataforma garantiza la integridad de los datos, proporciona API accesibles y admite funcionalidades de copia de seguridad o restauración si la regeneración de datos desde cero sería costosa.

¿Tiene alguna restricción de costos?

Una vez cumplidos los requisitos de confiabilidad y rendimiento, considere cómo optimizar los costos. Para muchas cargas de trabajo de IA, un patrón de escribir una vez y leer muchas veces resulta suficiente y ayuda a controlar los gastos. Los datos de puesta a tierra deben ser rentables para almacenar y recuperar, incluso si no requiere el mismo nivel de capacidad de respuesta que una base de datos de producción. El objetivo es equilibrar el costo, la eficiencia y el rendimiento.

¿Necesita cumplir con la soberanía de datos o los requisitos de cumplimiento regional?

En el caso de las cargas de trabajo que controlan los datos regulados o confidenciales, considere la posibilidad de implementar en una nube soberana, como Azure Government, Microsoft Azure operado por 21Vianet u otras nubes de asociados nacionales. Estos entornos están diseñados para cumplir los estrictos requisitos de residencia, privacidad y cumplimiento de datos al garantizar que el almacenamiento, el procesamiento y el acceso de datos permanezcan dentro de jurisdicciones específicas.

Las nubes soberanas proporcionan un mayor control e independencia sobre los datos, que a menudo es un requisito para sectores como gobierno, defensa o banca. Sin embargo, tenga en cuenta que es posible que algunas características avanzadas de inteligencia artificial y plataforma de datos aún no estén disponibles en estas regiones. Revise la disponibilidad del servicio antes de diseñar la arquitectura.

Use Microsoft Purview para mantener el catálogo de datos, la clasificación y el seguimiento de linaje en estos entornos. Para cargas de trabajo altamente confidenciales, considere la posibilidad de usar la computación confidencial y las claves administradas por el cliente para reforzar la protección de datos. Debe comprobar que la implementación se alinea con las regulaciones regionales.

Opciones de tecnología

Function Tecnologías recomendadas Alternativas/Herramientas complementarias
Almacenamiento de datos de varios formatos Azure Data Lake Storage Gen2, Microsoft Fabric Lakehouse, Azure Databricks Lakehouse Azure Blob Storage, Azure Synapse Analytics, almacenamiento de datos local
Control de versiones de datos y linaje Microsoft Fabric Lakehouse, Azure Data Lake Storage Gen2 (con Delta Lake), Azure Databricks (Delta Lake) Git LFS, DVC (control de versiones de datos), Apache Iceberg
Administración del ciclo de vida de datos (DLM) Azure Data Lake Storage Gen2 (directivas de ciclo de vida), Azure Blob Storage (niveles), Azure Databricks (optimización de tablas) Amazon S3 (directivas de ciclo de vida), Google Cloud Storage
Gobernanza y catalogación de datos Catálogo de Unity de Microsoft Purview, Azure Databricks Apache Atlas, DataHub, Collibra
Almacenamiento de datos de gran volumen Azure Data Lake Storage Gen2, Azure Synapse Analytics, Azure Databricks Lakehouse Azure Blob Storage, Hadoop HDFS, Amazon S3

Consideraciones para la plataforma de procesamiento de datos

La plataforma de procesamiento de datos desempeña un papel clave en la preparación y transformación de los datos para que esté lista para su uso posterior, ya sea indización de RAG, análisis u otro caso de uso.

Nota:

Para GenAI y la generación aumentada por recuperación (RAG), es útil comprender la diferencia entre los procesos ETL, ELT y EL.

  • ETL: extraiga, transforme y cargue, típico para el almacenamiento de datos tradicional.
  • ELT: extraiga, cargue y transforme, común para los lagos de datos y las herramientas de macrodatos como PySpark.
  • EL: Extraer y cargar, que se usa en escenarios RAG en los que se almacenan primero los documentos y luego realizar transformaciones como la fragmentación de texto o la extracción de imágenes más adelante.

Hay dos lugares en los que puede producirse el procesamiento:

  • Capa de ingesta. La canalización de ingesta recopila datos de varios orígenes y los mueve al almacén de datos agregado. A lo largo del proceso, a menudo realiza preprocesamiento básico o formato para que los datos se puedan consultar. Para reducir la necesidad de código personalizado, es mejor usar una plataforma de datos que controle tanto de esto como sea posible. Al evaluar las herramientas, tenga en cuenta las características ETL o ELT necesarias para admitir las cargas de trabajo de IA, como la ampliación de datos.

  • Capa de procesamiento. Una vez que los datos llegan al almacén agregado, normalmente necesita un procesamiento más profundo antes de que esté listo para la indexación o el uso en los modelos de IA. Estas canalizaciones deben ofrecer niveles similares de confiabilidad y escalabilidad como la capa de ingesta, pero el enfoque cambia a transformar y reestructurar los datos.

Entre las tareas típicas se incluyen:

  • Reconocimiento y enriquecimiento de entidades
  • Integración de orígenes de datos adicionales
  • Realización de búsquedas y transformaciones
  • Limpieza o eliminación de datos irrelevantes

Una plataforma de datos sólida ayuda a automatizar y organizar estas operaciones de forma eficaz.

¿Cuál es el soporte para la conexión a fuentes de datos?

La plataforma debe conectarse fácilmente a orígenes de datos de los que espera ingerir, independientemente de si se trata de bases de datos relacionales, orígenes de macrodatos o almacenamiento de blobs.

Busque conectores precompilados y integraciones de poco código. Lo ideal es que desee conectores basados en arrastrar y colocar o basados en configuración que admitan búsquedas, copia de datos y gobernanza.

¿La plataforma puede procesar varios formatos de datos?

Los datos vienen en muchas formas: estructurados (SQL, tablas relacionales), semiestructurados (JSON, XML, Parquet) y no estructurados (documentos, imágenes) y streaming (datos de IoT). Elija una plataforma que pueda manejar los formatos que tu caso de uso requiere, teniendo en cuenta los requisitos inmediatos y a largo plazo.

¿Ofrece la plataforma características para la preparación y la recopia de datos?

Antes de que los datos estén listos para la indexación o el consumo del modelo, deben ser limpiados, enriquecidos y reformados. Las estrategias de diseño de datos deben describir explícitamente los requisitos. Una buena plataforma debe:

  • Quitar duplicados y rellenar los valores que faltan
  • Gestiona la derivación, normalización y otras tareas básicas de limpieza al planear el soporte para la búsqueda de palabras clave o híbrida (palabra clave+vector)
  • Compatibilidad con transformaciones avanzadas, como fragmentación, enriquecimiento y análisis de documentos

Si el almacén de datos admite estas operaciones de forma nativa, puede procesar los datos en su lugar sin moverlos. De lo contrario, use herramientas externas como Azure Databricks o Azure Data Factory para realizar transformaciones intensivas.

En algunos casos, puede optar por externalizar parte de esta responsabilidad a la plataforma que admite la siguiente fase. Un ejemplo común de este enfoque es la implementación de RAG. Durante el procesamiento, los documentos se dividen en fragmentos más pequeños, con cada fragmento almacenado como una fila independiente en el índice. A continuación, estos fragmentos se emparejan con incrustaciones, que a menudo se generan a través de un servicio OpenAI. En Azure AI Search, este proceso se orquesta como parte de la canalización de enriquecimiento durante la indexación, donde un modelo de inserción procesa documentos (como un modelo de inserción de OpenAI) para generar representaciones vectoriales que se almacenan en el índice.

¿Hay un orquestador integrado para administrar flujos de trabajo?

El procesamiento de datos suele ocurrir como trabajos modulares que necesitan una coordinación compleja. La plataforma debe incluir un orquestador para definir, programar y supervisar estos flujos de trabajo. Busque:

  • Compatibilidad con dependencias de trabajo y comprobaciones que validan la secuencia de ejecución
  • Modificación flexible de flujos de trabajo que permite ajustes sencillos sin volver a escribir grandes partes del código.
  • Funcionalidades de supervisión y registro

Entre las herramientas populares se incluyen Azure Data Factory para su conjunto de características enriquecido para la administración de flujos de trabajo o Azure Databricks para una orquestación más compleja. Si el costo es un problema, Apache NiFi o Airflow pueden ser alternativas más económicas.

¿Cuántos datos espera ingerir?

Calcule la cantidad de datos que ingerirá y la frecuencia de ingesta. Por ejemplo, si espera cargar 10 terabytes de datos diariamente en un índice, la plataforma debe admitir la paralelización segura y la ejecución distribuida. Para cargas de trabajo más pequeñas, las herramientas más sencillas, como Logic Apps, pueden funcionar, pero para volúmenes más altos, Data Factory o Databricks son más adecuados. Para la escalabilidad y el rendimiento, tenga en cuenta lo siguiente:

  • Volumen y frecuencia de datos
  • Requisitos de latencia tolerable
  • Complejidad del trabajo

Por ejemplo, la limpieza de datos implica validar y reemplazar potencialmente campos no válidos o enmascarar información confidencial. Estas tareas, aunque básicas, requieren recursos significativos porque cada fila se procesa individualmente, lo que agrega al tiempo total.

¿Qué funcionalidades de supervisión necesita?

Las canalizaciones de procesamiento de datos deben tener funcionalidades de supervisión y proporcionar información sobre el rendimiento y el estado de los trabajos de la canalización. La plataforma debe proporcionar lo siguiente:

  • Seguimiento del progreso del trabajo
  • Registros, métricas y alertas para comprender el comportamiento de la canalización
  • Integración con su conjunto de herramientas de monitoreo más amplio.

Identifique las brechas en la telemetría integrada y determine qué supervisión adicional necesita implementar. Esta supervisión puede implicar agregar métricas o registro personalizados para capturar detalles específicos sobre los pasos del trabajo.

¿Cuánto confiabilidad espera de la plataforma de procesamiento de datos?

Elija una plataforma que minimice los puntos únicos de error y admita reintentos para las tareas con errores. Por ejemplo, hospedar la lógica de procesamiento personalizada invocada desde Data Factory en Azure Kubernetes Service (AKS) normalmente ofrece una mayor confiabilidad que hospedarla en Azure Logic Apps.

Si los datos se actualizan con poca frecuencia y controla el procesamiento a través del procesamiento por lotes semanal, los errores ocasionales pueden ser aceptables. Pero para escenarios de inteligencia artificial en tiempo real, necesitará una mayor confiabilidad.

¿Hay alguna restricción de costos?

El objetivo es evitar la ingeniería excesiva y elegir una plataforma que se adapte a sus necesidades hoy mismo mientras se deja espacio para escalar. Por ejemplo, si no necesita características avanzadas de Databricks, Data Factory podría ofrecer una opción más asequible. Las herramientas de código abierto como Airflow o NiFi pueden reducir aún más los costos.

¿Cuáles son los requisitos de seguridad de los flujos de trabajo y de los datos que procesa?

Los requisitos de seguridad, privacidad y residencia de datos deben guiar su elección. Lo ideal es que la plataforma proporcione compatibilidad integrada con este aislamiento que permita una administración de datos eficaz y segura. Al menos, asegúrese de que la plataforma:

  • Cumple las leyes regionales de residencia de datos. Es posible que tenga que ejecutar canalizaciones independientes para diferentes regiones, como una para Europa y otra para América, para cumplir con las regulaciones de cumplimiento locales.
  • Admite la administración de identidades y acceso (IAM) para asegurarse de que solo las identidades autorizadas tengan acceso a trabajos o pasos específicos dentro de los flujos de trabajo.
  • Permite un control de acceso fino a nivel de flujo de trabajo o de pasos.

Opciones de tecnología

Function Tecnologías recomendadas Alternativas/Herramientas complementarias
Limpieza de datos Azure Data Factory, Azure Databricks, flujos de datos de Microsoft Fabric Apache NiFi, Apache Airflow
Transformación de datos Azure Databricks, Azure Synapse Analytics, Ingeniería de datos de Microsoft Fabric Canalizaciones de Azure Data Factory
Enriquecimiento de datos Inteligencia de documentos de Azure AI, Servicio Azure OpenAI, Azure AI Search API personalizadas de Python o servicios de inteligencia artificial de terceros
Orquestación de flujo de trabajo Pipelines de Azure Data Factory, Jobs de Databricks Apache Airflow, Apache NiFi
Flujos de Trabajo RAG Azure OpenAI Service, Azure AI Search, Azure Databricks Ciencia de datos de Microsoft Fabric

Consideraciones para un índice de búsqueda

Un índice de búsqueda almacena los datos contextuales o de referencia que se envían al punto de conexión de inferencia de un modelo junto con la solicitud. Las consultas de índice son un componente fundamental para preparar los datos enviados al modelo en las solicitudes de inferencia y deben ofrecer un rendimiento de baja latencia.

A diferencia de las canalizaciones ETL orientadas a lotes, este índice debe admitir la inferencia en tiempo real, lo que significa que el alto rendimiento y la confiabilidad no son negociables. Está diseñado específicamente para cargas de trabajo de INTELIGENCIA ARTIFICIAL y admite funcionalidades como la indexación de palabras clave, el filtrado y la búsqueda basada en vectores, que van más allá de lo que proporcionan los almacenes de datos tradicionales.

El diseño ideal es un almacén de datos de alto rendimiento, optimizado para lecturas, que puede controlar consultas imprecisas o aproximadas, a la vez que devuelve resultados relevantes. Elija la tecnología de índice teniendo en cuenta esos puntos.

¿Qué tipos de búsqueda admite el índice de búsqueda?

Cada solicitud al sistema puede dar lugar a una o varias consultas al índice. Para la generación aumentada de recuperación (RAG) y otras cargas de trabajo controladas por IA, la búsqueda de vectores es un elemento imprescindible. La búsqueda vectorial permite al sistema buscar puntos de datos semánticamente similares mediante incrustaciones en lugar de coincidencias exactas de palabras clave.

Sin embargo, la combinación de la búsqueda vectorial con la búsqueda de texto completo, el filtrado y los tipos de datos especiales (como la ubicación geográfica) hace que el índice sea mucho más eficaz.

El diseño de datos debe especificar claramente qué tipos de búsqueda son necesarios y cómo deben trabajar juntos. Para obtener más información, consulte Consultas eficaces en el diseño de datos.

¿Cómo controla el índice los datos multimodales?

Las cargas de trabajo de IA suelen tratar con datos que incluyen no solo texto, sino también imágenes, audio o vídeo. El propio índice no puede comprender directamente las imágenes. Por lo tanto, antes de agregar imágenes al índice, deben convertirse en una representación basada en texto (mediante OCR o título de imagen), desde la que se generan incrustaciones o incrustaciones vectoriales directamente desde la imagen mediante modelos de visión. Después, el índice puede realizar la búsqueda vectorial, lo que permite consultas semánticas.

En este caso de uso, el índice de búsqueda debe tener:

  • Compatibilidad con la búsqueda vectorial para almacenar y realizar consultas sobre embeddings (vectores numéricos) derivados de imágenes.
  • Integración con api externas y servicios de inteligencia artificial para extraer o enriquecer datos durante el proceso de indexación.
  • Capacidad de almacenar campos extraídos (texto, etiquetas, subtítulos, incrustaciones) en los campos de esquema adecuados como metadatos para la búsqueda y el filtrado.

¿El índice admite funcionalidades de actualización automática cuando cambian los datos de los orígenes de datos?

La automatización es clave para mantener la actualización de los datos. Seleccione un índice que admita actualizaciones automáticas o actualizaciones incrementales cuando cambien los datos subyacentes.

Si la plataforma no ofrece esto de forma nativa, deberá implementar un proceso personalizado para detectar e insertar actualizaciones. La descarga de esta responsabilidad en la plataforma puede reducir la sobrecarga operativa y simplificar el mantenimiento, especialmente a medida que crecen los volúmenes de datos.

¿El índice puede realizar con grandes volúmenes de datos?

El índice debe escalarse de forma eficaz a medida que crece el volumen de datos. En el caso de las cargas de trabajo que implementan RAG, cada documento se divide a menudo en varios fragmentos, lo que aumenta significativamente la cantidad de datos almacenados.

La plataforma elegida debe ser capaz de:

  • Escalar horizontalmente a medida que crecen los datos
  • Mantener el rendimiento de las consultas bajo una carga pesada
  • Almacena tanto datos crudos como metadatos relacionados, enriquecimientos y entidades.

¿El índice tiene características de confiabilidad integradas?

La confiabilidad del índice de búsqueda debe reflejar la del punto de conexión de inferencia, ya que ambas forman parte de la misma ruta de procesamiento en tiempo real.

Cada paso debe cumplir expectativas similares de tiempo de actividad y rendimiento. Para lograrlo, cuando elija la plataforma de datos, busque:

  • Capacidades de alta disponibilidad y redundancia de zona para sobrevivir a interrupciones zonales y regionales.
  • Recuperación automática y recompilación de índices fácil para evitar el uso de un índice dañado para la inferencia.
  • Capacidades de alias de índice o características de intercambio para permitir las actualizaciones sin tiempo de inactividad.

Además, comprenda los modos de falla del sistema o los indicadores de estrés, como el estrangulamiento. Por ejemplo, durante la reindexación en segundo plano, el rendimiento puede disminuir. Normalmente, el sistema puede controlar 50 usuarios simultáneos, pero solo 30 durante ese trabajo. Planee el tiempo de trabajo y la capacidad en consecuencia, teniendo en cuenta tanto las consultas front-end como las tareas de mantenimiento de back-end.

¿Cuáles son los principales factores de costo de esta tecnología?

Los costos del índice de búsqueda suelen basarse en el uso, por lo que es importante modelar el volumen de datos esperado, la velocidad de consulta y el rendimiento.

La mayoría de las plataformas de índice, como Azure AI Search, son ofertas de plataforma como servicio (PaaS), donde los precios se abstraen y presentan en unidades de capacidad, almacenamiento y uso de características.

Tenga en cuenta lo siguiente:

  • Estructura de precios por niveles y límites de escalado
  • Costos adicionales de características avanzadas (por ejemplo, extracción de imágenes o enriquecimiento de conjuntos de aptitudes)
  • Capacidad sin usar en niveles sobreaprovisionados
  • Complejidad del índice (número de índices y límites de consulta simultáneos)

Para comprender los costos asociados a la búsqueda de IA, consulte Planeamiento y administración de los costos de una servicio Search de IA.

¿Las características de seguridad del índice cumplen con tu diseño de datos de seguridad?

El diseño de los datos debe especificar claramente los requisitos de seguridad y privacidad, y el índice debe admitirlos completamente. Al trabajar en entornos de desarrollo o pruebas que usan datos reales, asegúrese de que el índice cumple con las directivas de control de acceso y rastreabilidad. Busque características como:

  • Enmascaramiento de datos y eliminación de PII
  • Administración de identidades de cliente a través de Microsoft Entra ID
  • Controles de acceso de nivel de documento para filtrar los resultados en función de la identidad del usuario

Si la plataforma no admite estos elementos de forma nativa, considere implementar filtros de nivel de consulta como alternativa. Para obtener más información, consulte Filtros de seguridad para recortar los resultados en búsqueda de IA.

Desde una perspectiva de seguridad de red, el índice debe:

  • Compatibilidad con el control de salida y la segmentación de red
  • Integración con redes privadas cuando el proceso se ejecuta en una red virtual
  • Uso de identidades administradas para la autenticación a través de Microsoft Entra ID
  • Evite exponer componentes directamente a la red pública de Internet

Las incrustaciones todavía pueden exponer información confidencial si no están protegidas correctamente. Entre los riesgos se incluyen la inversión de incrustaciones (reconstrucción del texto original a partir de vectores), el envenenamiento de datos (inserción de vectores malintencionados) y el acceso no autorizado a los almacenes de incrustaciones o copias de seguridad. Para mitigar estos riesgos, aplique medidas de seguridad como:

  • Cifrado en reposo y en tránsito
  • Controles de acceso estrictos
  • Conectividad de red privada descrita anteriormente
  • Supervisión de puntos de conexión de inserción para detectar anomalías o alteraciones

De forma similar a otros tipos de datos, tienen procesos para eliminar datos confidenciales o personales. Trate los índices vectoriales como almacenes de datos confidenciales que requieren el mismo nivel de seguridad y gobernanza que otros sistemas de producción.

Opciones de tecnología

Function Tecnologías recomendadas Alternativas/Herramientas complementarias
Búsqueda de vectores y búsqueda semántica Azure AI Search, Azure Cosmos DB (búsqueda vectorial), Azure Database for PostgreSQL (pgvector) Pinecone, Weaviate, Chroma, Qdrant
Indexación de palabras clave y búsqueda de texto completo Azure AI Search Elasticsearch, Apache Solr, Azure SQL Database Full-Text Search
Procesamiento de datos multiproceso Azure AI Search (con conjunto de habilidades), Azure AI Document Intelligence, Azure AI Vision Procesamiento personalizado con api de OpenAI, Amazon Textract
Actualización automática de datos e indexación Azure AI Search (con indexadores), desencadenadores de Azure Data Factory Soluciones de sondeo personalizadas, Apache NiFi, captura de datos modificados
Alta disponibilidad y confiabilidad Azure AI Search (redundancia de zona), Azure Cosmos DB (distribución global) Implementaciones de varias regiones, equilibradores de carga, Azure Traffic Manager
Alias de índice y actualizaciones sin tiempo de inactividad Azure AI Search (alias de índice), Azure Cosmos DB Patrones de implementación azul-verde, lógica de enrutamiento personalizada
Control de acceso y seguridad de nivel de documento Azure AI Search (filtros de seguridad), integración de Microsoft Entra ID Capas de autorización personalizadas, seguridad de nivel de fila en bases de datos
Seguridad de red y acceso privado Azure Private Link, integración de virtual network, identidades administradas Puertas de enlace de VPN, Azure Firewall, grupos de seguridad de red personalizados

Consideraciones de entrenamiento y ajuste preciso

Al diseñar la plataforma de datos para cargas de trabajo tradicionales de aprendizaje automático (ML) o que no son de GenAI, el enfoque cambia de la inferencia en tiempo real a la calidad de los datos, la reproducibilidad y la separación del entorno. Estas cargas de trabajo dependen de datos agregados bien estructurados y suelen implicar capas adicionales, como almacenes de características y almacenes de datos de inferencia por lotes, para optimizar el rendimiento del modelo y la eficiencia de los costos.

Le recomendamos encarecidamente que comprenda los principios del diseño de canalización de datos correctos antes de explorar las funcionalidades tecnológicas que describe este artículo. Para obtener más información, consulte Diseño de datos de entrenamiento.

¿Tiene previsto realizar el entrenamiento con datos de producción?

La forma de implementar los modelos determina cómo se acoplan los datos de producción estrechamente con el entorno de desarrollo. Hay dos enfoques principales de implementación:

  • Implementación del modelo. El modelo se entrena o ajusta mediante datos de producción durante el desarrollo. Este enfoque puede mejorar la relevancia del modelo, pero exige controles de seguridad sólidos, ya que los datos confidenciales se usan fuera de producción.

  • Implementación de código. El modelo se entrena mediante datos que no son de producción en el desarrollo y solo interactúa con datos reales una vez que se implementa en producción. Este método simplifica la seguridad de desarrollo, pero puede aumentar los costos de proceso y almacenamiento, ya que el entrenamiento puede necesitar repetirse en varios entornos.

Independientemente del enfoque, la plataforma de datos debe separar claramente los entornos de desarrollo y producción, lo que garantiza el aislamiento adecuado y el control de acceso.

¿Está priorizando la comodidad sobre la funcionalidad?

Al elegir una plataforma de datos para aprendizaje automático, no tome la decisión basándose únicamente en el soporte para cuadernos.

Los cuadernos son excelentes para el análisis de datos exploratorios, pero no son un factor determinante para seleccionar una plataforma de datos de nivel de producción. Los recursos de computación de notebooks suelen encontrarse fuera del almacén de datos agregados y se integran con herramientas externas, como Azure Machine Learning o áreas de trabajo de Databricks.

Priorice las funcionalidades principales, como el control de versiones de datos, la gobernanza, la escalabilidad y la seguridad, sobre las características de conveniencia.

¿Cómo procesará y preparará los datos?

En las cargas de trabajo de ML, el patrón de procesamiento de datos que elija tiene un gran impacto en la flexibilidad y el rendimiento.

  • ETL (extracción, transformación, carga): común en el almacenamiento de datos tradicional, donde las restricciones de esquema requieren que transforme los datos antes de cargarlos en el sistema de destino.
  • ELT (extracción, carga, transformación): típico para los lagos de datos o la arquitectura de lakehouse, donde los datos sin procesar se cargan primero y, a continuación, se transforman más adelante mediante herramientas como Python o PySpark.
  • EL (Extraer, cargar): común en los patrones GenAI y RAG, donde se almacenan primero documentos o medios y se realizan transformaciones de bajada (como la fragmentación de texto o la extracción de imágenes) más adelante.

A menudo se prefiere ELT, ya que conserva los datos sin procesar y permite transformaciones más flexibles durante la preparación del modelo.

¿Necesita un almacén de características?

A menudo es beneficioso introducir un almacén de características como una capa de datos intermedia entre el almacén de datos agregado y el entorno de entrenamiento.

Un almacén de características actúa como un catálogo de características seleccionadas, que se completa con metadatos como linaje de características, tiempo de generación y origen. Es el lugar perfecto para mantener los datos de entrenamiento de referencia que se pueden reutilizar en varios modelos o experimentos.

Los almacenes de características administrados, como el de Azure Machine Learning, se integran directamente con MLflow y otras herramientas de ciclo de vida de ML. Permiten la reproducibilidad, la gobernanza y el control de versiones para tus funcionalidades.

Trate el almacén de características como un almacén de datos confidenciales por derecho propio, con controles de acceso, cifrado y auditoría adecuados.

¿Debe usar un almacén de datos de inferencia por lotes?

En algunos casos, puede mejorar el rendimiento y reducir los costos realizando inferencia en lotes, es decir, pre-calculando los resultados de la inferencia y almacenándolos para su uso posterior en lugar de llamar al modelo en tiempo real.

Este enfoque puede ser muy eficaz cuando se solicitan repetidamente las mismas consultas o predicciones (por ejemplo, generar preguntas más frecuentes o recomendaciones estándar).

Entre las ventajas clave se incluyen las siguientes:

  • Latencia reducida y experiencia de usuario mejorada, los resultados se sirven al instante.
  • Escalabilidad más sencilla porque la inferencia se puede procesar por lotes y distribuirse sin conexión.
  • Mejora de la confiabilidad que evita imponer carga en tiempo real al endpoint de inferencia.
  • Los costos de proceso más bajos resultantes del procesamiento por lotes pueden usar hardware de nivel inferior.
  • Validación previa integrada en la que los resultados se pueden comprobar para obtener precisión antes de exponerse a los usuarios.

Sin embargo, este enfoque funciona mejor cuando se reutiliza un porcentaje significativo de predicciones. Si la carga de trabajo implica principalmente consultas únicas, es posible que el mantenimiento de un almacén de inferencia por lotes no valga la pena la complejidad.

El almacén de datos de inferencia por lotes debe optimizarse para las operaciones de lectura, lo suficientemente escalable como para controlar grandes conjuntos de datos e integrarse con el almacén de datos agregado.

Entre las tecnologías que se ajustan a este patrón se incluyen Azure Cosmos DB para el acceso rápido y distribuido globalmente o Azure Table Storage para cargas de trabajo más sencillas y de bajo costo de lectura.

Opciones de tecnología

Function Tecnologías recomendadas Alternativas/herramientas complementarias
Almacenamiento de datos agregado Azure Data Lake Storage Gen2, Microsoft Fabric Lakehouse, Azure Synapse Analytics Azure Blob Storage, SQL Database, almacenamiento de datos local
Procesamiento y transformación de datos (ETL/ELT) Azure Data Factory, Azure Databricks (PySpark, SQL), Ingeniería de datos de Microsoft Fabric Apache Airflow, Apache NiFi, Canalizaciones de Synapse
Entorno de desarrollo y entrenamiento Azure Machine Learning (con la integración de MLflow), áreas de trabajo de Azure Databricks JupyterHub, Kubeflow, Amazon SageMaker
Repositorio de features Almacén de características de Azure Machine Learning, Almacén de características de Databricks Fiesta (código abierto), Tecton
Inferencia por lotes Azure Cosmos DB, Azure Table Storage Azure SQL Database, PostgreSQL, Redis Cache
Registro de modelos y seguimiento de experimentos MLflow (integrado en Azure Machine Learning o Databricks) Ponderaciones y sesgos, Neptune.ai, DVC
Orquestación y automatización Pipelines de Azure Data Factory, pipelines de Azure Machine Learning Apache Airflow, Prefect
Seguridad y control de acceso Microsoft Entra ID (Azure AD), Azure Key Vault, Identidades administradas HashiCorp Vault, AWS IAM

Pasos siguientes