Introducción a la ingesta de datos de Azure Synapse Data Explorer (versión preliminar)

Importante

El Explorador de datos de Azure Synapse Analytics (versión preliminar) se retirará el 7 de octubre de 2025. Después de esta fecha, se eliminarán las cargas de trabajo que se ejecutan en el Explorador de datos de Synapse y se perderán los datos de la aplicación asociados. Se recomienda migrar a Eventhouse en Microsoft Fabric.

El programa Microsoft Cloud Migration Factory (CMF) está diseñado para ayudar a los clientes a migrar a Fabric. El programa ofrece recursos de teclado prácticos sin costo alguno al cliente. Estos recursos se asignan durante un período de 6 a 8 semanas, con un ámbito predefinido y acordado. Las nominaciones de clientes se aceptan por parte del equipo de la cuenta de Microsoft o directamente enviando una solicitud de ayuda al equipo de CMF.

La ingesta de datos es el proceso que se usa para cargar registros de datos de uno o varios orígenes para importar datos en una tabla del grupo de Azure Synapse Data Explorer. Una vez ingeridos, los datos están disponibles para la consulta.

El servicio de administración de datos de Azure Synapse Data Explorer, que es responsable de la ingesta de datos, implementa el siguiente proceso:

Extrae datos en lotes o en transmisión desde un origen externo y lee las solicitudes de una cola pendiente de Azure.
Los datos por lotes que fluyen a la misma base de datos y tabla están optimizados para el rendimiento de ingestión.
Los datos iniciales se validan y el formato se convierte cuando sea necesario.
Manipulación adicional de datos, incluido el esquema coincidente, la organización, la indexación, la codificación y la compresión de los datos.
Los datos se conservan en el almacenamiento según la directiva de retención establecida.
Los datos ingeridos se almacenan en el motor, donde quedan disponibles para consultas.

Formatos de datos, propiedades y permisos admitidos

Formatos de datos admitidos
Propiedades de ingesta: las propiedades que afectan a cómo se ingerirán los datos (por ejemplo, etiquetado, asignación, tiempo de creación).
Permisos: para ingerir datos, el proceso requiere permisos de nivel de ingesta de base de datos. Otras acciones, como la consulta, pueden requerir permisos de administrador de bases de datos, usuario de base de datos o administrador de tablas.

Procesamiento por lotes frente a ingestión en streaming

La ingesta por lotes realiza el procesamiento por lotes de datos y está optimizada para un alto rendimiento de ingesta. Este método es el tipo preferido y más eficaz de ingesta. Los datos se procesan por lotes según las propiedades de ingesta. Los pequeños lotes de datos se combinan y optimizan para obtener resultados de consulta rápidos. La directiva de procesamiento por lotes de ingesta se puede establecer en bases de datos o tablas. De forma predeterminada, el valor máximo de procesamiento por lotes es de 5 minutos, 1000 elementos o un tamaño total de 1 GB. El límite de tamaño de datos para un comando de ingesta por lotes es de 4 GB.
La ingestión de flujo continuo es la ingestión continua de datos desde un origen de flujo continuo. La ingestión por streaming permite una latencia en casi tiempo real para pequeños conjuntos de datos por tabla. Los datos se ingieren inicialmente en el almacén de filas y, a continuación, se mueven a extensiones de almacén de columnas.

Métodos y herramientas de ingesta

Azure Synapse Data Explorer admite varios métodos de ingesta, cada uno con sus propios escenarios de destino. Estos métodos incluyen herramientas de ingesta, conectores y complementos a diversos servicios, canalizaciones administradas, ingesta mediante programación mediante SDK y acceso directo a la ingesta.

Ingesta mediante canalizaciones administradas

Para las organizaciones que desean tener administración (limitación, reintentos, monitores, alertas y mucho más) realizados por un servicio externo, es probable que el uso de un conector sea la solución más adecuada. La ingesta en cola de espera es adecuada para grandes volúmenes de datos. Azure Synapse Data Explorer admite las siguientes canalizaciones de Azure:

Centro de eventos: canalización que transfiere eventos de servicios a Azure Synapse Data Explorer. Para más información, consulte Ingesta de datos del centro de eventos en el Explorador de datos de Azure Synapse.

Canalizaciones de Synapse: un servicio de integración de datos totalmente administrado para cargas de trabajo analíticas en canalizaciones de Synapse se conecta con más de 90 orígenes admitidos para proporcionar transferencia de datos eficaz y resistente. Las canalizaciones de Synapse preparan, transforman y enriquecen los datos para proporcionar información que se puede supervisar de diferentes maneras. Este servicio se puede usar como una solución única, en una escala de tiempo periódica o desencadenada por eventos específicos.

Ingesta programática usando SDKs

Azure Synapse Data Explorer proporciona SDK que se pueden usar para la ingesta de datos y consultas. La ingesta mediante programación está optimizada para reducir los costos de ingesta (COG), al minimizar las transacciones de almacenamiento durante y seguir el proceso de ingesta.

Antes de empezar, siga los siguientes pasos para obtener los endpoints del grupo de Explorador de Datos para configurar la ingesta programática.

En Synapse Studio, en el panel izquierdo, seleccione Administrar>Grupos exploradores de datos.
Seleccione el grupo de Data Explorer que desea usar para ver sus detalles.
Anote los puntos de conexión de ingesta de datos y consulta. Utilice el punto de conexión de consulta como clúster al configurar las conexiones con el grupo explorador de datos. Al configurar los SDK para la ingesta de datos, use el punto de conexión de ingesta de datos.

SDK disponibles y proyectos de código abierto

Tools

Ingesta con un solo clic: permite ingerir datos rápidamente mediante la creación y ajuste de tablas de una amplia gama de tipos de origen. La ingesta con un solo clic sugiere automáticamente tablas y estructuras de mapeo en función del origen de datos, dentro de Azure Synapse Data Explorer. La ingesta con un solo clic se puede usar para la ingesta única o para definir la ingesta continua a través de Event Grid en el contenedor al que se ingieren los datos.

Comandos de control de ingesta del Lenguaje de Consulta Kusto

Hay varios métodos mediante los cuales los datos pueden ser ingeridos directamente en el motor por medio de comandos de Kusto Query Language (KQL). Dado que este método omite los servicios de administración de datos, solo es adecuado para la exploración y creación de prototipos. No use este método en escenarios de producción o de gran volumen.

Ingesta en línea: se envía un comando de control .ingest inline al motor, con los datos que se van a ingerir como parte del propio texto del comando. Este método está pensado para la realización de pruebas improvisadas.
Ingesta desde la consulta: se envía un comando de control .set, .append, .set-or-append o .set-or-replace al motor, con los datos especificados indirectamente como los resultados de una consulta o un comando.
Ingesta desde el almacenamiento (extracción): se envía un comando de control .ingest into al motor, con los datos almacenados en algún almacenamiento externo (por ejemplo, Azure Blob Storage) accesible por el motor y apuntados por el comando.

Para obtener un ejemplo del uso de comandos de control de ingesta, consulte Análisis con el Explorador de datos.

Proceso de ingesta

Una vez que haya elegido el método de ingesta más adecuado para sus necesidades, realice los pasos siguientes:

Establecer política de retención

Los datos ingeridos en una tabla de Azure Synapse Data Explorer están sujetos a la directiva de retención efectiva de la tabla. A menos que se establezca en una tabla explícitamente, la directiva de retención efectiva se deriva de la directiva de retención de la base de datos. La retención en caliente es una función del tamaño del clúster y de la política de retención. Ingerir más datos de los que tiene espacio disponible forzará que los primeros datos entren en almacenamiento en frío.

Asegúrese de que la directiva de retención de la base de datos sea adecuada para sus necesidades. Si no es así, anúlelo explícitamente en el nivel de la tabla. Para obtener más información, consulte Directiva de retención.
Crear una tabla

Para ingerir datos, es necesario crear una tabla de antemano. Use una de las siguientes opciones:
- Cree una tabla con un comando . Para obtener un ejemplo del uso del comando create a table, consulte Analyze with Data Explorer.
- Cree una tabla usando One-click Ingestion.
Nota:

Si un registro está incompleto o un campo no se puede analizar como el tipo de datos necesario, las columnas de tabla correspondientes se rellenarán con valores NULL.
Crear asignación de esquema

La asignación de esquemas ayuda a enlazar campos de datos de origen a columnas de tabla de destino. La asignación permite tomar datos de diferentes orígenes y colocarlos en la misma tabla, en función de los atributos definidos. Se soportan diferentes tipos de asignaciones, tanto orientadas a filas (CSV, JSON y AVRO) como orientadas a columnas (Parquet). En la mayoría de los métodos, las asignaciones también se pueden crear previamente en la tabla y hacer referencia a ella desde el parámetro de comando ingest.
Establecimiento de la directiva de actualización (opcional)

Algunas de las asignaciones de formato de datos (Parquet, JSON y Avro) admiten transformaciones sencillas y útiles durante la ingesta. Cuando el escenario requiere un procesamiento más complejo en el momento de la ingesta, utilice la directiva de actualización, lo que permite un procesamiento ligero usando comandos del Lenguaje de Consulta Kusto. La directiva de actualización ejecuta automáticamente extracciones y transformaciones en datos ingeridos en la tabla original e ingiere los datos resultantes en una o varias tablas de destino. Establezca la directiva de actualización.

Pasos siguientes

Last updated on 2025-03-24

Compartir a través de