Conectores administrados en Lakeflow Connect

Importante

Los conectores administrados de Lakeflow Connect se encuentran en varios estados de versión.

En este artículo se proporciona información general sobre los conectores administrados en Databricks Lakeflow Connect para la ingesta de datos de bases de datos y aplicaciones SaaS. La canalización de ingesta resultante se rige por Unity Catalog y cuenta con tecnología de proceso sin servidor y canalizaciones declarativas de Spark de Lakeflow. Los conectores administrados aprovechan las lecturas y escrituras incrementales eficaces para que la ingesta de datos sea más rápida, escalable y rentable, mientras que los datos permanecen frescos para el consumo descendente.

Componentes de conectores SaaS

Un conector SaaS tiene los siguientes componentes:

Componente	Descripción
Conexión	Objeto protegible del catálogo de Unity que almacena los detalles de autenticación de la aplicación.
Canalización de ingesta	Una canalización que copia los datos de la aplicación a las tablas de destino. La canalización de ingesta se ejecuta en proceso sin servidor.
Tablas de destino	Las tablas en las que la canalización de ingesta escribe los datos. Se trata de tablas de streaming, que son tablas delta con compatibilidad adicional con el procesamiento incremental de datos.

Diagrama de componentes de conectores SaaS

Componentes del conector de base de datos

Un conector de base de datos tiene los siguientes componentes:

Componente	Descripción
Conexión	Objeto protegible del catálogo de Unity que almacena los detalles de autenticación de la base de datos.
Puerta de enlace de ingesta	Canalización que extrae instantáneas, registros de cambios y metadatos de la base de datos de origen. La puerta de enlace se ejecuta en proceso clásico y funciona continuamente para capturar los cambios antes de que los registros de cambios puedan truncarse en la fuente.
Almacenamiento provisional	Un volumen de Catálogo de Unity que almacena temporalmente los datos extraídos antes de aplicarlos a la tabla de destino. Esto le permite ejecutar la canalización de ingesta en el horario que desee, incluso mientras la puerta de enlace captura los cambios de forma continua. También ayuda con la recuperación ante fallos. Crea automáticamente un volumen de almacenamiento provisional al implementar la puerta de enlace y puede personalizar el catálogo y el esquema donde reside. Los datos se purgan automáticamente del almacenamiento provisional después de 30 días.
Canalización de ingesta	Tubería de datos que transfiere los datos desde el almacenamiento provisional a las tablas de destino. La canalización se ejecuta en proceso sin servidor.
Tablas de destino	Las tablas en las que la canalización de ingesta escribe los datos. Se trata de tablas de streaming, que son tablas delta con compatibilidad adicional con el procesamiento incremental de datos.

Diagrama de componentes del conector de bases de datos

Orquestación

Puede operar su tubería de ingestión en uno o varios cronogramas personalizados. Para cada programación que agregue a una canalización, Lakeflow Connect crea automáticamente un trabajo para ella. La canalización de ingesta es una tarea dentro del trabajo. Opcionalmente, puede agregar más tareas al trabajo.

Diagrama de orquestación de flujos para los conectores SaaS

En el caso de los conectores de base de datos, la puerta de enlace de ingesta se ejecuta en su propio trabajo como una tarea continua.

Diagrama de orquestación de la canalización para los conectores de base de datos

Ingesta incremental

Lakeflow Connect usa la ingesta incremental para mejorar la eficacia de la canalización. En la primera ejecución de la canalización, ingiere todo el conjunto de datos seleccionados del origen. En paralelo, realiza un seguimiento de los cambios realizados en los datos de origen. En cada ejecución posterior de la canalización, usa ese seguimiento de cambios para ingerir solo los datos que han cambiado de la ejecución anterior, siempre que sea posible.

El enfoque exacto depende de lo que está disponible en el origen de datos. Por ejemplo, puede usar el seguimiento de cambios y la captura de datos modificados (CDC) con SQL Server. En cambio, el conector de Salesforce selecciona una columna de cursor de una lista de opciones establecida.

Algunos orígenes o tablas específicas no admiten la ingesta incremental en este momento. Databricks planea expandir la cobertura de soporte incremental.

Redes

Hay varias opciones para conectarse a una base de datos o aplicación SaaS.

Los conectores para aplicaciones SaaS llegan a las API del origen. También son compatibles automáticamente con controles de salida sin servidor.
Los conectores de las bases de datos en la nube pueden conectarse al origen a través de Private Link. Como alternativa, si el área de trabajo tiene una red virtual (VNet) o una nube privada virtual (VPC) emparejada con la red virtual (VNet) o nube privada virtual (VPC) que hospeda la base de datos, puede implementar la puerta de enlace de ingestión dentro de ella.
Los conectores para bases de datos locales pueden conectarse mediante servicios como AWS Direct Connect y Azure ExpressRoute.

Despliegue

Puede implementar canalizaciones de ingesta mediante Conjuntos de recursos de Databricks, que permiten procedimientos recomendados como el control de código fuente, la revisión de código, las pruebas y la integración y entrega continuas (CI/CD). Las agrupaciones se administran mediante la CLI de Databricks y se pueden ejecutar en diferentes áreas de trabajo de destino, como desarrollo, ensayo y producción.

Recuperación de un error

Como servicio totalmente administrado, Lakeflow Connect pretende recuperarse automáticamente de los problemas cuando sea posible. Por ejemplo, cuando se produce un error en un conector, lo vuelve a intentar automáticamente con retraso exponencial.

Sin embargo, es posible que un error requiera la intervención (por ejemplo, cuando expiren las credenciales). En estos casos, el conector intenta evitar que falten datos almacenando la última posición del cursor. A continuación, puede continuar desde esa posición en la siguiente ejecución de la canalización, cuando sea posible.

Monitorización

Lakeflow Connect proporciona alertas y supervisión sólidas para ayudarle a mantener las canalizaciones. Esto incluye registros de eventos, registros de clúster, métricas de estado de canalización y métricas de calidad de datos.

Compatibilidad de características

En la tabla siguiente se resume la disponibilidad de características para cada conector de ingesta administrada. Para conocer características y limitaciones adicionales, consulte la documentación de su conector específico.

Característica	Google Analytics	MySQL	Netsuite	Salesforce	Jornada laboral	Servidor SQL	PostgreSQL	ServiceNow	SharePoint (en inglés)
Estado	Disponibilidad general	Public Preview	Public Preview	Disponibilidad general	Disponibilidad general	Disponibilidad general	Public Preview	Disponibilidad general	Beta
Creación de canalizaciones basadas en la interfaz de usuario	No		Sí	Sí	Sí	Sí		Sí	No
Creación de canalizaciones basadas en API	Sí		Sí	Sí	Sí	Sí		Sí	Sí
Conjuntos de recursos de Databricks	Sí		Sí	Sí	Sí	Sí		Sí	Sí
Ingesta incremental	Sí		Sí	Sí: con una excepción temporal para los campos de fórmula. Para obtener más información, consulte ¿Cómo extrae incrementalmente el conector las actualizaciones?	Sí	Sí		Sí: con excepciones cuando la tabla carece de un campo de cursor.	Sí
Gobernanza del catálogo de Unity	Sí		Sí	Sí	Sí	Sí		Sí	Sí
Orquestación mediante flujos de trabajo de Databricks	Sí		Sí	Sí	Sí	Sí		Sí	Sí
SCD de tipo 2	Sí		Sí	Sí	Sí	Sí		Sí	Sí
Selección y deselección de columnas basadas en API	Sí		Sí	Sí	Sí	Sí		Sí	Sí
Evolución automatizada del esquema: columnas nuevas y eliminadas	Sí		Sí	Sí	Sí	Sí		Sí	Sí
Evolución automatizada del esquema: cambios en el tipo de datos	No		No	No	No	No		No	No
Evolución automatizada del esquema: cambio de nombre de columna	Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo).	Se trata como una nueva columna (nuevo nombre) y una columna eliminada (nombre antiguo).	Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo).	Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo).	Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo).	No: cuando se habilitan los objetos DDL, el conector puede cambiar el nombre de la columna. Cuando los objetos DDL no están habilitados, el conector lo trata como una nueva columna (nuevo nombre) y una columna eliminada (nombre antiguo). En cualquier caso, requiere una actualización completa.	No: cuando se habilitan los objetos DDL, el conector puede cambiar el nombre de la columna. Cuando los objetos DDL no están habilitados, el conector lo trata como una nueva columna (nuevo nombre) y una columna eliminada (nombre antiguo). En cualquier caso, requiere una actualización completa.	Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo).	Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo).
Evolución automatizada del esquema: Nuevas tablas	Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.	Si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.	Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.	Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.	No disponible	Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.	Si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.	Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.	Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.
Número máximo de tablas por canalización	250	250	200	250	250	250	250	250	250

Métodos de autenticación

En la tabla siguiente se enumeran los métodos de autenticación admitidos para cada conector de ingesta administrado. Databricks recomienda usar OAuth U2M o OAuth M2M siempre que sea posible. Si el conector admite OAuth U2M o OAuth M2M, la autenticación básica y OAuth con la actualización manual de tokens se consideran métodos de autenticación heredados.

Conector	OAuth U2M	OAuth M2M	OAuth (token de actualización manual)	Autenticación básica (nombre de usuario y contraseña)	Autenticación básica (clave JSON de la cuenta de servicio)	Autenticación basada en tokens
Confluencia	Sí	No	No	No	No	No
Datos sin procesar de Google Analytics	Sí	No	No	No	Sí (solo API)	No
MySQL	No	No	No	Sí	No	No
Netsuite	No	No	No	No	No	Sí
Salesforce	Sí	No	No	No	No	No
ServiceNow	Sí	No	Sí (solo API)	No	No	No
SharePoint (en inglés)	Sí	Sí (versión preliminar pública)	Sí	No	No	No
Servidor SQL	Sí	Sí	No	No	Sí	No
PostgreSQL	No	No	No	Sí	No	No
Informes de Workday	No	No	Sí	Sí	No	No

Dependencia de servicios externos

Databricks SaaS, base de datos y otros conectores totalmente administrados dependen de la accesibilidad, compatibilidad y estabilidad de la aplicación, la base de datos o el servicio externo al que se conectan. Databricks no controla estos servicios externos y, por tanto, tiene una influencia limitada (si existe) sobre sus cambios, actualizaciones y mantenimiento.

Si los cambios, interrupciones o circunstancias relacionados con un servicio externo impiden o representan poco práctico el funcionamiento de un conector, Databricks puede interrumpir o dejar de mantener ese conector. Databricks realizará esfuerzos razonables para notificar a los clientes la interrupción o el cese de mantenimiento, incluidas las actualizaciones de la documentación aplicable.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-12-20