Compartir a través de


Conectores administrados en Lakeflow Connect

Importante

Los conectores administrados de Lakeflow Connect se encuentran en varios estados de versión.

En este artículo se proporciona información general sobre los conectores administrados en Databricks Lakeflow Connect para la ingesta de datos de bases de datos y aplicaciones SaaS. La canalización de ingesta resultante se rige por Unity Catalog y cuenta con tecnología de proceso sin servidor y canalizaciones declarativas de Spark de Lakeflow. Los conectores administrados aprovechan las lecturas y escrituras incrementales eficaces para que la ingesta de datos sea más rápida, escalable y rentable, mientras que los datos permanecen frescos para el consumo descendente.

Componentes de conectores SaaS

Un conector SaaS tiene los siguientes componentes:

Componente Descripción
Conexión Objeto protegible del catálogo de Unity que almacena los detalles de autenticación de la aplicación.
Canalización de ingesta Una canalización que copia los datos de la aplicación a las tablas de destino. La canalización de ingesta se ejecuta en proceso sin servidor.
Tablas de destino Las tablas en las que la canalización de ingesta escribe los datos. Se trata de tablas de streaming, que son tablas delta con compatibilidad adicional con el procesamiento incremental de datos.

Diagrama de componentes de conectores SaaS

Componentes del conector de base de datos

Un conector de base de datos tiene los siguientes componentes:

Componente Descripción
Conexión Objeto protegible del catálogo de Unity que almacena los detalles de autenticación de la base de datos.
Puerta de enlace de ingesta Canalización que extrae instantáneas, registros de cambios y metadatos de la base de datos de origen. La puerta de enlace se ejecuta en proceso clásico y funciona continuamente para capturar los cambios antes de que los registros de cambios puedan truncarse en la fuente.
Almacenamiento provisional Un volumen de Catálogo de Unity que almacena temporalmente los datos extraídos antes de aplicarlos a la tabla de destino. Esto le permite ejecutar la canalización de ingesta en el horario que desee, incluso mientras la puerta de enlace captura los cambios de forma continua. También ayuda con la recuperación ante fallos. Crea automáticamente un volumen de almacenamiento provisional al implementar la puerta de enlace y puede personalizar el catálogo y el esquema donde reside. Los datos se purgan automáticamente del almacenamiento provisional después de 30 días.
Canalización de ingesta Tubería de datos que transfiere los datos desde el almacenamiento provisional a las tablas de destino. La canalización se ejecuta en proceso sin servidor.
Tablas de destino Las tablas en las que la canalización de ingesta escribe los datos. Se trata de tablas de streaming, que son tablas delta con compatibilidad adicional con el procesamiento incremental de datos.

Diagrama de componentes del conector de bases de datos

Orquestación

Puede operar su tubería de ingestión en uno o varios cronogramas personalizados. Para cada programación que agregue a una canalización, Lakeflow Connect crea automáticamente un trabajo para ella. La canalización de ingesta es una tarea dentro del trabajo. Opcionalmente, puede agregar más tareas al trabajo.

Diagrama de orquestación de flujos para los conectores SaaS

En el caso de los conectores de base de datos, la puerta de enlace de ingesta se ejecuta en su propio trabajo como una tarea continua.

Diagrama de orquestación de la canalización para los conectores de base de datos

Ingesta incremental

Lakeflow Connect usa la ingesta incremental para mejorar la eficacia de la canalización. En la primera ejecución de la canalización, ingiere todo el conjunto de datos seleccionados del origen. En paralelo, realiza un seguimiento de los cambios realizados en los datos de origen. En cada ejecución posterior de la canalización, usa ese seguimiento de cambios para ingerir solo los datos que han cambiado de la ejecución anterior, siempre que sea posible.

El enfoque exacto depende de lo que está disponible en el origen de datos. Por ejemplo, puede usar el seguimiento de cambios y la captura de datos modificados (CDC) con SQL Server. En cambio, el conector de Salesforce selecciona una columna de cursor de una lista de opciones establecida.

Algunos orígenes o tablas específicas no admiten la ingesta incremental en este momento. Databricks planea expandir la cobertura de soporte incremental.

Redes

Hay varias opciones para conectarse a una base de datos o aplicación SaaS.

  • Los conectores para aplicaciones SaaS llegan a las API del origen. También son compatibles automáticamente con controles de salida sin servidor.
  • Los conectores de las bases de datos en la nube pueden conectarse al origen a través de Private Link. Como alternativa, si el área de trabajo tiene una red virtual (VNet) o una nube privada virtual (VPC) emparejada con la red virtual (VNet) o nube privada virtual (VPC) que hospeda la base de datos, puede implementar la puerta de enlace de ingestión dentro de ella.
  • Los conectores para bases de datos locales pueden conectarse mediante servicios como AWS Direct Connect y Azure ExpressRoute.

Despliegue

Puede implementar canalizaciones de ingesta mediante Conjuntos de recursos de Databricks, que permiten procedimientos recomendados como el control de código fuente, la revisión de código, las pruebas y la integración y entrega continuas (CI/CD). Las agrupaciones se administran mediante la CLI de Databricks y se pueden ejecutar en diferentes áreas de trabajo de destino, como desarrollo, ensayo y producción.

Recuperación de un error

Como servicio totalmente administrado, Lakeflow Connect pretende recuperarse automáticamente de los problemas cuando sea posible. Por ejemplo, cuando se produce un error en un conector, lo vuelve a intentar automáticamente con retraso exponencial.

Sin embargo, es posible que un error requiera la intervención (por ejemplo, cuando expiren las credenciales). En estos casos, el conector intenta evitar que falten datos almacenando la última posición del cursor. A continuación, puede continuar desde esa posición en la siguiente ejecución de la canalización, cuando sea posible.

Monitorización

Lakeflow Connect proporciona alertas y supervisión sólidas para ayudarle a mantener las canalizaciones. Esto incluye registros de eventos, registros de clúster, métricas de estado de canalización y métricas de calidad de datos.

Compatibilidad de características

En la tabla siguiente se resume la disponibilidad de características para cada conector de ingesta administrada. Para conocer características y limitaciones adicionales, consulte la documentación de su conector específico.

Característica Google Analytics MySQL Netsuite Salesforce Jornada laboral Servidor SQL PostgreSQL ServiceNow SharePoint (en inglés)
Estado Disponibilidad general Public Preview Public Preview Disponibilidad general Disponibilidad general Disponibilidad general Public Preview Disponibilidad general Beta
Creación de canalizaciones basadas en la interfaz de usuario No casilla marcada sí marcado con sí No
Creación de canalizaciones basadas en API marcado como sí marcado como sí
Conjuntos de recursos de Databricks comprobar sí marcado sí marcado con una marca de verificación
Ingesta incremental sí marcado con una marca de verificación Sí: con una excepción temporal para los campos de fórmula. Para obtener más información, consulte ¿Cómo extrae incrementalmente el conector las actualizaciones? sí marcado Sí: con excepciones cuando la tabla carece de un campo de cursor.
Gobernanza del catálogo de Unity marcado como sí sí marcado con una marca de verificación
Orquestación mediante flujos de trabajo de Databricks sí marcado con verificación marcar como sí
SCD de tipo 2 opción 'sí' marcada verificado como marcado sí
Selección y deselección de columnas basadas en API marcado sí sí marcado
Evolución automatizada del esquema: columnas nuevas y eliminadas marcado como sí marcado como sí
Evolución automatizada del esquema: cambios en el tipo de datos No x mark no No No No No x mark no No No
Evolución automatizada del esquema: cambio de nombre de columna Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). marcado como sí
Se trata como una nueva columna (nuevo nombre) y una columna eliminada (nombre antiguo).
Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). No: cuando se habilitan los objetos DDL, el conector puede cambiar el nombre de la columna. Cuando los objetos DDL no están habilitados, el conector lo trata como una nueva columna (nuevo nombre) y una columna eliminada (nombre antiguo). En cualquier caso, requiere una actualización completa. No: cuando se habilitan los objetos DDL, el conector puede cambiar el nombre de la columna. Cuando los objetos DDL no están habilitados, el conector lo trata como una nueva columna (nuevo nombre) y una columna eliminada (nombre antiguo). En cualquier caso, requiere una actualización completa. Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo).
Evolución automatizada del esquema: Nuevas tablas Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. marcado como sí
Si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.
Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. No disponible Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. sí marcado con una marca de verificación
Si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.
Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización.
Número máximo de tablas por canalización 250 250 200 250 250 250 250 250 250

Métodos de autenticación

En la tabla siguiente se enumeran los métodos de autenticación admitidos para cada conector de ingesta administrado. Databricks recomienda usar OAuth U2M o OAuth M2M siempre que sea posible. Si el conector admite OAuth U2M o OAuth M2M, la autenticación básica y OAuth con la actualización manual de tokens se consideran métodos de autenticación heredados.

Conector OAuth U2M OAuth M2M OAuth (token de actualización manual) Autenticación básica (nombre de usuario y contraseña) Autenticación básica (clave JSON de la cuenta de servicio) Autenticación basada en tokens
Confluencia No No No No No
Datos sin procesar de Google Analytics No No No Sí (solo API) No
MySQL No No No No No
Netsuite No No No No No
Salesforce No No No No No
ServiceNow No Sí (solo API) No No No
SharePoint (en inglés) Sí (versión preliminar pública) No No No
Servidor SQL No No No
PostgreSQL No No No No No
Informes de Workday No No No No

Dependencia de servicios externos

Databricks SaaS, base de datos y otros conectores totalmente administrados dependen de la accesibilidad, compatibilidad y estabilidad de la aplicación, la base de datos o el servicio externo al que se conectan. Databricks no controla estos servicios externos y, por tanto, tiene una influencia limitada (si existe) sobre sus cambios, actualizaciones y mantenimiento.

Si los cambios, interrupciones o circunstancias relacionados con un servicio externo impiden o representan poco práctico el funcionamiento de un conector, Databricks puede interrumpir o dejar de mantener ese conector. Databricks realizará esfuerzos razonables para notificar a los clientes la interrupción o el cese de mantenimiento, incluidas las actualizaciones de la documentación aplicable.