Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
Los conectores administrados de Lakeflow Connect se encuentran en varios estados de versión.
En este artículo se proporciona información general sobre los conectores administrados en Databricks Lakeflow Connect para la ingesta de datos de bases de datos y aplicaciones SaaS. La canalización de ingesta resultante se rige por Unity Catalog y cuenta con tecnología de proceso sin servidor y canalizaciones declarativas de Spark de Lakeflow. Los conectores administrados aprovechan las lecturas y escrituras incrementales eficaces para que la ingesta de datos sea más rápida, escalable y rentable, mientras que los datos permanecen frescos para el consumo descendente.
Componentes de conectores SaaS
Un conector SaaS tiene los siguientes componentes:
| Componente | Descripción |
|---|---|
| Conexión | Objeto protegible del catálogo de Unity que almacena los detalles de autenticación de la aplicación. |
| Canalización de ingesta | Una canalización que copia los datos de la aplicación a las tablas de destino. La canalización de ingesta se ejecuta en proceso sin servidor. |
| Tablas de destino | Las tablas en las que la canalización de ingesta escribe los datos. Se trata de tablas de streaming, que son tablas delta con compatibilidad adicional con el procesamiento incremental de datos. |
Componentes del conector de base de datos
Un conector de base de datos tiene los siguientes componentes:
| Componente | Descripción |
|---|---|
| Conexión | Objeto protegible del catálogo de Unity que almacena los detalles de autenticación de la base de datos. |
| Puerta de enlace de ingesta | Canalización que extrae instantáneas, registros de cambios y metadatos de la base de datos de origen. La puerta de enlace se ejecuta en proceso clásico y funciona continuamente para capturar los cambios antes de que los registros de cambios puedan truncarse en la fuente. |
| Almacenamiento provisional | Un volumen de Catálogo de Unity que almacena temporalmente los datos extraídos antes de aplicarlos a la tabla de destino. Esto le permite ejecutar la canalización de ingesta en el horario que desee, incluso mientras la puerta de enlace captura los cambios de forma continua. También ayuda con la recuperación ante fallos. Crea automáticamente un volumen de almacenamiento provisional al implementar la puerta de enlace y puede personalizar el catálogo y el esquema donde reside. Los datos se purgan automáticamente del almacenamiento provisional después de 30 días. |
| Canalización de ingesta | Tubería de datos que transfiere los datos desde el almacenamiento provisional a las tablas de destino. La canalización se ejecuta en proceso sin servidor. |
| Tablas de destino | Las tablas en las que la canalización de ingesta escribe los datos. Se trata de tablas de streaming, que son tablas delta con compatibilidad adicional con el procesamiento incremental de datos. |
Orquestación
Puede operar su tubería de ingestión en uno o varios cronogramas personalizados. Para cada programación que agregue a una canalización, Lakeflow Connect crea automáticamente un trabajo para ella. La canalización de ingesta es una tarea dentro del trabajo. Opcionalmente, puede agregar más tareas al trabajo.
En el caso de los conectores de base de datos, la puerta de enlace de ingesta se ejecuta en su propio trabajo como una tarea continua.
Ingesta incremental
Lakeflow Connect usa la ingesta incremental para mejorar la eficacia de la canalización. En la primera ejecución de la canalización, ingiere todo el conjunto de datos seleccionados del origen. En paralelo, realiza un seguimiento de los cambios realizados en los datos de origen. En cada ejecución posterior de la canalización, usa ese seguimiento de cambios para ingerir solo los datos que han cambiado de la ejecución anterior, siempre que sea posible.
El enfoque exacto depende de lo que está disponible en el origen de datos. Por ejemplo, puede usar el seguimiento de cambios y la captura de datos modificados (CDC) con SQL Server. En cambio, el conector de Salesforce selecciona una columna de cursor de una lista de opciones establecida.
Algunos orígenes o tablas específicas no admiten la ingesta incremental en este momento. Databricks planea expandir la cobertura de soporte incremental.
Redes
Hay varias opciones para conectarse a una base de datos o aplicación SaaS.
- Los conectores para aplicaciones SaaS llegan a las API del origen. También son compatibles automáticamente con controles de salida sin servidor.
- Los conectores de las bases de datos en la nube pueden conectarse al origen a través de Private Link. Como alternativa, si el área de trabajo tiene una red virtual (VNet) o una nube privada virtual (VPC) emparejada con la red virtual (VNet) o nube privada virtual (VPC) que hospeda la base de datos, puede implementar la puerta de enlace de ingestión dentro de ella.
- Los conectores para bases de datos locales pueden conectarse mediante servicios como AWS Direct Connect y Azure ExpressRoute.
Despliegue
Puede implementar canalizaciones de ingesta mediante Conjuntos de recursos de Databricks, que permiten procedimientos recomendados como el control de código fuente, la revisión de código, las pruebas y la integración y entrega continuas (CI/CD). Las agrupaciones se administran mediante la CLI de Databricks y se pueden ejecutar en diferentes áreas de trabajo de destino, como desarrollo, ensayo y producción.
Recuperación de un error
Como servicio totalmente administrado, Lakeflow Connect pretende recuperarse automáticamente de los problemas cuando sea posible. Por ejemplo, cuando se produce un error en un conector, lo vuelve a intentar automáticamente con retraso exponencial.
Sin embargo, es posible que un error requiera la intervención (por ejemplo, cuando expiren las credenciales). En estos casos, el conector intenta evitar que falten datos almacenando la última posición del cursor. A continuación, puede continuar desde esa posición en la siguiente ejecución de la canalización, cuando sea posible.
Monitorización
Lakeflow Connect proporciona alertas y supervisión sólidas para ayudarle a mantener las canalizaciones. Esto incluye registros de eventos, registros de clúster, métricas de estado de canalización y métricas de calidad de datos.
Compatibilidad de características
En la tabla siguiente se resume la disponibilidad de características para cada conector de ingesta administrada. Para conocer características y limitaciones adicionales, consulte la documentación de su conector específico.
| Característica | Google Analytics | MySQL | Netsuite | Salesforce | Jornada laboral | Servidor SQL | PostgreSQL | ServiceNow | SharePoint (en inglés) |
|---|---|---|---|---|---|---|---|---|---|
| Estado | Disponibilidad general | Public Preview | Public Preview | Disponibilidad general | Disponibilidad general | Disponibilidad general | Public Preview | Disponibilidad general | Beta |
| Creación de canalizaciones basadas en la interfaz de usuario | No |
|
Sí | Sí | Sí | Sí |
|
Sí | No |
| Creación de canalizaciones basadas en API | Sí |
|
Sí | Sí | Sí | Sí |
|
Sí | Sí |
| Conjuntos de recursos de Databricks | Sí |
|
Sí | Sí | Sí | Sí |
|
Sí | Sí |
| Ingesta incremental | Sí |
|
Sí | Sí: con una excepción temporal para los campos de fórmula. Para obtener más información, consulte ¿Cómo extrae incrementalmente el conector las actualizaciones? | Sí | Sí |
|
Sí: con excepciones cuando la tabla carece de un campo de cursor. | Sí |
| Gobernanza del catálogo de Unity | Sí |
|
Sí | Sí | Sí | Sí |
|
Sí | Sí |
| Orquestación mediante flujos de trabajo de Databricks | Sí |
|
Sí | Sí | Sí | Sí |
|
Sí | Sí |
| SCD de tipo 2 | Sí |
|
Sí | Sí | Sí | Sí |
|
Sí | Sí |
| Selección y deselección de columnas basadas en API | Sí |
|
Sí | Sí | Sí | Sí |
|
Sí | Sí |
| Evolución automatizada del esquema: columnas nuevas y eliminadas | Sí |
|
Sí | Sí | Sí | Sí |
|
Sí | Sí |
| Evolución automatizada del esquema: cambios en el tipo de datos | No |
|
No | No | No | No |
|
No | No |
| Evolución automatizada del esquema: cambio de nombre de columna | Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). |
Se trata como una nueva columna (nuevo nombre) y una columna eliminada (nombre antiguo). |
Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). | Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). | Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). | No: cuando se habilitan los objetos DDL, el conector puede cambiar el nombre de la columna. Cuando los objetos DDL no están habilitados, el conector lo trata como una nueva columna (nuevo nombre) y una columna eliminada (nombre antiguo). En cualquier caso, requiere una actualización completa. | No: cuando se habilitan los objetos DDL, el conector puede cambiar el nombre de la columna. Cuando los objetos DDL no están habilitados, el conector lo trata como una nueva columna (nuevo nombre) y una columna eliminada (nombre antiguo). En cualquier caso, requiere una actualización completa. | Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). | Sí: se trata como una nueva columna (nuevo nombre) y columna eliminada (nombre antiguo). |
| Evolución automatizada del esquema: Nuevas tablas | Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. |
Si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. |
Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. | Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. | No disponible | Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. |
Si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. |
Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. | Sí: si ingiere todo el esquema. Consulte las limitaciones del número de tablas por canalización. |
| Número máximo de tablas por canalización | 250 | 250 | 200 | 250 | 250 | 250 | 250 | 250 | 250 |
Métodos de autenticación
En la tabla siguiente se enumeran los métodos de autenticación admitidos para cada conector de ingesta administrado. Databricks recomienda usar OAuth U2M o OAuth M2M siempre que sea posible. Si el conector admite OAuth U2M o OAuth M2M, la autenticación básica y OAuth con la actualización manual de tokens se consideran métodos de autenticación heredados.
| Conector | OAuth U2M | OAuth M2M | OAuth (token de actualización manual) | Autenticación básica (nombre de usuario y contraseña) | Autenticación básica (clave JSON de la cuenta de servicio) | Autenticación basada en tokens |
|---|---|---|---|---|---|---|
| Confluencia | Sí | No | No | No | No | No |
| Datos sin procesar de Google Analytics | Sí | No | No | No | Sí (solo API) | No |
| MySQL | No | No | No | Sí | No | No |
| Netsuite | No | No | No | No | No | Sí |
| Salesforce | Sí | No | No | No | No | No |
| ServiceNow | Sí | No | Sí (solo API) | No | No | No |
| SharePoint (en inglés) | Sí | Sí (versión preliminar pública) | Sí | No | No | No |
| Servidor SQL | Sí | Sí | No | No | Sí | No |
| PostgreSQL | No | No | No | Sí | No | No |
| Informes de Workday | No | No | Sí | Sí | No | No |
Dependencia de servicios externos
Databricks SaaS, base de datos y otros conectores totalmente administrados dependen de la accesibilidad, compatibilidad y estabilidad de la aplicación, la base de datos o el servicio externo al que se conectan. Databricks no controla estos servicios externos y, por tanto, tiene una influencia limitada (si existe) sobre sus cambios, actualizaciones y mantenimiento.
Si los cambios, interrupciones o circunstancias relacionados con un servicio externo impiden o representan poco práctico el funcionamiento de un conector, Databricks puede interrumpir o dejar de mantener ese conector. Databricks realizará esfuerzos razonables para notificar a los clientes la interrupción o el cese de mantenimiento, incluidas las actualizaciones de la documentación aplicable.