Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Lakeflow Connect ofrece conectores sencillos y eficaces para ingerir datos de archivos locales, aplicaciones empresariales populares, bases de datos, almacenamiento en la nube, buses de mensajes, etc. En esta página se describen algunas de las formas en que Lakeflow Connect puede mejorar el rendimiento de ETL. También trata los casos de uso comunes y la gama de herramientas de ingesta admitidas, desde conectores totalmente administrados hasta marcos totalmente personalizables.
Modelos de servicio flexibles
Lakeflow Connect ofrece una amplia gama de conectores para aplicaciones empresariales, almacenamiento en la nube, bases de datos, buses de mensajes, etc. También le ofrece la flexibilidad de elegir entre lo siguiente:
| Opción | Descripción |
|---|---|
| Un servicio totalmente administrado | Conectores estándar que democratizan el acceso a los datos con interfaces de usuario sencillas y API eficaces. Esto le permite crear rápidamente canalizaciones de ingesta sólidas al tiempo que minimiza los costos de mantenimiento a largo plazo. |
| Una canalización personalizada | Si necesita más personalización, puede usar las canalizaciones declarativas de Spark Lakeflow o el streaming estructurado. En última instancia, esta versatilidad permite a Lakeflow Connect satisfacer las necesidades específicas de su organización. |
Unificación con las herramientas principales de Databricks
Lakeflow Connect usa las características principales de Databricks para proporcionar una administración de datos completa. Por ejemplo, ofrece gobernanza utilizando Unity Catalog, orquestación mediante Lakeflow Jobs y supervisión holística a lo largo de sus canalizaciones. Esto ayuda a su organización a administrar la seguridad, la calidad y el costo de los datos al mismo tiempo que unifica los procesos de ingesta con otras herramientas de ingeniería de datos. Lakeflow Connect se basa en una plataforma de inteligencia de datos abierta, con total flexibilidad para incorporar sus herramientas de terceros preferidas. Esto garantiza una solución adaptada que se alinea con la infraestructura existente y las estrategias de datos futuras.
Ingesta rápida y escalable
Lakeflow Connect usa lecturas y escrituras incrementales para habilitar una ingesta eficiente. Cuando se combina con transformaciones incrementales descendentes, esto puede mejorar significativamente el rendimiento de ETL.
Casos de uso comunes
Los clientes ingieren datos para resolver los problemas más difíciles de sus organizaciones. Entre los casos de uso de ejemplo se incluyen los siguientes:
| Caso de uso | Descripción |
|---|---|
| Cliente 360 | La medición del rendimiento de las campañas y la puntuación de clientes potenciales |
| Administración de carteras | Maximizar el ROI con modelos históricos y de previsión |
| Análisis de consumidores | Personalización de las experiencias de compra de los clientes |
| Recursos humanos centralizados | Apoyo a los recursos de su organización |
| Gemelos digitales | Aumento de la eficiencia de fabricación |
| Bots de chat rag | Creación de bots de chat para ayudar a los usuarios a comprender las directivas, los productos y mucho más |
Capas de la pila ETL
Algunos conectores funcionan en un nivel de la pila ETL. Por ejemplo, Databricks ofrece conectores totalmente administrados para aplicaciones empresariales como Salesforce y bases de datos como SQL Server. Otros conectores funcionan en varias capas de la pila ETL. Por ejemplo, puede usar conectores estándar en Structured Streaming para lograr una personalización completa o canalizaciones declarativas de Lakeflow Spark para obtener una experiencia más administrada. De forma similar, puede elegir el nivel de personalización de los datos de streaming de Apache Kafka, Amazon Kinesis, Google Pub/Sub y Apache Pulsar.
Databricks recomienda empezar con la capa más administrada. Si no cumple los requisitos (por ejemplo, si no es compatible con el origen de datos), vaya a la siguiente capa. Databricks planea expandir la compatibilidad con más conectores en las tres capas.
En la tabla siguiente se describen las tres capas de productos de ingesta, ordenados de la mayoría personalizables a la mayoría administrados:
| Nivel | Descripción |
|---|---|
| Structured Streaming | Structured Streaming es una API para el procesamiento de flujos incrementales casi en tiempo real. Proporciona un alto rendimiento, escalabilidad y tolerancia a errores. |
| Canalizaciones declarativas de Lakeflow Spark | Las canalizaciones declarativas de Spark de Lakeflow se basan en Structured Streaming, ofreciendo un marco declarativo para crear canalizaciones de datos. Puede definir las transformaciones que se van a realizar en los datos y Las canalizaciones declarativas de Spark de Lakeflow administran la orquestación, la supervisión, la calidad de los datos, los errores, etc. Por lo tanto, ofrece más automatización y menos sobrecarga que Structured Streaming. |
| Conectores totalmente administrados | Conectores completamente gestionados se basan en las canalizaciones declarativas de Lakeflow Spark, ofreciendo aún más automatización para los orígenes de datos más populares. Amplían la funcionalidad de canalizaciones declarativas de Spark de Lakeflow para incluir también autenticación específica del origen, CDC, control de casos perimetrales, mantenimiento de API a largo plazo, reintentos automatizados, evolución automatizada del esquema, etc. Por lo tanto, ofrecen aún más automatización para los orígenes de datos admitidos. |
Conectores administrados
Puede usar conectores totalmente administrados para extraer datos desde aplicaciones empresariales y bases de datos.
Los conectores admitidos incluyen:
Las interfaces admitidas incluyen:
- Interfaz de usuario de Databricks
- Conjuntos de recursos de Databricks
- API de Databricks
- SDK de Databricks
- CLI de Databricks
Conectores estándar
Además de los conectores administrados, Databricks ofrece conectores personalizables para el almacenamiento de objetos en la nube y los buses de mensajes. Consulte Conectores estándar en Lakeflow Connect.
Carga y descarga de archivos
Puede ingerir archivos que se encuentran en su red local, archivos que se han cargado en un volumen o archivos que se descargan desde una ubicación de internet. Consulte Archivos.
Asociados de ingesta
Muchas herramientas de terceros admiten la ingesta por lotes o streaming en Databricks. Databricks valida varias integraciones de terceros, aunque los pasos para configurar el acceso a los sistemas de origen e ingerir datos varían según la herramienta. En Asociados de ingesta encontrará una lista de herramientas validadas. Algunos asociados tecnológicos también se incluyen en Databricks Partner Connect, que tiene una interfaz de usuario que simplifica la conexión de herramientas de terceros a los datos de Lakehouse.
Ingesta de bricolaje
Databricks proporciona una plataforma informática general. Como resultado, puede crear sus propios conectores de ingesta mediante cualquier lenguaje de programación compatible con Databricks, como Python o Java. También puede importar y usar bibliotecas de conectores de código abierto populares, como la herramienta de carga de datos, Airbyte y Debezium.
Alternativas de ingesta
Databricks recomienda la ingesta para la mayoría de los casos de uso, ya que se escala para dar cabida a grandes volúmenes de datos, consultas de baja latencia y límites de API de terceros. La ingesta copia los datos de los sistemas de origen en Azure Databricks, lo que da como resultado datos duplicados que podrían quedar obsoletos a lo largo del tiempo. Si no desea copiar datos, puede usar las siguientes herramientas:
| Herramienta | Descripción |
|---|---|
| Federación de Lakehouse | Permite consultar orígenes de datos externos sin mover los datos. |
| Uso compartido de Delta | Permite compartir datos de forma segura entre plataformas, nubes y regiones. |