Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
Esta documentación se ha retirado y es posible que no se actualice. Los productos, servicios o tecnologías mencionados en este contenido ya no se admiten. Consulte la documentación precisa.
Syncsort ayuda a dividir los silos de datos mediante la integración de datos heredados, de sistema central y de IBM con Azure Databricks. Puede extraer fácilmente datos de estos orígenes en Delta Lake. Syncsort ahora forma parte de Precisamente.
Estos son los pasos para usar Syncsort con Azure Databricks.
Paso 1: Generación de un token de acceso personal de Databricks
Syncsort se autentica con Azure Databricks mediante un token de acceso personal de Azure Databricks.
Nota:
Como procedimiento recomendado de seguridad, al autenticarse con herramientas automatizadas, sistemas, scripts y aplicaciones, Databricks recomienda usar tokens de acceso personales que pertenecen a entidades de servicio en lugar de usuarios del área de trabajo. Para crear tokens para entidades de servicio, consulte Administrar tokens para una entidad de servicio.
Paso 2: Configuración de un clúster para admitir las necesidades de integración
Syncsort escribirá datos en una ruta de acceso de Azure Data Lake Storage y el clúster de integración de Azure Databricks leerá los datos de esa ubicación. Por lo tanto, el clúster de integración requiere acceso seguro a la ruta de acceso de Azure Data Lake Storage.
Acceso seguro a una ruta de acceso de Azure Data Lake Storage
Para proteger el acceso a los datos en Azure Data Lake Storage (ADLS), use una clave de acceso de una cuenta de almacenamiento de Azure (recomendado) o una entidad de servicio de Microsoft Entra ID.
Uso de una clave de acceso de una cuenta de almacenamiento de Azure
Puede configurar una clave de acceso de una cuenta de almacenamiento en el clúster de integración como elemento de configuración de Spark. Asegúrese de que la cuenta de almacenamiento tiene acceso al contenedor de ADLS y al sistema de archivos usados para el almacenamiento provisional de los datos y al contenedor de ADLS y al sistema de archivos donde desea escribir las tablas de Delta Lake. Para configurar el clúster de integración para que use la clave, siga los pasos descritos en Conexión a Azure Data Lake Storage y Blob Storage.
Uso de una entidad de servicio de Microsoft Entra ID
Puede configurar una entidad de servicio en el clúster de integración de Azure Databricks como elemento de la configuración de Spark. Asegúrese de que la entidad de servicio tiene acceso al contenedor de ADLS que se usa para los datos de almacenamiento provisional y al contenedor de ADLS donde desea escribir las tablas Delta. Para configurar el clúster de integración para que use la entidad de servicio, siga los pasos descritos en Acceso a ADLS con entidad de servicio.
Especificación de la configuración de clúster
Establezca Modo de clúster en Estándar.
Establezca la versión de Databricks Runtime en una versión de runtime de Databricks.
Habilite las escrituras optimizadas y la compactación automática agregando las siguientes propiedades a la configuración de Spark:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled trueConfigure el clúster en función de sus necesidades de escalado e integración.
Para más información sobre la configuración del clúster, consulte Referencia de configuración de proceso.
Consulte Obtención de los detalles de conexión de un recurso de proceso de Azure Databricks para conocer los pasos para obtener la dirección URL de JDBC y la ruta de acceso HTTP.
Paso 3: Obtener los detalles de conexión de JDBC y ODBC para conectarse a un clúster
Para conectar un clúster Azure Databricks a Syncsort, necesita las siguientes propiedades de conexión JDBC/ODBC:
- Dirección URL de JDBC
- Ruta de acceso HTTP
Paso 4: Configurar Syncsort con Azure Databricks
Vaya a la página de inicio de sesión de Databricks and Connect for Big Data y siga las instrucciones.