Compartir a través de


Configuración de la calidad de los datos de Snowflake

Al examinar orígenes de datos de Snowflake, Microsoft Purview admite la extracción de metadatos técnicos, entre los que se incluyen:

  • Servidor, bases de datos, esquemas y tablas, incluidas las columnas; las vistas, incluidas las columnas, las claves externas y las restricciones únicas.
  • Procedimientos almacenados, incluidos el conjunto de datos de parámetros y el conjunto de resultados.
  • Funciones, incluido el conjunto de datos de parámetros.
  • Canalizaciones, fases y secuencias, incluidas las columnas.
  • Tareas y secuencias.

Registro de un origen de Snowflake en Data Map

Para registrar un nuevo origen de Snowflake en Catálogo unificado de Microsoft Purview, siga estos pasos:

  • Inicie sesión en el portal de Microsoft Purview.
  • Seleccione la tarjeta de solución Mapa de datos . Si no se muestra la tarjeta de solución Mapa de datos, seleccione Ver todas las soluciones y, a continuación, seleccione Mapa de datos en la sección Núcleo .
  • Seleccione Registrar.
  • En Registrar orígenes, seleccione Snowflake.

Configuración de un examen de Mapa de datos

  • Seleccione el origen de Snowflake registrado.
  • Seleccione + Nuevo examen.
  • Proporcione los detalles siguientes:
    • Nombre: nombre del examen.
    • Conectar a través del entorno de ejecución de integración: seleccione el entorno de ejecución de integración Azure autoresolved, Managed Virtual Network IR o SHIR según su escenario.
    • Host para la conexión: elija el punto de conexión que se usa para establecer la conexión a Snowflake durante el examen. Puede elegir entre la dirección URL del servidor o los demás hosts que configuró en el origen de datos.
    • Credencial: seleccione la credencial para conectarse al origen de datos. Asegúrese de:
      • Seleccione Autenticación básica al crear una credencial.
      • Proporcione el nombre de usuario usado para conectarse a Snowflake en el campo De entrada Nombre de usuario.
      • Almacene la contraseña de usuario usada para conectarse a Snowflake en la clave secreta.
    • Almacén: especifique el nombre de la instancia de almacenamiento que se usa para habilitar el examen en mayúsculas. El rol predeterminado asignado al usuario especificado en la credencial debe tener derechos USAGE en este almacén.
    • Bases de datos: especifique uno o varios nombres de instancia de base de datos que se van a importar en mayúsculas. Separe los nombres de la lista con un punto y coma (;). Por ejemplo, DB1; DB2. El rol predeterminado asignado al usuario especificado en la credencial debe tener derechos adecuados en los objetos de base de datos.
    • Esquema: enumera el subconjunto de esquemas que se van a importar expresados como una lista separada por punto y coma.
  • Seleccione Probar conexión para validar la configuración (disponible al usar Azure Integration Runtime).
  • Seleccione Continuar.
  • Seleccione un conjunto de reglas de examen para la clasificación. Puede elegir entre los conjuntos de reglas personalizados predeterminados del sistema existentes o crear un nuevo conjunto de reglas alineado.
  • Revise el examen y seleccione Guardar y ejecutar.

Una vez examinado, el recurso de datos de Snowflake está disponible en la búsqueda de Catálogo unificado. Para obtener más información sobre cómo conectarse y administrar Snowflake en Microsoft Purview, consulte Conexión y administración de Snowflake en Microsoft Purview.

Importante

Al eliminar el objeto del origen de datos, el examen posterior no quita automáticamente el recurso correspondiente en Microsoft Purview.

Para configurar el punto de conexión privado en El vínculo privado de Snowflake mediante una red virtual administrada, siga estas instrucciones paso a paso.

Azure Private Link proporciona conectividad privada a Snowflake asegurándose de que el acceso a Snowflake se realiza a través de una dirección IP privada. El tráfico de red fluye a snowflake Virtual Network mediante la red troncal de Microsoft y evita la red pública de Internet. Esto simplifica considerablemente la configuración de red al mantener las reglas de acceso privadas al tiempo que proporciona comunicación segura y privada.

  1. Ejecute SYSTEM$WHITE_LIST and SYSTEM$WHITE_LIST_PRIVATELINK para obtener los SNOWFLAKE_DEPLOYMENT, SNOWFLAKE_DEPLOYMENT_REGIONLESS and OCSP_CACHE valores de public y white_list hosts. En este documento se proporciona un script de ejemplo.

  2. Ejecute SYSTEM$GET_SNOWFLAKE_PLATFORM_INFO() como ACCOUNTADMIN para obtener los valores de snowflake-vnet-subnet-ids. El identificador de suscripción de la Private Link del inquilino de Azure de Snowflake se obtiene de esta. En este documento se proporciona un script de ejemplo. El identificador de suscripción es el que tiene el grupo de recursos azure-prod o, si no está presente, sería deployment-infra-rg o algo similar. El grupo de recursos y el identificador de suscripción podrían cambiar en el futuro. Póngase en contacto con el soporte técnico de Snowflake para obtener los detalles reales del identificador de suscripción.

  3. Cree un punto de conexión privado para private link en la sección Puntos de conexión privados administrados en el menú Administrar de Data Factory Studio. Obtenga más información sobre los puntos de conexión privados administrados por Data Factory.

  4. Seleccione Servicio private link para configurar el punto de conexión administrado para el vínculo privado de Snowflake.

  5. El identificador de recurso del vínculo privado de Snowflake de destino tiene el siguiente formato: /subscriptions/(subscription_id)/resourcegroups/az(region)-privatelink/providers/microsoft.network/privatelinkservices/sf-pvlinksvc-az(region).

    1. Para obtener el identificador de región y el nombre completo, ejecute SYSTEM_WHITE_LIST y SYSTEM_WHITE_LIST_PRIVATELINK obtenga los SNOWFLAKE_DEPLOYMENTvalores , SNOWFLAKE_DEPLOYMENT_REGIONLESSy OCSP_CACHE para los hosts públicos y permitidos.
    2. Para obtener el identificador de suscripción, ejecute SYSTEM$GET_SNOWFLAKE_PLATFORM_INFO() como ACCOUNTADMIN para obtener los valores de snowflake-vnet-subnet-ids . El identificador de suscripción de la Private Link del inquilino de Azure de Snowflake se obtiene de esta.
  6. Para el nombre completo, agregue y SNOWFLAKE_DEPLOYMENT, SNOWFLAKE_DEPLOYMENT_REGIONLESSOCSP_CACHE del host de vínculo público y privado del paso 1.

  7. El estado de aprovisionamiento debe ser Correcto y el estado De aprobación debe estar pendiente. Si se ha producido un error en el estado de aprovisionamiento, compruebe los valores proporcionados y repita el proceso con los valores correctos.

  8. Dado que private link está en la suscripción Azure de Snowflake, debe generar una incidencia de soporte técnico a Snowflake para aprobar la conexión de punto de conexión privado. Proporcione el identificador de recurso de punto de conexión privado administrado y el vínculo de aprobaciones administradas en microsoft Azure Portal.

  9. Una vez que el soporte técnico de Snowflake confirme que la conexión está aprobada, el estado de aprobación del punto de conexión administrado debe aprobarse y estar listo para su uso.

  10. Ejecute SYSTEM$GET_PRIVATELINK_AUTHORIZED_ENDPOINTS() para comprobar la conexión en Snowflake. También puede ejecutar la siguiente consulta con un almacén para obtenerla en un formato legible. En este documento se proporciona un script de ejemplo.

  11. El servicio vinculado está configurado con la conexión de Snowflake y usa el punto de conexión privado para conectarse a Snowflake a través de private link.

Configuración de la conexión al origen de datos de Snowflake para el examen de calidad de datos

En este momento, el recurso examinado está listo para la catalogación y la gobernanza. Asocie el recurso examinado al producto de datos en una Sele de dominio de gobernanza. En la pestaña Calidad de datos, agregue un nuevo Azure SQL Conexión a la base de datos: escriba manualmente el nombre de la base de datos.

  1. En el portal de Microsoft Purview, abra Catálogo unificado.

  2. En Administración de estado, seleccione Calidad de los datos.

  3. Seleccione un dominio de gobernanza en la lista y, a continuación, seleccione Conexiones en la lista desplegable Administrar .

  4. Configure la conexión en la página Conexiones :

    • Agregue el nombre y la descripción de la conexión.
    • Seleccione el tipo de origen Snowflake.
    • Agregue El nombre del servidor, el nombre del almacén, el nombre de la base de datos, el nombre del esquema y el nombre de la tabla.
    • Seleccione método de autenticación: autenticación básica.
    • Agregar nombre de usuario.
    • Agregar credenciales:
      • Agregar Azure suscripción
      • Conexión de Key Vault
      • Nombre del secreto
      • Versión secreta
    • Active la casilla Habilitar V-Net administradosi Snowflake se ejecuta en Azure Virtual Network.
    • Seleccione la región Azure.
    • Agregue Private Link id. de recursos.
    • Agregue el nombre de dominio completo.
  5. Pruebe la conexión para asegurarse de que funciona. Si usa Virtual Network, no se admite la característica de conexión de prueba.

    Captura de pantalla que muestra cómo configurar la conexión de snowflake.

    Captura de pantalla que muestra cómo configurar el token de conexión de Snowflake.

El identificador de recurso del vínculo privado de Snowflake de destino tiene el siguiente formato: /subscriptions/(subscription_id)/resourcegroups/az(region)-privatelink/providers/microsoft.network/privatelinkservices/sf-pvlinksvc-az(region).

  • Para obtener el identificador de región y el nombre completo, ejecute SYSTEM_WHITE_LIST y SYSTEM_WHITE_LIST_PRIVATELINK obtenga los SNOWFLAKE_DEPLOYMENTvalores , SNOWFLAKE_DEPLOYMENT_REGIONLESSy OCSP_CACHE para los hosts públicos y permitidos.
  • Para obtener el identificador de suscripción, ejecute SYSTEM$GET_SNOWFLAKE_PLATFORM_INFO() como ACCOUNTADMIN para obtener los valores de snowflake-vnet-subnet-ids . El identificador de suscripción de la Private Link del inquilino de Azure de Snowflake se obtiene de esta.

Importante

  • Una vez creada la solicitud de una conexión de punto de conexión privado, es necesario generar una incidencia de soporte técnico con soporte técnico de Snowflake para aprobar la conexión de punto de conexión privado. Proporcione los detalles del identificador de recurso de punto de conexión privado administrado en esta incidencia de soporte técnico para que el equipo de Snowflake lo apruebe.
  • Los administradores de calidad de datos necesitan acceso de solo lectura a Snowflake para configurar la conexión de calidad de datos.
  • El conector de Snowflake no acepta https://. Quite https:// al agregar el nombre del servidor para configurar la conexión del origen de datos.
  • Si el acceso público está deshabilitado, debe seleccionar Permitir servicios de Microsoft de confianza para Key Vault. Esto solo es necesario para Key Vault, no para el área de trabajo de Snowflake.

Nota:

Se agregará compatibilidad con La autorización abierta (OAuth) y el par de claves para la conexión de base de datos de Snowflake. Con OAuth y los mecanismos de autenticación basados en pares de claves admitidos para Snowflake, puede crear varias conexiones que admitan distintos mecanismos de autenticación. En tales casos, se mantiene la lógica de seleccionar la última conexión creada. Por ejemplo, si primero crea una conexión basada en un par de claves seguida de OAuth, se selecciona la de OAuth. Si desea que se seleccione la conexión del par de claves, debe eliminar el mecanismo de OAuth. Póngase en contacto con el representante de la cuenta microsoft si desea obtener una vista previa del nuevo modelo de autenticación de Snowflake para el examen de calidad de datos de Microsoft Purview.

Generación de perfiles y examen de calidad de datos para datos en Snowflake

Después de configurar la conexión, puede generar perfiles de los datos, crear y aplicar reglas y ejecutar un examen de calidad de datos para los datos en Snowflake. Siga las instrucciones paso a paso que se describen en los documentos siguientes:

Recursos