Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Mapa de datos de Microsoft Purview admite el examen automatizado de orígenes de datos locales, multinube y software como servicio (SaaS).
Al ejecutar un examen, el proceso comienza a ingerir metadatos de los orígenes de datos registrados. Al final del proceso de examen y mantenimiento, obtendrá metadatos seleccionados que incluyan metadatos técnicos. Estos metadatos pueden incluir nombres de recursos de datos, como nombres de tabla o nombres de archivo, tamaño de archivo, columnas y linaje de datos. En el caso de los orígenes de datos estructurados, también se capturan los detalles del esquema. Un sistema de administración de bases de datos relacionales es un ejemplo de este tipo de origen.
El proceso de conservación aplica etiquetas de clasificación automatizadas en los atributos de esquema en función del conjunto de reglas de examen que configure. Si la cuenta de Microsoft Purview está conectada al portal de Microsoft Purview, se aplican etiquetas de confidencialidad.
Importante
Si tiene alguna directiva de Azure que impida las actualizaciones de las cuentas de almacenamiento, estas directivas producen errores en el proceso de examen de Microsoft Purview. Consulte Creación de una exclusión de directiva de Azure para Microsoft Purview para crear una excepción para las cuentas de Microsoft Purview.
¿Por qué necesita procedimientos recomendados para administrar orígenes de datos?
Los procedimientos recomendados le ayudan a:
- Optimice el costo.
- Cree la excelencia operativa.
- Mejorar el cumplimiento de seguridad.
- Obtenga eficiencia en el rendimiento.
Registro de un origen y establecimiento de una conexión
Las siguientes consideraciones y recomendaciones de diseño le ayudan a registrar un origen y a establecer una conexión.
Consideraciones sobre diseño
- Use colecciones para crear la jerarquía que se alinee con la estrategia de la organización, como la ubicación geográfica, la función empresarial o el origen de datos. La jerarquía define los orígenes de datos que se van a registrar y examinar.
- Por diseño, no puede registrar orígenes de datos varias veces en la misma cuenta de Microsoft Purview. Esta arquitectura le ayuda a evitar el riesgo de asignar un control de acceso diferente al mismo origen de datos.
Recomendaciones de diseño
Si varios equipos consumen los metadatos del mismo origen de datos, registre y administre el origen de datos en una colección primaria. A continuación, cree los exámenes correspondientes en cada subconsulta. De este modo, los recursos pertinentes aparecen en cada colección secundaria. La vista de mapa agrupa orígenes sin elementos primarios en un cuadro de puntos. No hay flechas que los vinculen a los padres.
Use la opción Azure Varios si necesita registrar varios orígenes, como Azure suscripciones o grupos de recursos, en la nube. Para obtener más información, consulte la siguiente documentación:
Después de registrar un origen de datos, puede examinar el mismo origen varias veces. Es posible que distintos equipos o unidades de negocio usen el mismo origen de maneras diferentes.
Para obtener más información sobre cómo definir una jerarquía para registrar orígenes de datos, consulte Procedimientos recomendados sobre la arquitectura de colecciones.
Análisis
Las siguientes consideraciones y recomendaciones de diseño se organizan en función de los pasos clave implicados en el proceso de examen.
Consideraciones sobre diseño
- Después de registrar el origen de datos, configure un examen para administrar el examen y el mantenimiento de metadatos automatizados y seguros.
- La configuración del examen incluye la configuración del nombre del examen, el ámbito del examen, el entorno de ejecución de integración, la frecuencia del desencadenador de examen, el conjunto de reglas de examen y el conjunto de recursos de forma única para cada origen de datos por frecuencia de examen.
- Antes de crear las credenciales, tenga en cuenta los tipos de origen de datos y los requisitos de red. Esta información le ayuda a decidir qué método de autenticación y entorno de ejecución de integración necesita para su escenario.
Recomendaciones de diseño
Después de registrar el origen en la colección correspondiente, planee y siga el orden que se muestra en este ejemplo al configurar el examen. Este pedido de proceso le ayuda a evitar costos inesperados y volver a trabajar.
Identifique los requisitos de clasificación de las reglas de clasificación integradas del sistema. O bien, cree reglas de clasificación personalizadas específicas, según sea necesario. Baselos en requisitos específicos del sector, empresariales o regionales, que no están disponibles de forma inmediata:
Cree conjuntos de reglas de examen antes de configurar el examen. Al crear el conjunto de reglas de examen, asegúrese de los puntos siguientes:
Compruebe si el conjunto de reglas de examen predeterminado del sistema es suficiente para el origen de datos que está examinando. De lo contrario, defina el conjunto de reglas de examen personalizado.
El conjunto de reglas de examen personalizado puede incluir las reglas predeterminadas y personalizadas del sistema, por lo que debe borrar las opciones que no son pertinentes para los recursos de datos que está examinando.
Cuando sea necesario, cree un conjunto de reglas personalizado para excluir etiquetas de clasificación no deseadas. Por ejemplo, el conjunto de reglas del sistema contiene patrones de código gubernamental genérico para el planeta, no solo el Estados Unidos. Los datos pueden coincidir con el patrón de algún otro tipo, como "Número de licencia de conducir de Bélgica".
Limite las reglas de clasificación personalizadas a las etiquetas más importantes y pertinentes para evitar el desorden. No quiere tener demasiadas etiquetas etiquetadas en el recurso.
Si modifica la clasificación personalizada o el conjunto de reglas de examen, se desencadena un examen completo. Configure el conjunto de reglas de clasificación y examen adecuadamente para evitar el retrabajo y los costosos exámenes completos.
Nota:
Al examinar una cuenta de almacenamiento, Microsoft Purview usa un conjunto de patrones definidos para determinar si un grupo de recursos forma un conjunto de recursos. Puede usar reglas de patrón de conjunto de recursos para personalizar o invalidar la forma en que Microsoft Purview detecta qué recursos se agrupan como conjuntos de recursos. Las reglas también determinan cómo se muestran los recursos dentro del catálogo. Para obtener más información, consulte Creación de reglas de patrón de conjunto de recursos. Esta característica tiene consideraciones de costos. Para obtener información, consulte el sitio de precios de Microsoft Purview.
Configure un examen para los orígenes de datos registrados. - Nombre del examen: de forma predeterminada, Microsoft Purview usa la convención de nomenclatura SCAN-[A-Z][a-z][a-z], lo que no resulta útil al intentar identificar un examen que ha ejecutado. Use una convención de nomenclatura significativa. Por ejemplo, podría asignar al entorno de examen el nombre environment-source-frequency-time como DEVODS-Daily-0200. Este nombre representa un examen diario a las 0200 horas.
Autenticación: Microsoft Purview ofrece varios métodos de autenticación para examinar orígenes de datos, en función del tipo de origen. Podría ser Azure orígenes en la nube o locales o que no sean de Microsoft. Siga el principio de privilegios mínimos para el método de autenticación en este orden de preferencias:
- MSI de Microsoft Purview: identidad de servicio administrada (por ejemplo, para orígenes de Azure Data Lake Storage Gen2)
- Identidad administrada asignada por el usuario
- Servicio principal
- Autenticación de SQL (por ejemplo, para orígenes locales o Azure SQL)
- Clave de cuenta o autenticación básica (por ejemplo, para orígenes de SAP S/4HANA)
Para obtener más información, consulte la guía de procedimientos para administrar las credenciales.
Nota:
Si habilita un firewall para la cuenta de almacenamiento, debe usar el método de autenticación de identidad administrada al configurar un examen. Al configurar una nueva credencial, el nombre de la credencial solo puede contener letras, números, caracteres de subrayado y guiones.
Entorno de ejecución de integración
- Para obtener más información, consulte Procedimientos recomendados de arquitectura de red.
- Si se elimina el entorno de ejecución de integración autohospedado (SHIR), se producirá un error en los exámenes en curso que dependan de él.
- Cuando use SHIR, asegúrese de que la memoria es suficiente para el origen de datos que está examinando. Por ejemplo, cuando se usa SHIR para examinar un origen de SAP, si ve "Error de memoria insuficiente":
- Asegúrese de que la máquina SHIR tiene suficiente memoria. La cantidad recomendada es de 128 GB.
- En la configuración de examen, establezca la memoria máxima disponible como algún valor adecuado, por ejemplo, 100.
- Para obtener más información, consulte los requisitos previos en Examen y administración de SAP ECC Microsoft Purview.
Examen del ámbito
- Al configurar el ámbito para el examen, seleccione solo los recursos que son pertinentes en un nivel granular o en un nivel primario. Esta práctica garantiza que el costo del examen sea óptimo y que el rendimiento sea eficaz. Todos los activos futuros de un elemento primario determinado se seleccionan automáticamente si el elemento primario está comprobado total o parcialmente.
- Algunos ejemplos de algunos orígenes de datos:
- Para Azure SQL Database o Data Lake Storage Gen2, puede limitar el examen a partes específicas del origen de datos. Seleccione los elementos adecuados de la lista, como carpetas, subcarpetas, colecciones o esquemas.
- Para orígenes de Oracle, Hive Metastore Database y Teradata, puede especificar una lista específica de esquemas que se exportarán a través de valores separados por punto y coma o patrones de nombre de esquema.
- Para google big query, puede especificar una lista específica de conjuntos de datos que se exportarán a través de valores separados por punto y coma.
- Al crear un examen para una cuenta de AWS completa, puede seleccionar cubos específicos para examinar. Al crear un examen para un bucket específico de AWS S3, puede seleccionar carpetas específicas para examinar.
- Para Erwin, puede limitar el examen proporcionando una lista separada por punto y coma de cadenas de localizador de modelos de Erwin.
- Para Cassandra, puede especificar una lista específica de espacios de claves que se exportarán a través de valores separados por punto y coma o a través de patrones de nombres de espacios clave.
- Para Looker, puede limitar el examen proporcionando una lista separada por punto y coma de proyectos de Looker.
- En el caso del inquilino de Power BI, solo puede especificar si desea incluir o excluir el área de trabajo personal.
- En general, use patrones de omisión en los que se admitan, en función de los comodín (por ejemplo, para los lagos de datos) para excluir temp, archivos de configuración, tablas del sistema RDBMS o tablas de copia de seguridad o STG.
- Al examinar documentos o datos no estructurados, evite examinar un gran número de dichos documentos. El examen procesa los primeros 20 MB de dichos documentos y puede dar lugar a una mayor duración del examen.
Conjunto de reglas de examen
- Al seleccionar el conjunto de reglas de examen, asegúrese de configurar el sistema o el conjunto de reglas de examen personalizado correspondientes que creó anteriormente. - Puede crear tipos de archivo personalizados y rellenar los detalles en consecuencia. Actualmente, Microsoft Purview solo admite un carácter en el delimitador personalizado. Si usa delimitadores personalizados, como ~, en los datos reales, debe crear un nuevo conjunto de reglas de examen.
Tipo de examen y programación
- Puede configurar el proceso de examen para ejecutar exámenes completos o incrementales.
- Ejecute los exámenes durante las horas no laborables o fuera del pico para evitar cualquier sobrecarga de procesamiento en el origen.
- El examen inicial es un examen completo y cada examen posterior es incremental. Puede programar exámenes posteriores como exámenes incrementales periódicos. Obtenga más información sobre las opciones de programación admitidas.
- La frecuencia de los exámenes debe alinearse con la programación de administración de cambios del origen de datos o los requisitos empresariales. Por ejemplo:
- Si la estructura de origen podría cambiar semanalmente, la frecuencia de examen debe estar sincronizada. Los cambios incluyen nuevos recursos o campos dentro de un recurso que se agregan, modifican o eliminan.
- Si las etiquetas de clasificación o confidencialidad deben estar actualizadas semanalmente, quizás por motivos normativos, la frecuencia del examen debe ser semanal. - Si los archivos de partición se agregan cada semana en un lago de datos de origen, puede programar exámenes mensuales. No es necesario programar exámenes semanales porque no hay ningún cambio en los metadatos. En esta sugerencia se supone que no hay nuevos escenarios de clasificación.
- La duración máxima que puede ejecutar el examen es de siete días, posiblemente debido a problemas de memoria. Este período de tiempo excluye el proceso de ingesta. Si el progreso no se actualiza después de siete días, el examen se marca como erróneo. El proceso de ingesta (en el catálogo) actualmente no tiene ninguna limitación de este tipo.
Cancelación de exámenes
- Actualmente, solo puede cancelar o pausar exámenes si el estado del examen pasa a un estado "En curso" desde "Queued" después de desencadenar el examen.
- No se admite la cancelación de un examen secundario individual.
Puntos a tener en cuenta
- Si quita un campo, columna, tabla o archivo del sistema de origen después de que se ejecute un examen, Microsoft Purview solo muestra la eliminación después del siguiente examen completo o incremental programado.
- Para eliminar un recurso de un catálogo de Microsoft Purview, seleccione Eliminar en el nombre del recurso. Esta acción no quita el objeto en el origen. Si ejecuta un examen completo en el mismo origen, el examen vuelve a examinar el objeto del catálogo. Si ejecuta un examen incremental, el recurso eliminado no se recoge a menos que el objeto se modifique en el origen. Por ejemplo, si se agrega o quita una columna de la tabla.
- Para comprender el comportamiento de los exámenes posteriores después de editar manualmente un recurso de datos o un esquema subyacente a través del portal de gobernanza de Microsoft Purview clásico, consulte detalles del recurso del catálogo clásico.
- Para obtener más información, consulte cómo ver, editar y eliminar recursos.