Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article répertorie les sources de données, les types de fichiers et les concepts d’analyse pris en charge dans Mappage de données Microsoft Purview.
Liste des sources de données par type
Les tableaux ci-dessous présentent toutes les sources de données qui ont des métadonnées techniques disponibles dans Mappage de données Microsoft Purview, ainsi que d’autres fonctionnalités prises en charge. Sélectionnez un nom de source de données dans la colonne Source de données pour obtenir des instructions sur la connexion de cette source à Data Map.
Azure
Azure ressources sont disponibles uniquement dans le même locataire que votre compte Microsoft Purview, sauf indication contraire sur la page de chaque source de données.
| Source de données | Peut appliquer automatiquement des classifications | Peut appliquer des étiquettes de confidentialité aux ressources Data Map | Peut appliquer des stratégies | Traçabilité de données | Accessible en mode direct |
|---|---|---|---|---|---|
| Sélectionnez le lien pour les instructions de connexion et d’analyse. | Sélectionnez Oui pour les instructions d’analyse. Découvrez comment les classifications sont appliquées pendant l’analyse. | En savoir plus sur l’étiquetage de confidentialité (préversion) . | Sélectionnez Oui pour afficher les stratégies prises en charge. par exemple, le propriétaire des données, l’accès en libre-service ou la protection. | Sélectionnez Oui pour plus d’informations. | En savoir plus sur l’affichage en direct. |
| Plusieurs sources | Oui | Dépendant de la source | Oui | Non | Limitée |
| Stockage Blob Azure | Oui | Oui | Oui (préversion) | Limité* | Oui |
| Azure l’API Cosmos DB pour SQL | Oui | Oui | Non | Non* | Non |
| Explorateur de données Azure | Oui | Oui | Non | Non* | Non |
| Azure Data Factory | Non | Non | Non | Oui | Non |
| Azure Data Lake Storage Gen2 | Oui | Oui | Oui (préversion) | Limité* | Oui |
| Azure Data Share | Non | Non | Non | Oui | Non |
| Base de données Azure pour MySQL | Oui | Oui | Non | Non* | Non |
| Base de données Azure pour PostgreSQL | Oui | Oui | Non | Non* | Non |
| Azure Databricks Hive Metastore | Non | Non | Non | Oui | Non |
| Catalogue Unity d' Azure Databricks | Oui | Oui | Non | Oui | Non |
| Pool SQL dédié Azure (anciennement SQL DW) | Oui | Non | Non | Non* | Non |
| Azure Files | Oui | Oui | Non | Limité* | Non |
| Azure Machine Learning | Non | Non | Non | Oui | Non |
| Base de données Azure SQL | Oui | Oui | Oui | Oui (préversion) | Oui |
| Azure SQL Managed Instance | Oui | Oui | Oui | Non* | Non |
| Analytique Azure Synapse (Espace de travail) | Oui | Oui | Non | Oui – Pipelines Synapse | Non |
* En plus du lignage des actifs de la source de données, le lignage est également pris en charge si l'ensemble de données est utilisé comme source/puits dans Data Factory ou le pipeline Synapse.
Database
| Source de données | Peut appliquer automatiquement des classifications | Peut appliquer des étiquettes de confidentialité aux ressources Data Map | Peut appliquer des stratégies | Traçabilité de données | Accessible en mode direct |
|---|---|---|---|---|---|
| Sélectionnez le lien pour les instructions de connexion et d’analyse. | Sélectionnez Oui pour les instructions d’analyse. Découvrez comment les classifications sont appliquées pendant l’analyse. | En savoir plus sur l’étiquetage de confidentialité (préversion) . | Sélectionnez Oui pour afficher les stratégies prises en charge. par exemple, le propriétaire des données, l’accès en libre-service ou la protection. | Sélectionnez Oui pour plus d’informations. | En savoir plus sur l’affichage en direct. |
| Amazon RDS | Oui | Non | Non | Non | Non |
| Amazon Redshift | Non | Non | Non | Non | Non |
| Cassandra | Non | Non | Non | Oui | Non |
| Db2 | Non | Non | Non | Oui | Non |
| Google BigQuery | Non | Non | Non | Oui | Non |
| Base de données Hive Metastore | Non | Non | Non | Oui* | Non |
| MongoDB | Non | Non | Non | Non | Non |
| MySQL | Non | Non | Non | Oui | Non |
| Oracle | Oui | Non | Non | Oui* | Non |
| PostgreSQL | Non | Non | Non | Oui | Non |
| SAP Business Warehouse (entrepôt de données) | Non | Non | Non | Non | Non |
| SAP HANA | Non | Non | Non | Non | Non |
| Snowflake | Oui | Oui | Non | Oui* | Non |
| SQL Server | Oui | Oui | Non | Non* | Non |
| SQL Server sur Azure-Arc | Oui | Non | Oui | Non* | Non |
| Teradata | Oui | Non | Non | Oui* | Non |
* En plus du lignage des actifs de la source de données, le lignage est également pris en charge si l'ensemble de données est utilisé comme source/puits dans Data Factory ou le pipeline Synapse.
Fichier
| Source de données | Peut appliquer automatiquement des classifications | Peut appliquer des étiquettes de confidentialité aux ressources Data Map | Peut appliquer des stratégies | Traçabilité de données | Accessible en mode direct |
|---|---|---|---|---|---|
| Sélectionnez le lien pour les instructions de connexion et d’analyse. | Sélectionnez Oui pour les instructions d’analyse. Découvrez comment les classifications sont appliquées pendant l’analyse. | En savoir plus sur l’étiquetage de confidentialité (préversion) . | Sélectionnez Oui pour afficher les stratégies prises en charge. par exemple, le propriétaire des données, l’accès en libre-service ou la protection. | Sélectionnez Oui pour plus d’informations. | En savoir plus sur l’affichage en direct. |
| Amazon S3 | Oui | Oui | Non | Limité* | Non |
| Hadoop Distributed File System (HDFS) | Oui | Non | Non | Non | Non |
* En plus du lignage des actifs de la source de données, le lignage est également pris en charge si l'ensemble de données est utilisé comme source/puits dans Data Factory ou le pipeline Synapse.
Services et applications
| Source de données | Peut appliquer automatiquement des classifications | Peut appliquer des étiquettes de confidentialité aux ressources Data Map | Peut appliquer des stratégies | Traçabilité de données | Accessible en mode direct |
|---|---|---|---|---|---|
| Sélectionnez le lien pour les instructions de connexion et d’analyse. | Sélectionnez Oui pour les instructions d’analyse. Découvrez comment les classifications sont appliquées pendant l’analyse. | En savoir plus sur l’étiquetage de confidentialité (préversion) . | Sélectionnez Oui pour afficher les stratégies prises en charge. par exemple, le propriétaire des données, l’accès en libre-service ou la protection. | Sélectionnez Oui pour plus d’informations. | En savoir plus sur l’affichage en direct. |
| Circulation d’air | Non | Non | Non | Oui | Non |
| Dataverse | Oui | Oui | Non | Non | Non |
| Erwin | Non | Non | Non | Oui | Non |
| Fabric | Non | Non | Non | Oui | Oui |
| Looker | Non | Non | Non | Oui | Non |
| Power BI | Non | Non | Non | Oui | Oui** |
| Qlik Sense Mobile | Non | Non | Non | Non | Non |
| Salesforce | Non | Non | Non | Non | Non |
| SAP ECC | Non | Non | Non | Oui* | Non |
| SAP S/4HANA | Non | Non | Non | Oui* | Non |
| Tableau | Non | Non | Non | Non | Non |
* En plus du lignage des actifs de la source de données, le lignage est également pris en charge si l'ensemble de données est utilisé comme source/puits dans Data Factory ou le pipeline Synapse.
** Les éléments Power BI d'un locataire Fabric sont disponibles en affichage direct.
Remarque
Actuellement, Mappage de données Microsoft Purview ne peut pas scanner un bien dont le nom contient /, \, ou #. Pour limiter votre analyse et éviter d’analyser les ressources qui contiennent ces caractères dans le nom de la ressource, utilisez l’exemple dans Inscrire et analyser la base de données Azure SQL.
Importante
Si vous envisagez d’utiliser un runtime d’intégration auto-hébergé, l’analyse de certaines sources de données nécessite une configuration supplémentaire sur l’ordinateur du runtime d’intégration auto-hébergé. Par exemple, JDK, Microsoft Visual C++ Redistributable ou un pilote spécifique. Pour votre source, reportez-vous à chaque article source pour plus d’informations sur les prérequis. Toutes les exigences sont répertoriées dans la section Prérequis.
Régions de l’analyseur Data Map
La liste suivante présente toutes les Azure régions de source de données (centre de données) où s’exécute l’analyseur Data Map. Si votre source de données Azure se trouve dans une région en dehors de cette liste, le scanneur s’exécute dans la région de votre instance Microsoft Purview.
- Australie Est
- Australie Sud-Est
- Sud du Brésil
- Canada Centre
- Canada Est
- Centre de l’Inde
- Chine Nord 3
- Asie Est
- USA Est
- USA Est 2
- France Centre
- Centre Ouest de l’Allemagne
- Japon Est
- Corée du Sud
- USA Centre Nord
- Europe Nord
- Qatar Centre
- Nord de l’Afrique du Sud
- USA Centre Sud
- Asie Sud-Est
- Suisse Nord
- UAE Nord
- Sud du Royaume-Uni
- USGov
- USA Centre Ouest
- Europe Ouest
- USA Ouest
- USA Ouest 2
- USA Ouest 3
Types de fichiers pris en charge pour l’analyse
Les types de fichiers répertoriés dans la section suivante prennent en charge l’analyse, l’extraction de schéma et la classification, le cas échéant. En outre, Data Map prend en charge les extensions de fichiers personnalisées et les analyseurs personnalisés.
Les formats de fichiers structurés pris en charge par l’extension incluent l’analyse, l’extraction de schéma et la classification au niveau des ressources et des colonnes :
- AVRO
- CSV
- GZIP
- JSON
- ORQUE
- PARQUET*
- PSV
- SSV
- TSV
- TXT
- XML
*Pour les fichiers PARQUET non compressés, tous les formats Parquet sont pris en charge. Pour les fichiers PARQUET compressés, seul le format Parquet snappy est pris en charge.
Les formats de fichier de document pris en charge par l’extension incluent l’analyse et la classification au niveau des ressources :
- MÉDECIN
- DOCM
- DOCX
- POINT
- ODP
- ODS
- ODT
- MARMITE
- PPS
- PPSX
- PPT
- PPTM
- PPTX
- XLC
- XLS
- XLSB
- XLSM
- XLSX
- XLT
Remarque
Limitations connues :
- L’analyseur Mappage de données Microsoft Purview prend uniquement en charge l’extraction de schéma pour les types de fichiers structurés répertoriés dans la section précédente.
- Pour les types de fichiers AVRO, ORC et PARQUET, le scanneur ne prend pas en charge l’extraction de schéma pour les fichiers qui contiennent des types de données complexes (par exemple, MAP, LIST, STRUCT).
- Pour les fichiers PARQUET non compressés, tous les formats Parquet sont pris en charge. Pour les fichiers PARQUET compressés, seul le format Parquet snappy est pris en charge pour l’extraction et la classification des schémas.
- Pour les types de fichiers GZIP, le GZIP doit être mappé à un seul fichier CSV dans. Les fichiers GZIP sont soumis à des règles de classification système et personnalisées. Le scanneur ne prend actuellement pas en charge l’analyse d’un fichier GZIP mappé à plusieurs fichiers dans, ou tout type de fichier autre que CSV.
- Pour les fichiers Parquet, si vous utilisez un runtime d’intégration auto-hébergé, vous devez installer le JRE 11 64 bits (Java Runtime Environment) ou OpenJDK sur votre machine ir. Consultez le guide d’installation du runtime Java.
- Le format Delta n’est pas pris en charge. Si vous analysez le format Delta directement à partir d’une source de données de stockage comme Microsoft Azure Data Lake Storage Gen2, l’ensemble de fichiers Parquet au format delta est analysé et géré en tant que jeu de ressources, comme décrit dans Présentation des ensembles de ressources. Les colonnes utilisées pour le partitionnement ne sont pas reconnues dans le schéma du jeu de ressources.
Pour les types de fichiers délimités (CSV, PSV, SSV, TSV, TXT) :
- Les fichiers délimités avec une seule colonne ne peuvent pas être déterminés comme étant des fichiers CSV et n’ont pas de schéma.
- La détection de type de données n’est pas prise en charge. Le type de données est répertorié sous la forme « string » pour toutes les colonnes.
- Les seuls délimiteurs pris en charge sont la virgule(','), le point-virgule(';'), la barre verticale('|') et la tabulation('\t').
- Les fichiers délimités avec moins de trois lignes ne peuvent pas être considérés comme des fichiers CSV s’ils utilisent un délimiteur personnalisé. Par exemple, les fichiers avec ~ délimiteur et moins de trois lignes ne peuvent pas être déterminés comme des fichiers CSV.
- Si un champ contient des guillemets, ceux-ci ne peuvent apparaître qu'au début et à la fin du champ et doivent être appariés. Les guillemets doubles qui apparaissent au milieu du champ ou qui apparaissent au début et à la fin, mais qui ne sont pas mis en correspondance, sont reconnus comme des données incorrectes et aucun schéma n’est analysé à partir du fichier. Les lignes dont le nombre de colonnes est différent de celui de la ligne d’en-tête sont considérées comme des lignes d’erreur. Le nombre de lignes d’erreur divisé par le nombre de lignes échantillonnées doit être inférieur à 0,1.
Extraction de schéma
Pour les sources de données qui prennent en charge l’extraction de schéma pendant l’analyse, le nombre de colonnes ne tronque pas directement le schéma de la ressource.
Données imbriqués
Les données imbriquées sont uniquement prises en charge pour le contenu JSON. Pour tous les types de fichiers pris en charge par le système, s'il y a du contenu JSON imbriqué dans une colonne, l’analyseur de données JSON imbriquées et les place dans l'onglet de schéma de recherche.
Les données imbriquées ou l’analyse de schémas imbriqués ne sont pas prises en charge par SQL. Une colonne avec des données imbriquées est signalée et classifiée telle qu’elle est, et les sous-données ne sont pas analysées.
Données d’échantillonnage pour la classification
Dans la terminologie data map,
- Analyse L1 : extrait les informations de base et les métadonnées telles que le nom de fichier, la taille et le nom complet.
- Analyse L2 : extrait le schéma des types de fichiers structurés et des tables de base de données.
- Analyse L3 : extrait le schéma le cas échéant et soumet le fichier échantillonné aux règles de classification système et personnalisées.
En savoir plus sur la personnalisation des niveauxd’analyse.
Pour tous les formats de fichiers structurés, l’analyseur Mappage de données Microsoft Purview échantillonne les fichiers de la manière suivante :
- Pour les types de fichiers structurés, il échantillonne les 128 premières lignes de chaque colonne ou les premiers 1 Mo, la valeur la plus faible étant retenue.
- Pour les formats de fichiers de documents, il échantillonne les 20 premiers Mo de chaque fichier. - Si un fichier de document est supérieur à 20 Mo, le scanneur n’effectue pas d’analyse approfondie (sous réserve de classification). Dans ce cas, Microsoft Purview capture uniquement les métadonnées de base telles que le nom de fichier et le nom complet.
- Pour les sources de données tabulaires (SQL),il échantillonnera les 128 premières lignes.
- Par Azure Cosmos DB for NoSQL, jusqu’à 300 propriétés distinctes des 10 premiers documents d’un conteneur sont collectées pour le schéma. Pour chaque propriété, le scanneur échantillonne les valeurs de jusqu’à 128 documents ou les 1 premiers Mo.
Échantillonnage de fichiers du jeu de ressources
Si un dossier ou un groupe de fichiers de partition correspond à une stratégie de jeu de ressources système ou à une stratégie de jeu de ressources définie par le client, Data Map le détecte en tant que jeu de ressources. Si le scanneur détecte un jeu de ressources, il échantillonne chaque dossier qu’il contient. Pour plus d’informations sur les jeux de ressources, consultez Jeux de ressources dans Mappage de données Microsoft Purview.
Échantillonnage de fichiers pour les ensembles de ressources par types de fichiers :
- Fichiers délimités (CSV, PSV, SSV, TSV) : le scanneur échantillonne 1 fichier sur 100 (analyse L3) dans un dossier ou un groupe de fichiers de partition qui sont considérés comme un jeu de ressources.
- Types de fichiers Data Lake (Parquet, Avro, Orc) : le scanneur échantillonne 1 fichier sur 18 446 744 073 709 551 615 (analyse L3) dans un dossier ou un groupe de fichiers de partition considérés comme un jeu de ressources.
- Autres types de fichiers structurés (JSON, XML, TXT) : le scanneur échantillonne 1 fichier sur 100 (analyse L3) dans un dossier ou un groupe de fichiers de partition qui sont considérés comme un jeu de ressources.
- Objets SQL et entités Azure Cosmos DB : le scanneur L3 analyse chaque fichier.
- Types de fichiers de document : le scanneur L3 analyse chaque fichier. Les modèles d’ensemble de ressources ne s’appliquent pas à ces types de fichiers.