本文列出 Microsoft Purview 資料對應中支援的資料來源、檔案類型及掃描概念。
依類型分類的資料來源列表
下表顯示所有在 Microsoft Purview 資料對應中具備技術元資料的資料來源,以及其他支援的功能。 在 「資料來源 」欄位中選擇資料來源名稱,即可取得如何將該來源連接到資料映射的指示。
Azure
除非每個資料來源頁面另有註明,否則 Azure 資源只能在與你的 Microsoft Purview 帳號同一個租戶中使用。
| 資料來源 | 可自動套用分類 | 可以對資料地圖資產套用敏感度標籤 | 可以套用保單 | 資料譜系 | 可即時檢視進入 |
|---|---|---|---|---|---|
| 選擇連結以取得連接與掃描說明。 | 選擇 「是 」以取得掃描指示。 了解掃描 過程中分類的應用方式。 | 了解 敏感度標籤 (預覽) 。 | 選擇 「是 」以查看支援政策;例如,資料擁有者、自助存取或保護。 | 選擇 「是 」以獲取詳細資訊。 | 了解 即時檢視。 |
| 多重來源 | 是 | 依來源而定 | 是 | 否 | 受限 |
| Azure Blob 儲存體 | 是 | 是 | 是的 , (預覽) | 受限* | 是 |
| Azure Cosmos DB for SQL API | 是 | 是 | 否 | 不* | 否 |
| Azure 資料總管 | 是 | 是 | 否 | 不* | 否 |
| Azure Data Factory | 否 | 否 | 否 | 是 | 否 |
| Azure Data Lake Storage Gen2 | 是 | 是 | 是的 , (預覽) | 受限* | 是 |
| Azure Data Share | 否 | 否 | 否 | 是 | 否 |
| 適用於 MySQL 的 Azure 資料庫 | 是 | 是 | 否 | 不* | 否 |
| 適用於 PostgreSQL 的 Azure 資料庫 | 是 | 是 | 否 | 不* | 否 |
| Azure Databricks Hive Metastore | 否 | 否 | 否 | 是 | 否 |
| Azure Databricks Unity 目錄 | 是 | 是 | 否 | 是 | 否 |
| Azure 專用 SQL 集區 (先前稱為 SQL DW) | 是 | 否 | 否 | 不* | 否 |
| Azure 檔案 | 是 | 是 | 否 | 受限* | 否 |
| Azure 機器學習 | 否 | 否 | 否 | 是 | 否 |
| Azure SQL Database | 是 | 是 | 是 | 是的 (預覽) | 是 |
| Azure SQL 受控執行個體 | 是 | 是 | 是 | 不* | 否 |
| Azure Synapse 分析 (工作空間) | 是 | 是 | 否 | 是的 - Synapse 管線 | 否 |
* 除了資料來源內資產的沿襲外,若資料集作為資料 工廠或Synapse 管線的來源/匯,也支援沿襲。
Database
| 資料來源 | 可自動套用分類 | 可以對資料地圖資產套用敏感度標籤 | 可以套用保單 | 資料譜系 | 可即時檢視進入 |
|---|---|---|---|---|---|
| 選擇連結以取得連接與掃描說明。 | 選擇 「是 」以取得掃描指示。 了解掃描 過程中分類的應用方式。 | 了解 敏感度標籤 (預覽) 。 | 選擇 「是 」以查看支援政策;例如,資料擁有者、自助存取或保護。 | 選擇 「是 」以獲取詳細資訊。 | 了解 即時檢視。 |
| Amazon RDS | 是 | 否 | 否 | 否 | 否 |
| Amazon Redshift | 否 | 否 | 否 | 否 | 否 |
| Cassandra | 否 | 否 | 否 | 是 | 否 |
| Db2 | 否 | 否 | 否 | 是 | 否 |
| Google BigQuery | 否 | 否 | 否 | 是 | 否 |
| 蜂巢中繼存放區資料庫 | 否 | 否 | 否 | 是* | 否 |
| MongoDB | 否 | 否 | 否 | 否 | 否 |
| MySQL | 否 | 否 | 否 | 是 | 否 |
| Oracle | 是 | 否 | 否 | 是* | 否 |
| PostgreSQL | 否 | 否 | 否 | 是 | 否 |
| SAP 商務倉儲 | 否 | 否 | 否 | 否 | 否 |
| SAP HANA | 否 | 否 | 否 | 否 | 否 |
| Snowflake | 是 | 是 | 否 | 是* | 否 |
| SQL Server | 是 | 是 | 否 | 不* | 否 |
| SQL Server on Azure-Arc | 是 | 否 | 是 | 不* | 否 |
| Teradata | 是 | 否 | 否 | 是* | 否 |
* 除了資料來源內資產的沿襲外,若資料集作為資料 工廠或Synapse 管線的來源/匯,也支援沿襲。
檔案
| 資料來源 | 可自動套用分類 | 可以對資料地圖資產套用敏感度標籤 | 可以套用保單 | 資料譜系 | 可即時檢視進入 |
|---|---|---|---|---|---|
| 選擇連結以取得連接與掃描說明。 | 選擇 「是 」以取得掃描指示。 了解掃描 過程中分類的應用方式。 | 了解 敏感度標籤 (預覽) 。 | 選擇 「是 」以查看支援政策;例如,資料擁有者、自助存取或保護。 | 選擇 「是 」以獲取詳細資訊。 | 了解 即時檢視。 |
| Amazon S3 | 是 | 是 | 否 | 受限* | 否 |
| Hadoop 分散式檔案系統 (HDFS) | 是 | 否 | 否 | 否 | 否 |
* 除了資料來源內資產的沿襲外,若資料集作為資料 工廠或Synapse 管線的來源/匯,也支援沿襲。
服務與應用程式
| 資料來源 | 可自動套用分類 | 可以對資料地圖資產套用敏感度標籤 | 可以套用保單 | 資料譜系 | 可即時檢視進入 |
|---|---|---|---|---|---|
| 選擇連結以取得連接與掃描說明。 | 選擇 「是 」以取得掃描指示。 了解掃描 過程中分類的應用方式。 | 了解 敏感度標籤 (預覽) 。 | 選擇 「是 」以查看支援政策;例如,資料擁有者、自助存取或保護。 | 選擇 「是 」以獲取詳細資訊。 | 了解 即時檢視。 |
| 氣流 | 否 | 否 | 否 | 是 | 否 |
| Dataverse | 是 | 是 | 否 | 否 | 否 |
| Erwin | 否 | 否 | 否 | 是 | 否 |
| 布 | 否 | 否 | 否 | 是 | 是 |
| Looker | 否 | 否 | 否 | 是 | 否 |
| Power BI | 否 | 否 | 否 | 是 | 是** |
| Qlik Sense | 否 | 否 | 否 | 否 | 否 |
| Salesforce | 否 | 否 | 否 | 否 | 否 |
| SAP ECC | 否 | 否 | 否 | 是* | 否 |
| SAP S/4HANA | 否 | 否 | 否 | 是* | 否 |
| Tableau | 否 | 否 | 否 | 否 | 否 |
* 除了資料來源內資產的沿襲外,若資料集作為資料 工廠或Synapse 管線的來源/匯,也支援沿襲。
** Fabric 租戶中的 Power BI 項目可透過即時檢視取得。
注意事項
目前,Microsoft Purview 資料對應名稱中帶有 /、 \或 # 的資產無法掃描。 為了擴大範圍並避免掃描資產名稱中包含該字元的資產,請參考「註冊」中的範例,掃描 Azure SQL 資料庫。
重要事項
如果你打算使用自架整合執行時,掃描部分資料來源需要在自架整合執行時機器上額外設定。 例如,JDK、Microsoft Visual C++ 再發行版,或特定驅動程式。 關於你的資料來源, 請參考每篇來源文章以獲得先決細節。 任何要求都在 先修條件 章節列出。
資料地圖掃描器區域
以下列表顯示資料中心 () 資料地圖掃描器運行的區域所有Azure資料來源。 如果你的 Azure 資料來源位於這個清單之外的區域,掃描器就會在你 Microsoft Purview 實例的區域執行。
- 澳洲東部
- 澳洲東南部
- 巴西南區
- 加拿大中央鐵路
- 加拿大東部
- 中印度
- 中國北方3區
- 東亞
- 美國東部
- 美國東2號公路
- 法國中央
- 德國西中部
- 日本東部
- 韓國中央
- 美國中北部
- 北歐
- 卡達中央
- 南非北區
- 美國中南部
- 東南亞
- 瑞士北區
- 阿聯酋北部
- 英國南部
- 美國維吉尼亞州政府
- 美國中西部
- 西歐
- 美國西部
- 美國西部2號公路
- 西美國3號公路
支援掃描的檔案類型
以下章節列出的檔案類型支援掃描、架構擷取及分類(如適用)。 此外,Data Map 支援 自訂的檔案副檔名與自訂解析器。
擴充套件支援的結構化檔案格式包括掃描、結構擷取,以及資產層級與欄位層級分類:
- 阿弗羅
- CSV
- GZIP
- JSON
- 奧爾克
- 拼花*
- PSV
- SSV
- TSV
- TXT
- XML
*對於未壓縮的 PARQUET 檔案,支援所有 Parquet 格式。 對於壓縮的 PARQUET 檔案,僅支援流暢的 Parquet 格式。
擴充功能支援的文件檔案格式包括掃描與資產層級分類:
- DOC
- DOCM
- DOCX
- 點
- ODP
- ODS
- ODT
- 罐
- 附註
- PPSX
- PPT
- PPTM
- PPTX
- XLC
- XLS
- XLSB
- XLSM
- XLSX
- XLT
注意事項
已知限制:
- Microsoft Purview 資料對應掃描器僅支援前一節列出的結構化檔案類型進行結構式擷取。
- 對於 AVRO、ORC 和 PARQUET 檔案類型,掃描器不支援包含複雜資料型 (態的檔案結構擷取,例如 MAP、LIST、STRUCT) 。
- 對於未壓縮的 PARQUET 檔案,所有 Parquet 格式皆被支援。 對於壓縮的 PARQUET 檔案,僅支援快速的 Parquet 格式來進行結構擷取與分類。
- 對於 GZIP 檔案類型,GZIP 必須映射到單一 CSV 檔案。 GZIP 檔案受系統及自訂分類規則約束。 目前掃描器不支援掃描 GZIP 檔案對應到多個檔案,或是 CSV 以外的任何檔案類型。
- 對於 Parquet 檔案,如果你使用自架整合執行環境,你需要在 IR 機器上安裝 64 位元 JRE 11 (Java 執行環境) 或 OpenJDK 。 請參閱 Java 執行時安裝指南。
- Delta格式不支援。 如果你是直接從儲存資料來源掃描 Delta 格式,例如 Microsoft Azure Data Lake Storage Gen2,則 Delta 格式的 Parquet 檔案集合會被解析並以資源集形式處理,詳見《理解資源集》中所述。 用於分割的欄位不會被識別為資源集結構的一部分。
對於分隔檔案類型 (CSV、PSV、SSV、TSV、TXT) :
- 只有一欄的分隔檔案無法被判定為 CSV 檔案,也沒有結構。
- 不支援資料型別偵測。 所有欄位的資料型別都標示為「string」。
- 唯一支援的分隔符為逗號 ('、') 、分號 (';) ,垂直條 ('|') ,然後 ('\t') 。
- 如果檔案少於三列,使用自訂分隔符,就無法判定為 CSV 檔。 例如,具有 ~ 分隔符且行數少於三列的檔案,無法判定為 CSV 檔案。
- 如果欄位包含雙引號,雙引號只能出現在欄位的開頭和結尾,且必須匹配。 出現在欄位中間或開頭和結尾但未匹配的雙引號會被認定為錯誤資料,且不會從檔案中解析任何結構。 欄位數與標頭列不同的列被判定為錯誤列。 錯誤列數除以取樣列數必須小於0.1。
模式擷取
對於支援掃描時結構擷取的資料來源,欄位數量不會直接截斷資產架構。
巢狀資料
巢狀資料僅支援 JSON 內容。 對於所有 系統支援的檔案類型,如果欄位中有巢狀的 JSON 內容,掃描器會解析巢狀的 JSON 資料,並將其呈現到資產的結構分頁中。
巢狀資料或巢狀結構解析在 SQL 中不被支援。 巢狀資料欄位會被報告並分類,子資料不會被解析。
分類用的抽樣資料
用資料地圖術語來說,
- L1 掃描:擷取基本資訊與元資料,如檔案名稱、大小及完全限定名稱。
- L2 掃描:擷取結構化檔案類型與資料庫資料表的結構。
- L3 掃描:在適用時擷取結構,並將取樣檔案置於系統及自訂分類規則之下。
了解更多關於 自訂掃描等級的方法。
對於所有結構化檔案格式,Microsoft Purview 資料對應掃描器以以下方式取樣檔案:
- 對於結構化檔案類型,它會取樣每欄的前 128 列或前 1 MB,以較低者為準。
- 對於文件檔案格式,它會取樣每個檔案的前 20 MB。 - 若文件檔案大於 20 MB,掃描器不會進行深度掃描 (受分類) 限制。 在這種情況下,Microsoft Purview 只會擷取基本的元資料,如檔名和完全限定名稱。
- 對於 SQL (的表格資料來源,) 會取樣前 128 列。
- 對於 Azure Cosmos DB for NoSQL,容器中前 10 份文件中最多可收集 300 個不同屬性作為結構。 對於每個屬性,掃描器會從最多 128 份文件或前 1 MB 中取樣數值。
資源集檔案取樣
如果一個資料夾或分割區檔案群組與系統資源集政策或客戶定義的資源集政策相符,Data Map 會將其偵測為 資源集。 如果掃描器偵測到一個資源集,就會取樣該資料夾所包含的每個資料夾。 欲了解更多資源集資訊,請參閱 Microsoft Purview 資料對應中的資源集。
依檔案類型對資源集進行檔案抽樣:
- CSV、PSV、SSV、TSV) (分隔檔案 :掃描器會從資料夾或分割區檔案群組中選取 1/100 (1 個檔案,) 視為資源集的資料夾或分割區檔案群。
- Data Lake 檔案類型 (Parquet、Avro、Orc) :掃描器在資料夾或分割區檔案群組中, (L3 掃描 () ,取樣 1/18,446,744,073,709,551,615 個長最大) 檔案,這些檔案被視為資源集的資料夾或分割區檔案群。
- 其他結構化檔案類型 (JSON、XML、TXT ) :掃描器會取樣 1/100 檔案 (L3 掃描,) 在資料夾或分割區檔案群組中,這些檔案被視為資源集。
- SQL 物件與 Azure Cosmos DB 實體:掃描器 L3 掃描每個檔案。
- 文件檔案類型:掃描器 L3 掃描每個檔案。 資源集模式不適用於這些檔案類型。