將資產內嵌至 Microsoft Purview 資料對應時,更新相同資料資產的不同來源可能會傳送類似但略有不同的限定名稱。 雖然這些限定名稱代表相同的資產,但額外的字元等細微差異可能會導致表面上的這些資產看起來不同,並導致 Microsoft Purview 中出現重複的專案。 為了避免在取用整合式目錄時儲存重複的專案並造成混淆,Microsoft Purview 會在擷取期間自動套用正規化,以確保相同實體類型的所有完整名稱都採用相同的格式。
例如,您可以使用限定名稱 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet掃描 Azure Blob。 此 Blob 也會由 Azure Data Factory 管線取用,然後將譜系資訊新增至資產。 ADF (Azure Data Factory) 管線可以設定為將檔案讀取為 https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet。 雖然限定名稱不同,但此 ADF 管線會取用相同的資料片段。 正規化可確保來自 Azure Blob 儲存體和 Azure Data Factory 的所有中繼資料都顯示在單一資產https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet上。
重要事項
下列規則是 Microsoft Purview 目前辨識的唯一潛在重複類型。 如果您遇到意外的資產重複,請比較資產的完整名稱,以檢查大小寫差異或額外字元。 更新任何擷取點,例如 ADF 管線,讓限定名稱相符。
正規化規則
這些是 Microsoft Purview 自動套用的正規化規則。
編碼大括弧
適用於:所有資產
以前: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
後: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
修剪剖面空間
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Data Factory、Azure SQL 資料庫、Azure SQL 受控執行個體、Azure SQL 集區、Azure Cosmos DB、Azure 認知搜尋、Azure Data Explorer、Azure Data Share、Amazon S3
以前: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
後: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
移除主機名稱空間
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL 資料庫、Azure SQL 受控執行個體、Azure SQL 集區、AzureCosmos DB、Azure 認知搜尋、Azure Data Explorer、Azure Data Share、Amazon S3
以前: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
移除方括號
適用於:Azure SQL 資料庫、Azure SQL 受控執行個體、Azure SQL 集區
以前: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
後: mssql://foo.database.windows.net/bar/dbo/foo%20bar
注意事項
兩個方括號之間的空格將被編碼
小寫方案
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL 資料庫、Azure SQL 受控執行個體、Azure SQL 集區、AzureCosmos DB、Azure 認知搜尋、Azure Data Explorer、Amazon S3
以前: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
小寫主機名稱
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL 資料庫、Azure SQL 受控執行個體、Azure SQL 集區、AzureCosmos DB、Azure 認知搜尋、Azure Data Explorer、Amazon S3
以前: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
小寫檔案副檔名
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3
以前: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
後: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
移除重複的斜線
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Data Factory、Azure SQL 資料庫、Azure SQL 受控執行個體、Azure SQL 集區、Azure Cosmos DB、Azure 認知搜尋、Azure Data Explorer、Azure Data Share、Amazon S3
以前: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
轉換為 ADL 方案
適用於:Azure Data Lake Storage Gen1
以前: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
後: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
移除尾端斜線
從 Azure Blob、ADLS Gen1 和 ADLS Gen2 的較高層級資產中移除尾端斜線。
適用於:Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2
資產類型:「azure_blob_container」、「azure_blob_service」、「azure_storage_account」、「azure_datalake_gen2_service」、「azure_datalake_gen2_filesystem」、「azure_datalake_gen1_account」。
以前: https://myaccount.core.windows.net/
後: https://myaccount.core.windows.net
疑難排解
如果您的資料未正規化,而且您遇到意外的資產重複,請比較資產的完整名稱,以檢查大小寫差異或其他字元。
上面列出的規則是 Microsoft Purview 目前辨識的唯一重複類型。 如果您的資料不在這些規則範圍內,請更新任何擷取點,例如 ADF 管線,讓限定名稱相符。
如果您的資產符合規則,但未正常化,請 聯絡支援團隊。
後續步驟
將 Azure Blob 儲存體帳戶掃描至 Microsoft Purview 資料對應。