本文說明如何註冊 Google BigQuery 專案,以及如何在 Microsoft Purview 中驗證與互動 Google BigQuery。 欲了解更多關於 Microsoft Purview 的資訊, 請閱讀導言文章。
支援功能
掃描能力
| 元資料擷取 | 全掃描 | 增量掃描 | 瞄準鏡掃描 |
|---|---|---|---|
| 是 | 是 | 否 | 是 |
在掃描 Google BigQuery 原始碼時,Microsoft Purview 支援:
擷取技術元資料,包括:
- 專案
- 資料集
- 包含欄位的表格
- 包含柱子的景觀
擷取資產上的靜態血統,資料表與檢視之間的關係。
在設定掃描時,你可以選擇掃描整個 Google BigQuery 專案,或將掃描範圍擴大到與名稱 () 或名稱模式相符的資料集子集, () 。
其他功能
關於 分類、 敏感性標籤、 政策、 資料血統及 即時檢視,請參閱 支援功能清單。
已知限制
- 目前,Microsoft Purview 僅支援掃描美國多區域地區的 Google BigQuery 資料集。 如果指定的資料集在其他位置,例如 us-east1 或 EU,你會看到掃描完成,但 Microsoft Purview 中沒有資產顯示。
- 當物件從資料來源刪除時,目前後續掃描不會自動移除 Microsoft Purview 中對應的資產。
必要條件
一個有有效訂閱的 Azure 帳號。 免費註冊帳號。
一個活躍的 Microsoft Purview 帳號。
你需要 Data Source Administrator 和 Data Reader 權限,才能在 Microsoft Purview 治理入口網站註冊並管理來源。 欲了解更多權限相關資訊,請參閱 Microsoft Purview 中的存取控制。
-
-
使用自架整合執行時:
- 請參考文章,建立並配置自架整合執行環境。
- 確保 JDK 11 安裝在安裝自架整合執行環境的機器上。 在你重新安裝 JDK 後重新啟動機器,這樣它才會生效。
- 確保C++ 可轉散發套件 (Visual Studio 2012 Update 4 或更新的) 安裝在運行自架整合執行時的機器上。 如果你還沒安裝這個更新,現在就 下載吧。
- 在你自架整合執行時的機器上下載並解壓縮 BigQuery JDBC 驅動 程式。 記下你將用來設定掃描的資料夾路徑。
-
要使用 Kubernetes 支援的自架整合執行環境:
- 請參考文章,建立並設定支援 Kubernetes 的整合執行環境。
- 在你自架整合執行時的機器上下載並解壓縮 BigQuery JDBC 驅動 程式。 記下你將用來設定掃描的資料夾路徑。
注意事項
驅動程式應由自架整合執行時存取。 預設情況下,自架整合執行時使用本地服務帳號「NT SERVICE\DIAHostService」。 確保它對驅動程式資料夾有「讀取並執行」和「列出資料夾內容」的權限。
-
使用自架整合執行時:
掃描所需的權限
你用來掃描的 Google BigQuery 服務帳號,專案 () 上必須同時有 BigQuery 元資料檢視器和 BigQuery 工作使用者 IAM 角色 。 這些權限是必要的,因為 Microsoft Purview 會透過讀取 Google BigQuery 資料庫系統的資料表來擷取元資料, (例如 INFORMATION_SCHEMA) 。 而底層的 Google BigQuery JDBC 驅動程式會在需要從這些系統資料表讀取時,建立一個 BigQuery 工作。
Microsoft Purview 使用 Oauth 2.0 協定來存取 Google BigQuery 服務。 依照 「建立並執行掃描 」部分的指示設定憑證。
登錄
本節說明如何利用 Microsoft Purview 治理入口網站Microsoft Purview 註冊 Google BigQuery 專案。
註冊步驟
透過以下方式開啟 Microsoft Purview 治理入口網站:
- 直接 https://web.purview.azure.com 瀏覽並選擇您的 Microsoft Purview 帳號。
- 打開 Azure 入口網站,搜尋並選擇 Microsoft Purview 帳號。 選擇 Microsoft Purview 治理入口網站 按鈕。
在左側導覽中選擇 「資料地圖 」。
選擇 登記。
在「註冊來源」中,選擇 Google BigQuery 。 選擇 繼續。
在 Google BigQuery) (登錄來源畫面中,請執行以下操作:
輸入一個 名稱,該 資料來源會在目錄中列出。
這時,ProjectID 就出現了。這應該是一份完全合格的專案識別。 例如,mydomain.com:myProject
從列表中選擇一個收藏。
選取 [登錄]。
掃描
請依照以下步驟掃描 Google BigQuery 專案,自動識別資產。 關於掃描的更多資訊,請參閱我們 對掃描與攝取的介紹。
建立並執行掃描
在管理中心,選擇整合執行時。 確保有自架整合執行時。 如果還沒設定好,請依照 先修條件中提到的步驟。
前往 資料來源。
選擇註冊的 BigQuery 專案。
選擇 + 新掃描。
請提供以下細節:
名稱:掃描的名稱
透過整合執行時連接:選擇已設定的自架整合執行時
憑證:在設定 BigQuery 憑證時,務必:
- 選擇 基本認證 作為認證方法
- 在使用者名稱欄位提供服務帳號的電子郵件 ID。 例如,
xyz\@developer.gserviceaccount.com - 請依照以下步驟產生私鑰,複製整個 JSON 金鑰檔案,然後將其儲存為金鑰保存庫秘密的值。
要從 Google 雲端平台建立新的私鑰:
- 在導覽選單中,選擇IAM & 管理員 -> 服務帳戶 -> 選擇專案 ->
- 選擇你想建立金鑰的服務帳號的電子郵件地址。
- 選擇 「鑰匙 」標籤。
- 選擇 「新增鍵」 下拉選單,然後選擇「建立新鍵」。
- 選擇 JSON 格式。
注意事項
當掃描程序執行時,私鑰的內容會儲存在虛擬機上的暫存檔中。 掃描成功完成後,這個暫存檔會被刪除。 若掃描失敗,系統將持續重試直到成功。 請確保 SHIR 正在執行的虛擬機上有適當的存取限制。
欲了解更多資格資訊,請參閱 此處的連結。
驅動程式位置:指定你機器中執行自主機整合執行時中 JDBC 驅動程式位置的路徑。 例如:
D:\Drivers\GoogleBigQuery。- 對於本地機器上的自架整合執行時:
D:\Drivers\GoogleBigQuery。 它是通往有效 JAR 資料夾位置的路徑。 該值必須是有效的絕對檔案路徑,且不包含空間。 確保驅動程式能被自架整合執行時存取;;更多資訊請參考先修科目。 - 對於支援 Kubernetes 的自架整合執行時:
./drivers/GoogleBigQuery。 它是通往有效 JAR 資料夾位置的路徑。 該值必須是有效的相對檔案路徑。 請參考文件,預先 設定使用外部驅動程式掃描 以上傳驅動程式。
- 對於本地機器上的自架整合執行時:
資料集:指定要匯入的 BigQuery 資料集清單。 例如,
dataset1;dataset2。 當清單為空時,所有可用資料集都會被匯入。 可接受的資料集名稱模式可以是靜態名稱,也可以包含萬用字百分比。範例:
A%;%B;%C%;D- 以 A 或
- 以 B 結尾或
- 包含 C 或
- 等於 D
使用NOT和特殊字元是不可接受的。
最大可用記憶體:最大記憶體 (GB,) 虛擬機上可供掃描程序使用。 這取決於要掃描的 Google BigQuery 專案規模。
選擇 測試連線。
選取 [繼續]。
選擇你的 掃描觸發器。 你可以設定排程或只跑一次掃描。
檢視你的掃描結果,選擇 儲存並執行。
查看您的掃描與掃描跑數
查看現有掃描檔:
- 前往 Microsoft Purview 入口網站。 在左側窗格選擇 「資料地圖」。
- 選擇資料來源。 你可以在 「最近掃描」頁面查看該資料來源上現有的掃描清單,或在 「掃描」 標籤中查看所有掃描。
- 選擇你想查看的掃描結果。 面板會顯示所有之前的掃描紀錄,以及每次掃描的狀態和指標。
- 選擇跑道 ID 來檢查 掃描跑的細節。
管理你的掃描
要編輯、取消或刪除掃描件:
前往 Microsoft Purview 入口網站。 在左側窗格,選擇 資料映射。
選擇資料來源。 你可以在 「最近掃描」頁面查看該資料來源上現有的掃描清單,或在 「掃描」 標籤中查看所有掃描。
選擇你想管理的掃描。 然後您可以:
- 請選擇 「編輯掃描」來編輯掃描。
- 選擇 取消掃描執行,請取消進行中的掃描。
- 選擇 刪除掃描後刪除掃描。
注意事項
- 刪除掃描檔不會刪除之前掃描產生的目錄資產。
譜系
掃描 Google BigQuery 來源後,您可以瀏覽整合式目錄或搜尋整合式目錄以查看資產細節。
到資產-> 血統分頁,你可以在適用時看到資產關係。 請參閱 支援的功能 部分,了解支援的 Google BigQuery 血統情境。 欲了解更多關於血統的一般資訊,請參閱 資料血統 及 血統使用者指南。
後續步驟
現在你已經註冊了來源,請依照以下指南了解更多關於 Microsoft Purview 及你的資料。