此頁面說明如何使用UI建立 Databricks 清理室。 清理室是共同作業數據分析的安全環境。
主要功能和限制:
- 安全共同作業:清除會議室可讓多方共同處理敏感數據,而不需要直接存取彼此的原始數據。
- 共同作業者容量:一個淨房可以有十個成員,包括建立者和最多另外九個共同作業者。
- 元存儲限制:Azure Databricks 會在所有隔離環境可保護的對象上強制執行資源配額。 請參閱資源限制。
若要使用 REST API,請參閱 建立乾淨的會議室。
開始之前
使用清理室所需的許可權會因工作而異:
| 任務 | 必要權限 |
|---|---|
| 檢視乾淨的房間 | 必須是乾淨房間的擁有者,或具有下列其中一個乾淨房間的許可權: MANAGE、 MODIFY CLEAN ROOM、 EXECUTE CLEAN ROOM TASK或 BROWSE。 |
| 更新乾淨房間的擁有者 | 必須是無塵室的擁有者,或擁有 MANAGE 無塵室的許可權。 |
| 在乾淨的會議室中新增或移除數據資產 | 必須是無塵室的擁有者,或擁有該無塵室的MODIFY CLEAN ROOM許可權。 如果您不是無塵室的擁有者,您和無塵室擁有者在任何數據表或檢視必須具有SELECT,在任何您新增的磁碟區必須具有READ VOLUME,並且在父目錄和架構上必須具有USE CATALOGUSE SCHEMA。 |
| 在乾淨的房間里新增或移除筆記本 | 給筆記本上傳者:
|
| 在乾淨的房間裡更新批注 | 必須是無塵室的擁有者,或擁有該無塵室的MODIFY CLEAN ROOM許可權。 |
| 授予無塵室的存取權 | 必須是擁有者,或擁有 MANAGE 無塵室的許可權。 |
| 刪除無塵室 | 必須是無塵室的擁有者或擁有 MANAGE 權限。 |
除了任務特定的權限之外,當共用無塵室時,附加到共用識別碼的電子郵件地址會自動成為協作者組織中的所有者。 請參閱 步驟 1。要求共同作業者的共享標識碼。
若要瞭解更新無塵室和在無塵室中執行任務(筆記本)的許可權需求,請參閱 管理無塵室 和 在無塵室中執行筆記本。
備註
中央清潔室最多可以有兩個其他的合作區域,除了中央清潔室本身。
步驟 1. 請求共同作業者的共享識別碼
您在建立乾淨室之前,必須擁有與您合作的組織的乾淨室共享識別碼。 共用識別碼是一個字串,其中包含組織的全域中繼存放區標識碼 + 工作區識別元 + 聯繫人的使用者名稱(電子郵件位址)。 您的共同作業者可以位於任何雲端或區域中。
連絡您的共同作業者以要求其共用標識碼。 他們可以使用 尋找共用標識碼中的指示來取得共享標識碼。
步驟 2。 建立潔淨室
若要建立潔淨室,您必須使用 Catalog Explorer。
在您的 Azure Databricks 工作區中,按兩下
目錄。
點擊「潔淨室>」按鈕。
按兩下 [建立清理室]。
在 建立無塵室 頁面上,輸入方便易記的無塵室名稱。
名稱無法使用空格、句號或正斜線 (/)。
儲存後,無塵室的名稱就無法變更。 使用一個潛在合作夥伴認為有用且具描述性的名稱。
選取將建立中央清理室的雲端提供者和區域。
雲端提供者必須符合您目前的工作區,但區域可能不同。 當您進行選擇時,請考慮貴組織的資料存放地或其他政策。
每個乾淨的房間最多可以有十個共同作業者。 輸入每個共同作業者的 清理室共享標識碼 。 請參閱 步驟 1。要求共同作業者的共享標識碼。
在完整部署之前,您可以使用共享標識碼或目前中繼存放區中其他使用者的標識碼來測試您的潔淨室。 這樣做會在您目前的中繼存放區中建立兩個乾淨的工作區。 例如,如果您建立名為
test_clean_room的乾淨房間,也會顯示名為test_clean_room_collaborator的第二個乾淨房間。 在相同的中繼存放區中,與共同作業者一起運行筆記本,與與外部共同作業者一起運行的方式相同。 請參閱 在無塵室中執行筆記本程式。記下指派給您和共同作業者的目錄名稱。
新增至清理室的所有數據資產都會出現在中央清理室的目錄底下,而且可以使用 Unity 目錄三層命名空間中的該目錄來參考 (
<catalog>.<schema>.<table-etc>)。選取網路存取原則類型。 建立乾淨空間之後,便無法變更此設定。
- 完整存取:不受限制的向外的網際網路存取。
- 限制存取:這會限制您指定的因特網目的地的輸出存取。 請參閱 網路原則概觀 和 管理無伺服器輸出控制的網路原則。
備註
受限制的存取 可能會延遲資產可用性長達 10 分鐘。
建立乾淨空間之後,您可以在 [安全性] 索引標籤中檢視網路存取原則。
- 按兩下 [建立清理室]。
如果您目前的工作區設定為 HIPAA 合規性安全性配置檔,則當您建立乾淨空間時,該設定會套用至中央清理室。 共同作業者必須從安全性配置相同的工作空間進入無塵室。 請參閱 合規性安全性配置檔。
步驟 3。 將數據資產和筆記本新增至清理室
建立者和共同作業者都可以將數據表、資料卷、檢視和筆記本新增至無塵室。
備註
下列指示假設您返回到已設置的無塵室以新增資產。 如果您剛第一次建立乾淨的空間,精靈會逐步引導您新增數據資產和筆記本。 不論您是否由精靈引導,新增這些資產的實際UI都相同。
若要新增筆記本:
按兩下 [+ 新增筆記本] 按鈕,並瀏覽您要新增的筆記本。
將筆記本命名為 。
選擇哪些協作者可以運行筆記本文件。 選擇 您 以自行執行筆記本。
您可以選擇性地為筆記本提供替代 筆記本名稱。
在您與其他協作者於無塵室共用的筆記本中,可以查詢數據,並在您和其他協作者已新增至無塵室的數據表、檢視表和資料卷上執行數據分析工作負載。
如果您共用包含結果的筆記本,則這些結果會與您的協作者共用。
您可以使用筆記本來建立 輸出數據表 ,這些數據表在執行筆記本時會暫時共用至共同作業者的中繼存放區。 請參閱 在 Databricks Clean Rooms中建立和使用的輸出數據表。
若要使用測試資料集,請下載 範例筆記本。
這很重要
新增至清理室的數據表、檢視或磁碟區之任何筆記本參考,都必須使用建立清理室時所指派的目錄名稱(對於清理室建立者新增的數據資產,使用「建立者」;對於受邀共同作業者新增的數據資產,使用「共同作業者」)。 例如,建立者新增的數據表可以命名為
creator.sales.california。同樣地,請驗證筆記本是否使用指派給新增至無塵室之資料資產的任何別名。
若要新增資產:
在您的 Azure Databricks 工作區中,按兩下
目錄。
點擊「潔淨室>」按鈕。
尋找並按下您要更新的乾淨空間名稱。
按一下【+ 新增資料資源】以添加資料表、磁碟區或視圖。
選取您要分享的資料資產,然後按下 [[新增資料資產]。
當您共用數據表、磁碟區或檢視時,可以選擇性地新增別名。 別名是潔淨室中唯一可見的名稱。
當您共用數據表時,可以選擇性地新增分割區子句,讓您只共用數據表的一部分。 如需如何使用分割區來限制共享項目的詳細資訊,請參閱 指定要共用的數據表分割區。
備註
聯邦式資料表共用處於 Beta 階段。 請參閱 將外部結構描述或資料表新增至共用。