다음을 통해 공유


기존 Azure Databricks 작업 영역에서 DBFS 루트 및 탑재에 대한 액세스 사용 안 함

이 페이지에서는 기존 Azure Databricks 작업 영역에서 레거시 DBFS(Databricks Filesystem) 루트탑재 에 대한 액세스를 사용하지 않도록 설정하는 방법을 설명합니다. 새 작업 영역에 대한 계정 수준에서 DBFS 루트 및 탑재를 사용하지 않도록 설정하려면 레거시 기능 계정 사용 안 함 설정을 사용합니다.

파일 기반 워크플로를 Unity 카탈로그 볼륨, 외부 위치 또는 작업 영역 파일로 마이그레이션한 후에는 사용자가 DBFS 루트 및 DBFS 탑재의 데이터를 업로드, 수정 또는 액세스하지 못하도록 할 수 있습니다. DBFS 루트 및 탑재를 사용하지 않도록 설정하면 Unity 카탈로그에서 제어하지 않는 공유 스토리지에 대한 액세스를 제거하여 보안 태세를 향상시킵니다.

DBFS 루트 및 탑재란?

DBFS는 URI 체계에 따라 dbfs: 액세스할 수 있고 클라우드 기반 스토리지와 상호 작용하는 데 사용되는 Databricks 작업 영역의 분산 파일 시스템입니다. dbfs: URI 체계는 다음을 포함하여 작업 영역의 여러 스토리지 영역에 액세스하는 데 사용됩니다.

  • DBFS 루트: 파일 시스템의 루트에서 직접 액세스할 수 있는 영역입니다(예: 입력할 때) dbfs:/. 모든 작업 영역 사용자는 DBFS 루트에서 직접 만든 콘텐츠에 액세스할 수 있으며, 아래 예약된 접두사 중 하나에 있는 콘텐츠를 제외하고 각각 특별한 조건이 적용됩니다. DBFS 루트란?을 참조하세요.
  • DBFS 탑재: 아래에서 액세스할 수 있는 dbfs:/mnt/<mount_name>외부 클라우드 스토리지 액세스를 정의하는 레거시 접근 방식입니다. 탑재 개체 스토리지를 참조하세요.
  • 예약된 Azure Databricks 접두사: Unity 카탈로그 볼륨 및 기타 Azure Databricks 시스템 경로(예: dbfs:/databricks-datasets/ MLflow 자산 경로)에서 사용하는 접두사입니다. 예: dbfs:/Volumes/.

모든 경로는 POSIX 스타일 경로를 사용하여 액세스할 수도 있습니다. 데이터에 액세스하기 위해 URI 체계를 제공해야 하나요?를 참조하세요.

DBFS 루트 및 탑재를 비롯한 DBFS에 대한 자세한 내용은 DBFS란?

비활성화되는 항목은 무엇인가요?

DBFS 루트 및 탑재를 사용하지 않도록 설정한 후:

  • 기존 작업 영역의 DBFS 루트 및 탑재에 대한 모든 액세스는 모든 인터페이스(UI, API, CLI, FUSE)에서 비활성화되고 차단됩니다.
  • DBFS 루트에서 파일을 읽거나 쓰려고 시도하면 오류가 발생하며 탑재가 실패합니다. 예를 들어 공용 DBFS 루트가 비활성화된 오류 메시지입니다.
  • DBFS 브라우저 및 DBFS에 업로드 옵션은 더 이상 UI에서 액세스할 수 없습니다. 설정을 되돌리지 않으면 DBFS 루트와 마운트를 참조하는 작업, 노트북 또는 스크립트가 실패합니다.
  • DBFS 옵션은 다음과 같은 일반적인 기능에서 더 이상 액세스할 수 없습니다.
    • 클러스터 라이브러리
    • 클러스터 로그 전달
    • MLflow 추적 및 모델 레지스트리 (UC 아님)
    • AutoML 실험
    • Lakeflow Spark 선언적 파이프라인
  • /files를 사용한 정적 Notebook 파일 포함이 500 오류로 인해 실패합니다. Notebook에 정적 이미지 포함을 참조하세요.
  • 탑재/탑재 해제 작업이 차단됩니다.
  • FileStore 작업이 차단됩니다.
  • 작업 영역에서 DBFS 루트 및 탑재를 사용하지 않도록 설정하면 13.3 LTS 미만 의 Databricks 런타임 버전 도 사용하지 않도록 설정됩니다.

Note

DBFS 사용 안 함 작업 영역에서 경로는 dbfs:/Workspace 작업 영역 파일 시스템의 파일에 대한 액세스를 제공합니다. 이를 위해서는 Databricks Runtime 13.3 LTS 이상이 필요합니다.

영향을 받지 않는 항목은 무엇인가요?

URI 체계는 Azure Databricks의 핵심이며, DBFS 루트 및 DBFS 마운트를 비활성화하더라도 URI 자체는 비활성화되지 않습니다. 다음은 예상대로 계속 작동합니다.

  • Unity 카탈로그 볼륨: 볼륨은 dbfs:/Volumes 접두사 및 /Volumes POSIX 스타일 경로를 사용하여 여전히 접근 가능합니다. '데이터에 액세스하기 위해 URI 체계를 제공해야 하나요?' 및 'Unity 카탈로그 볼륨이란?'을 참조하십시오. DBFS 루트 외부 위치(레거시)에 대한 연결을 참조하세요.
  • 시스템 경로: 읽기 전용 데이터는 MLflow 리소스 경로와 같은 다른 Azure Databricks 시스템 경로를 사용하여 dbfs:/databricks-datasets/ 계속 액세스할 수 있습니다.
  • 내부 작업 영역 시스템 데이터: 여기에는 Notebook 수정 버전, 작업 실행 세부 정보, 명령 결과 및 Spark 로그와 같은 Azure Databricks에서 자동으로 생성된 콘텐츠가 포함됩니다. 작업 영역 스토리지를 참조하세요.

Note

DBFS 루트 및 탑재 아래의 기존 데이터는 삭제되지 않습니다. 작업 영역 수준에서 DBFS 루트 및 탑재 사용 안 함 설정을 사용해 DBFS 루트 및 탑재를 다시 활성화하면, 데이터에 다시 액세스할 수 있게 됩니다.

다음은 액세스할 수 있으며 DBFS 루트의 영향을 받지 않고 비활성화를 탑재하는 경로의 몇 가지 예입니다.

Category Path Description
Unity 카탈로그 볼륨 dbfs:/Volumes/<catalog>/<schema>/<volume>/<path>/<file_name> UC 볼륨용으로 예약되고 UC 특정 API를 통해서만 액세스할 수 있으며 UC 거버넌스 규칙에 따라 적용됩니다. 자세한 내용은 볼륨의 파일에 액세스하는 경로를 참조하세요.
시스템 경로 dbfs:/databricks/mlflow-registry dbfs:/databricks/mlflow-tracking 작업 영역 시스템 데이터의 Azure Databricks 내부 API에서 작성한 콘텐츠를 가리키는 읽기 전용 경로입니다.
시스템 경로 dbfs:/databricks-datasets/ Azure Databricks 작업 영역에 기본적으로 탑재된 데이터 세트의 읽기 전용 컬렉션입니다. DBFS 탑재 Databricks 데이터 세트 찾아보기를 참조하세요.

dbfs: 접두사(URI 체계)는 선택 사항이며 대부분의 경우 생략할 수 있습니다. 데이터에 액세스하기 위해 URI 체계를 제공해야 하나요?를 참조하세요.

DBFS 루트 및 탑재를 언제 사용하지 않도록 설정할 수 있나요?

언제든지 DBFS를 사용하지 않도록 설정할 수 있습니다. 그러나 기존 워크플로가 여전히 이 워크플로에 의존하는 경우 중단할 수 있습니다. Databricks는 다음 후에만 비핵심 환경에서 DBFS 루트 및 마운트를 사용하지 않도록 설정하는 것이 좋습니다.

  • DBFS 루트 또는 탑재를 사용하는 모든 워크플로를 Unity 카탈로그 볼륨, 외부 위치 또는 작업 영역 파일로 마이그레이션했습니다.
  • 모든 작업 및 클러스터를 Databricks Runtime 13.3 LTS 이상으로 업그레이드했습니다.

Note

계속하기 전에 관찰성 스크립트를 사용하여 남은 DBFS 루트를 검색하고 사용량을 탑재할 수 있습니다.

DBFS 루트 및 탑재 사용 안 함

기존 작업 영역과 새 작업 영역 모두에서 DBFS 루트 및 탑재를 사용하지 않도록 설정할 수 있습니다.

작업 영역 관리자는 다음 단계에 따라 DBFS 루트 및 탑재를 사용하지 않도록 설정합니다.

  1. Azure Databricks 작업 영역에 로그인합니다.

  2. 오른쪽 위 모서리에서 사용자 프로필 아이콘을 클릭하고 설정을 선택합니다.

  3. 작업 영역 관리자로 이동하고 보안을 클릭합니다.

  4. DBFS 루트 및 탑재 사용 안 함사용 안 함: DBFS 루트 및 탑재를 사용할 수 없습니다로 설정하십시오.

  5. 설정이 적용되기까지 최대 20분 정도 기다립니다.

  6. 실행 중인 모든 클러스터를 다시 시작합니다.

    • 전파 지연: DBFS 루트 및 탑재 비활성화가 완전히 전파되는 데 최대 20분이 걸릴 수 있습니다.
    • 클러스터 다시 시작: 실행 중인 모든 다목적 컴퓨팅 및 SQL 웨어하우스를 수동으로 다시 시작해야 하며, 변경 내용을 적용하려면 20분 전파 시간 후에 이 작업을 수행해야 합니다. 다시 시작되지 않은 경우 이러한 클러스터는 DBFS 루트 및 탑재에 계속 액세스할 수 있습니다.

    노트북 예제: 장시간 실행 다목적 컴퓨팅을 식별하고 다시 시작하기를 참조하십시오.