이 페이지에서는 Azure Databricks의 기본 스토리지 작동 방식과 이를 사용하는 카탈로그 및 데이터 개체를 만드는 방법을 설명합니다.
기본 스토리지란?
기본 스토리지는 Azure Databricks 계정에서 즉시 사용할 수 있는 스토리지를 제공하는 완전 관리형 개체 스토리지 플랫폼입니다. 일부 Azure Databricks 기능은 외부 스토리지 대신 기본 스토리지를 사용합니다.
서버리스 작업 영역은 내부 및 작업 영역 스토리지 및 작업 영역으로 만들어지는 기본 카탈로그에 기본 스토리지를 사용합니다. 서버리스 작업 영역에서는 기본 스토리지 또는 사용자 고유의 클라우드 개체 스토리지에 추가 카탈로그를 만들 수 있습니다.
클래식 작업 영역과 서버리스 작업 영역 모두에서 기본 스토리지는 기능에서 컨트롤 플레인 메타데이터, 파생 데이터, 모델 및 기타 아티팩트와 같은 항목을 저장하는 데 사용됩니다. 예를 들어 클린룸, 데이터 분류, 변칙 검색 및 에이전트 브릭은 모두 작업 영역의 기본 스토리지를 사용합니다. 각 기능이 기본 스토리지에 저장하는 기능에 대한 자세한 내용은 개별 기능 설명서를 참조하세요.
요구 사항
- 기본 스토리지에서 카탈로그 만들기는 서버리스 작업 영역 (공개 미리 보기)에서만 사용할 수 있습니다.
- 기본적으로 기본 스토리지를 사용하는 카탈로그는 만들어진 작업 영역에서만 액세스할 수 있습니다. 클래식 작업 영역을 포함하여 다른 작업 영역 액세스 권한을 부여할 수 있지만 카탈로그의 데이터에 액세스하려면 서버리스 컴퓨팅을 사용해야 합니다. 특정 작업 영역에 대한 카탈로그 액세스 제한을 참조하세요.
- 기본 스토리지를 사용하여 카탈로그를 만들 수 있는 권한이 있어야 합니다
CREATE CATALOG. Unity 카탈로그 권한 및 보안 개체을 참조하세요. - 클라이언트가 Azure Databricks ODBC 드라이버를 사용하여 방화벽 뒤에서 기본 스토리지 카탈로그에 액세스하는 경우 Azure Databricks 지역 스토리지 게이트웨이에 대한 액세스를 허용하도록 방화벽을 구성해야 합니다. 기본 스토리지에 대한 IP 및 도메인 이름 세부 정보는 Azure Databricks 서비스 및 자산에 대한 IP 주소 및 도메인을 참조하세요.
새 카탈로그 만들기
기본 스토리지를 사용하여 새 카탈로그를 만들려면 다음 단계를 완료합니다.
-
을 클릭합니다.사이드바의 카탈로그입니다. 카탈로그 탐색기가 나타납니다.
- 카탈로그만들기를 클릭합니다. 새 카탈로그 만들기 대화 상자가 나타납니다.
- 계정에서 고유한 카탈로그 이름을 제공합니다.
- 기본 스토리지를 사용하는 옵션을 선택합니다.
- 만들기를 클릭합니다.
서버리스 작업 영역에서 다음 SQL 명령을 사용하여 기본 스토리지에 새 카탈로그를 만들 수도 있습니다. 카탈로그의 위치를 지정할 필요가 없습니다.
CREATE CATALOG [ IF NOT EXISTS ] catalog_name
[ COMMENT comment ]
기본 스토리지 작업
기본 스토리지와의 모든 상호 작용에는 서버리스 Unity 카탈로그 사용 컴퓨팅이 필요합니다.
기본 스토리지에서 지원되는 리소스는 Unity 카탈로그의 다른 개체와 동일한 권한 모델을 사용합니다. 데이터 개체를 만들거나, 보거나, 쿼리하거나, 수정할 수 있는 충분한 권한이 있어야 합니다. Unity 카탈로그 권한 및 보안 개체을 참조하세요.
기본 스토리지에서 작업하려면, 기본 스토리지로 지원되는 관리되는 테이블 및 볼륨을 생성하고 이를 통해 상호작용합니다. Delta Lake 및 Apache Iceberg용 Azure Databricks에서 Unity 카탈로그 관리 테이블을 참조하고 Unity 카탈로그 볼륨이란?을 참조하세요.
카탈로그 탐색기, Notebook, SQL 편집기 및 대시보드를 사용하여 기본 스토리지에 저장된 데이터 개체와 상호 작용할 수 있습니다.
예제 작업
다음은 기본 스토리지로 완료할 수 있는 작업의 예입니다.
- 관리되는 볼륨에 로컬 파일을 업로드하거나 관리되는 테이블을 만듭니다. Unity 카탈로그 볼륨에 파일 업로드 및 파일 업로드를 사용하여 테이블 만들기 또는 수정을 참조하세요.
- Notebook을 사용하여 데이터를 쿼리합니다. 자습서: Notebook의 데이터 쿼리 및 시각화를 참조하세요.
- 대시보드를 만듭니다. 대시보드 만들기를 참조하세요.
- SQL을 사용하여 데이터를 쿼리하고 SQL 쿼리를 예약합니다. 새 SQL 편집기에서 쿼리 작성 및 데이터 탐색을 참조하세요.
- 외부 볼륨에서 관리되는 테이블로 데이터를 수집합니다. Unity 카탈로그에서 자동 로더 사용을 참조하세요.
- Fivetran을 사용하여 관리되는 테이블에 데이터를 수집합니다. Fivetran에 대한 연결을 참조하세요.
- BI 도구를 사용하여 관리되는 테이블을 탐색합니다. Azure Databricks를 사용하여 Tableau 및 Azure Databricks 및 Power BI 연결을 참조하세요.
- 서버리스 Notebook을 실행합니다. Notebook에 대한 서버리스 컴퓨팅을 참조하세요.
- 서버리스 작업을 실행합니다. 워크플로에 대한 서버리스 컴퓨팅을 사용하여 Lakeflow 작업 실행을 참조하세요.
- 엔드포인트를 제공하는 모델을 실행합니다. 참조하세요 Mosaic AI 모델 서비스(모델 서빙)를 사용하여 모델을 배포하는 방법.
- 서버리스 Lakeflow Spark 선언적 파이프라인을 실행합니다. 서버리스 파이프라인 구성을 참조하세요.
- 테이블에서 예측 최적화를 사용합니다. Unity 카탈로그 관리 테이블에 대한 예측 최적화를 참조하세요.
제한점
다음과 같은 제한 사항이 적용됩니다.
- 클래식 컴퓨팅(서버리스가 아닌 모든 컴퓨팅)은 기본 스토리지의 데이터 자산과 상호 작용할 수 없습니다.
- 델타 공유는 모든 받는 사람(열기 또는 Azure Databricks)에게 테이블 공유를 지원하며, 받는 사람은 클래식 컴퓨팅을 사용하여 공유 테이블(베타)에 액세스할 수 있습니다. 계정 콘솔에서 기본 스토리지 – 확장된 액세스 기능에 대한 델타 공유 를 사용하도록 설정합니다.
- 이 기능은 다음 지역에서 지원되지 않습니다.
southcentralusuksouthwestus2
- 다른 모든 공유 가능한 자산은 동일한 클라우드의 Azure Databricks 수신자와 델타만 공유할 수 있습니다. 받는 사람은 서버리스 컴퓨팅을 사용해야 합니다.
- 이 기능은 다음 지역에서 지원되지 않습니다.
- 분할을 사용하도록 설정된 테이블은 델타를 공유할 수 없습니다.
- 외부 Iceberg 및 Delta 클라이언트는 기본 스토리지의 UC 테이블에 대한 기본 메타데이터, 매니페스트 목록 및 데이터 파일에 직접 액세스할 수 없습니다(FileIO 액세스는 지원되지 않음). 그러나 Power BI 및 Tableau와 같은 BI 도구는 ODBC 및 JDBC 드라이버를 사용하여 기본 스토리지의 Unity 카탈로그 테이블에 액세스할 수 있습니다. 외부 클라이언트는 파일 API를 사용하여 기본 스토리지의 Unity 카탈로그 볼륨에 액세스할 수도 있습니다.
- 기본 스토리지는 더 큰 데이터 세트에 대한 쿼리에 대한 ODBC 드라이버의 Cloud Fetch 성능 최적화를 포함하여 Azure Databricks ODBC 및 JDBC 드라이버를 통한 외부 액세스를 지원합니다. 그러나 프런트 엔드 Private Link를 사용하도록 설정된 작업 영역에서 기본 스토리지 테이블에 액세스하는 경우 기본 스토리지 테이블에 대한 Cloud Fetch 최적화가 현재 프런트 엔드 Private Link를 지원하지 않으므로 ODBC 클라이언트 쿼리가 100MB보다 큰 경우 실패합니다.