이 문서의 솔루션은 다양한 원본의 데이터와 인사이트를 수집, 저장, 처리, 보강 및 제공하는 다양한 Microsoft 서비스를 결합합니다. 이러한 원본에는 구조적, 반구조적, 비구조적 및 스트리밍 형식이 포함됩니다.
Architecture
AWS S3(Amazon Simple Storage Service), AWS(Amazon Web Services), AWS Kinesis, Google Cloud Storage, Google Cloud, Google Cloud Pub/Sub 및 Snowflake는 해당 소유자의 등록 상표 또는 상표입니다. Apache® 및 Apache Kafka는 미국 및/또는 기타 국가에서 Apache Software Foundation의 등록 상표 또는 상표입니다. 해당 상표 소유자의 보증은 이러한 표시의 사용에 의해 암시되지 않습니다.
이 아키텍처의 Visio 파일을 다운로드합니다.
데이터 흐름
다음 섹션에서는 OneLake가 데이터 수명 주기의 다양한 단계에서 데이터의 홈 역할을 하는 방법을 설명합니다. OneLake는 패브릭 데이터 엔지니어, 패브릭 데이터 팩터리, 패브릭 데이터 과학, 패브릭 데이터 웨어하우스, 패브릭 Real-Time 인텔리전스, 패브릭 데이터베이스 및 Power BI를 비롯한 모든 데이터 워크로드에 대한 중앙 집중식 스토리지 계층 역할을 하는 Microsoft Fabric에 기본 제공되는 통합 엔터프라이즈급 데이터 레이크입니다.
Lakehouse
통합되고 확장 가능하며 유연한 플랫폼이 필요한 경우 Lakehouse 를 사용합니다. 분석, 기계 학습 및 보고를 지원하기 위해 구조화되고 반구조화되고 구조화되지 않은 데이터를 관리하는 데 이상적입니다. medallion 아키텍처를 사용하여 데이터를 구성하는 데 있어서, 폴더와 파일, 데이터베이스 및 테이블에 걸쳐 Bronze(원시 데이터), Silver(유효성 검사된 데이터), Gold(비즈니스 준비 완료 데이터) 계층을 사용합니다.
창고
데이터 웨어하우스 를 데이터베이스, 스키마 및 테이블로 구성하여 구조적 및 반구조화된 데이터를 관리하기 위해 완전히 관리되는 고성능 SQL 기반 분석 솔루션이 필요한 경우 Data Warehouse를 사용합니다. 저장 프로시저, 뷰 및 조인 만들기를 포함하여 전체 T-SQL 지원을 제공합니다.
Eventhouse
이벤트 하우스를 사용하여 실시간 대용량 이벤트 데이터를 관리하고 분석합니다. 데이터베이스, 스키마 및 테이블로 구성하여 로그 및 원격 분석과 같은 구조화되고 반구조화되고 구조화되지 않은 데이터를 지원합니다.
패브릭의 SQL 데이터베이스
트랜잭션 및 분석 워크로드를 통합해야 하는 경우 Fabric에서 SQL 데이터베이스 를 사용합니다. Azure SQL Database와 동일한 엔진에서 실행되고, 전체 T-SQL 지원을 제공하며, 더 광범위한 패브릭 에코시스템과 통합할 수 있습니다.
Azure 데이터베이스, 외부 데이터 원본 및 관계형 데이터베이스
이 섹션에서는 Azure Databricks와 같은 Azure 데이터베이스 및 플랫폼뿐만 아니라 Snowflake와 같은 비 Microsoft 플랫폼의 데이터를 패브릭으로 가져오는 방법을 설명합니다.
Ingest
패브릭은 관계형 데이터베이스에서 데이터를 수집하기 위한 여러 가지 방법을 제공합니다. 미러링을 사용하여 복잡한 ETL(추출, 변환 및 로드) 프로세스 없이 거의 실시간으로 기존 데이터 자산을 OneLake에 복제합니다. 자세한 내용은 지원되는 미러링 데이터 원본을 참조하세요.
Data Factory 파이프라인을 사용하여 온-프레미스 및 클라우드의 광범위한 데이터베이스에서 데이터를 수집할 수도 있습니다. 데이터를 수집하려면 복사 작업, 복사 작업 또는 Dataflow Gen2와 같은 다양한 방법을 사용할 수 있습니다. 이러한 옵션은 오케스트레이션, 변환 및 예약 기능도 제공합니다. 자세한 내용은 지원되는 커넥터를 참조하세요.
SQL 기반 수집의 경우 T-SQL 기능을 사용하여 기존 레이크하우스 및 웨어하우스에서 대규모로 데이터를 로드합니다. 집계된 데이터, 필터링된 하위 집합 또는 복잡한 쿼리의 결과가 있는 새 테이블 버전을 만들 수 있습니다.
Store
미러링을 사용하여 원본 데이터베이스의 읽기 전용 복제본을 만들고 거의 실시간으로 복제를 통해 원본 시스템과 지속적으로 동기화합니다. 미러링에서는 데이터를 OneLake 내에 Delta Lake 형식으로 저장합니다.
데이터 팩터리 파이프라인의 복사 데이터 작업이나 복사 작업을 사용하여 관계형 데이터베이스에서 데이터를 복사한 후, 이를 레이크하우스나 데이터 웨어하우스에 스테이징할 수 있습니다. OneLake 아키텍처는 Medallion 프레임워크를 사용하여 레이크하우스를 유연하게 구현하거나 조직의 요구에 맞는 웨어하우스 모델을 사용하는 Delta Lake 형식을 사용합니다.
Process
미러된 각 데이터베이스에는 쿼리를 위해 자동으로 생성된 SQL 엔드포인트가 포함됩니다. 읽기 전용 SQL 분석 엔드포인트는 SQL Server Management Studio, ODBC(Open Database Connectivity),SQL 연결 문자열이 있는 쿼리 도구 또는 VS Code(Visual Studio Code)를 사용하는 MSSQL 확장을 통한 액세스를 지원합니다. T-SQL을 사용하여 복잡한 집계를 실행하거나 Apache Spark Notebook을 사용하여 데이터를 탐색합니다. 데이터베이스 간 쿼리를 사용하면 미러된 데이터베이스의 데이터에 액세스하고 레이크하우스 및 웨어하우스와 같은 다른 패브릭 데이터 원본과 결합할 수 있습니다. 저장 프로시저는 데이터 변환 및 집계에 대한 SQL 논리를 자동화하여 재사용 가능성을 개선하고 반복 작업에 대한 논리를 중앙 집중화합니다.
미러링에서는 원본 데이터베이스에서 선택한 테이블의 전체 스냅샷을 만듭니다. 초기 로드 후 Fabric은 원본 데이터베이스의 CDC(변경 데이터 캡처)를 사용하여 삽입, 업데이트 및 삭제를 추적합니다. 대기 시간이 짧고 거의 실시간 동기화를 통해 이러한 변경 내용을 OneLake에 지속적으로 복제합니다. 레이크하우스에서 미러 테이블에 대한 바로 가기를 만들고 Spark Notebook을 통해 쿼리할 수 있습니다.
Dataflow Gen2는 스키마 불일치, null 또는 이상값을 감지하는 동시에 분석된 데이터를 정리하고 다듬습니다. 데이터를 프로파일 및 변환한 후 처리된 데이터를 데이터 웨어하우스 테이블에 저장합니다.
Spark Notebook은 레이크하우스 또는 웨어하우스에서 데이터를 로드하여 데이터를 보강합니다. scikit-learn, XGBoost 또는 SynapseML과 같은 라이브러리를 사용하여 기계 학습 모델을 학습하거나 로드합니다. MLflow를 사용하여 실험을 추적하고 모델을 등록합니다. 확장 가능한 일괄 처리 예측 및 실시간 예측을 사용하여 데이터의 점수를 매깁니다.
Serve
미러된 데이터베이스는 읽기 전용 쿼리를 실행하는 데 사용할 수 있는 미러된 SQL 데이터베이스 항목 및 SQL 분석 엔드포인트 를 생성합니다. 데이터 미리 보기를 통해 데이터를 보거나 OneLake에서 직접 탐색합니다. SQL 쿼리 편집기를 사용하면 미러된 데이터베이스 항목의 데이터에 대한 T-SQL 쿼리를 만들 수 있습니다. Lakehouse 바로 가기 및 Spark 쿼리를 사용하여 데이터를 처리하여 미러된 데이터에 액세스할 수 있습니다.
일반적으로 Power BI에서 이 데이터를 사용할 수 있습니다. 이렇게 하려면 비즈니스 데이터 및 관계의 분석을 간소화하는 의미 체계 모델을 만듭니다. 비즈니스 분석가는 레이크하우스를 위해 Direct Lake 모드를 사용하거나 데이터 웨어하우스를 위해 SQL 엔드포인트를 사용하여 Power BI 보고서 및 대시보드를 통해 데이터를 분석하고 비즈니스 인사이트를 도출합니다. 데이터 활성화기를 사용하여 Power BI 시각적 개체에 대한 경고를 설정하여 자주 변경되는 메트릭을 모니터링하고, 경고 조건을 정의하고, 전자 메일 또는 Microsoft Teams 알림을 받습니다.
Fabric의 외부 데이터 공유를 사용하면 한 패브릭 테넌트(공급자)의 사용자가 다른 패브릭 테넌트(소비자)의 사용자와 데이터를 공유할 수 있습니다. 이 기능은 거버넌스 및 보안 경계를 유지하면서 조직 간 협업을 지원합니다. 데이터 소비자는 자신의 레이크하우스 및 데이터 웨어하우스 및 SQL 및 미러된 데이터베이스에서 OneLake 바로 가기를 통해 읽기 전용 데이터에 액세스합니다. GraphQL용 Fabric API는 단일 유연한 API 엔드포인트를 통해 지원되는 패브릭 데이터 원본의 데이터를 노출합니다. 이 기능은 구조화된 데이터에 대한 효율적이고 실시간적인 액세스가 필요한 최신 애플리케이션을 빌드하는 데 적합합니다.
기계 학습 모델은 자동으로 구성된 안전하고 확장 가능한 기계 학습 온라인 엔드포인트를 사용하여 등록된 모든 기계 학습 모델에서 실시간 예측을 제공합니다. 패브릭 네이티브 실시간 배포의 경우 이러한 엔드포인트는 대부분의 패브릭 모델의 기본 제공 속성입니다. 더 광범위하고 안정적인 사용을 위해 다른 패브릭 엔진 또는 외부 앱에서 호출할 수 있습니다. 패브릭 데이터 에이전트를 사용하면 자연어 쿼리를 관련 쿼리로 변환하여 레이크하우스 또는 웨어하우스의 데이터와 대화형 인터페이스를 사용할 수 있습니다. 패브릭의 부조종사 에서는 자연어 질문을 SQL로 변환하고, 오류를 수정하고, SQL 쿼리에 대한 설명을 제공하고, 코드 완성을 지원합니다.
Dataverse용 클라우드 기반 데이터 플랫폼
이 섹션에서는 Dataverse에서 Fabric으로 데이터를 가져오는 방법을 설명합니다.
Ingest
Fabric에 대한 Dataverse Link를 사용하면 ETL 또는 데이터 복사 없이도 Dynamics 365 및 Dataverse 데이터를 패브릭 내에서 거의 실시간으로 사용할 수 있습니다. 데이터 엔지니어는 Dataverse Link to Fabric을 사용하여 SQL을 사용하여 데이터를 쿼리하고, AI를 적용하고, 데이터 세트를 결합하고, 정보를 재구성하고, 패브릭에서 직접 요약을 작성할 수 있습니다.
Store
Dataverse Link to Fabric을 사용하면, Dataverse는 물리적 데이터 이동 없이 Dataverse 테이블에 대한 바로 가기가 포함된 Lakehouse를 OneLake에 생성합니다.
Process
Dataverse에서 생성된 레이크하우스를 보고 Dataverse 환경에서 연결된 테이블을 탐색합니다. SQL 엔드포인트를 사용하여 Dataverse에서 생성된 레이크하우스를 쿼리하고, Spark Notebook을 사용하여 데이터를 탐색하고, SQL Server Management Studio 또는 SQL 편집기를 통해 데이터에 액세스합니다. 바로 가기를 사용하여 복사하거나 복제하지 않고 동일한 데이터를 다시 사용하여 다른 레이크하우스에서 Dataverse 데이터를 참조합니다.
로우 코드 및 노코드 도구인 데이터 랭글러를 사용하여 Fabric 노트북에서 데이터를 풍부하게 합니다. 이를 통해 예비 분석을 위해 데이터를 탐색, 준비 및 셰이프할 수 있습니다. 작업은 pandas 또는 PySpark에서 코드를 생성하며, 이 코드를 Notebook에 재사용 가능한 함수로 저장할 수 있습니다.
Serve
OneLake에서 만든 Dataverse 테이블의 바로 가기는 Delta Lake 형식을 지원합니다. Dataverse가 패브릭 작업 영역에서 생성하는 기본 데이터 세트에서 Power BI 보고서에 이 데이터를 채울 수 있습니다.
데이터 활성화기를 사용하여 Power BI 시각적 개체에 대한 경고를 설정하고, 자주 변경되는 메트릭을 모니터링하고, 경고 조건을 정의하고, 이메일 또는 Teams 알림을 받을 수도 있습니다.
반구조화 및 비구조적 데이터 원본
이 섹션에서는 반구조화 및 비정형 데이터를 Fabric으로 수집하는 방법을 설명합니다.
Ingest
Data Factory 파이프라인을 사용하여 온-프레미스 및 클라우드의 광범위한 반구조화된 원본에서 데이터를 가져옵니다. 데이터를 끌어오려면 복사 작업, 복사 작업, Dataflow Gen2, Spark Notebook 또는lakehouse 파일 업로드와 같은 다양한 방법을 사용할 수 있습니다. 지원되는 원본은 다음과 같습니다.
CSV 또는 JSON 파일을 포함하는 파일 기반 원본에서 수집된 데이터
레거시 시스템의 XML 파일
스토리지 계정의 Parquet 파일
PDF, MP3, 이미지, 로그, 문서 및 기타 이진 파일
파이프라인에 대한 데이터 원본으로서의 패브릭 REST API
COPY INTO 문을 사용하여 처리량이 높은 SQL 워크로드를 위해 외부 스토리지 계정에서 데이터를 수집합니다. 이 설명서는 Parquet 및 CSV 파일 형식을 지원합니다. OneLake에서 Azure Data Lake Storage, AWS S3(Amazon Simple Storage Service) 스토리지 계정, Google Cloud Storage 계정 및 기타 지원되는 외부 스토리지 옵션을 비롯한 외부 원본에 대한 바로 가기를 만들어 복사 액세스를 사용하지 않도록 하고 중복을 방지합니다. 프로그래밍 방식으로 또는 수동으로 Lakehouse 폴더에 파일을 업로드 합니다. 패브릭 이벤트 기반 오케스트레이션을 사용하여 새 파일이 도착하면 파이프라인을 트리거합니다.
Store
Fabric OneLake 통합 데이터 레이크 내에서 데이터를 구성합니다. 만들 계층, 각 계층에서 사용할 폴더 구조 및 각 분석 시나리오에 사용할 파일 형식에 대한 모범 사례를 따릅니다. 구조화되지 않은 데이터를 브론즈 영역에 저장하여 처리되지 않은 데이터를 원래 형식으로 유지합니다. 이벤트 하우스를 사용하여 원격 분석, 로그 또는 시계열 데이터를 저장합니다.
Process
Spark Notebook은 반구조화된 데이터를 구문 분석하고 변환합니다. 예를 들어 중첩된 JSON 구조를 평면화하거나 XML을 테이블 형식으로 변환하거나 로그 파일에서 키 필드를 추출할 수 있습니다. 또한 Spark Notebook은 Spark DataFrames를 통해 콘텐츠를 추출하고 구조화되지 않은 데이터를 변환합니다.
T-SQL 데이터 가져오기는 패브릭 레이크하우스 또는 웨어하우스의 기존 테이블에서 데이터를 로드합니다. Dataflow Gen2는 스키마 불일치, null 또는 이상값을 탐지하는 동안 구문 분석된 데이터를 정리하고 변환합니다. 데이터를 프로파일하고 변환한 후 레이크하우스 테이블에 저장합니다. 패브릭의 내부 단축키는 레이크하우스에 저장된 데이터를 참조합니다.
Spark Notebook은 데이터를 처리할 때 보강합니다. 레이크하우스 또는 웨어하우스에서 데이터를 로드한 다음 scikit-learn, XGBoost 또는 SynapseML과 같은 라이브러리를 사용하여 기계 학습 모델을 학습하거나 로드 합니다. MLflow 는 실험을 추적하고 모델을 등록합니다. 확장 가능한 일괄 처리 예측 또는 실시간 예측을 사용하여 데이터의 점수를 매깁니다.
Serve
T-SQL은 Fabric SQL 분석 엔드포인트를 통해 레이크하우스 테이블을 쿼리합니다. SQL 분석 엔드포인트는 의미 체계 모델 및 Power BI 보고서를 지원합니다. Direct Lake 모드는 고성능 분석을 제공합니다. 데이터 활성화기를 사용하여 자주 변경되는 메트릭을 모니터링하고, 경고 조건을 정의하고, 전자 메일 또는 Teams 알림을 수신하여 Power BI 시각적 개체에 대한 경고를 설정할 수도 있습니다.
Fabric의 외부 데이터 공유를 사용하면 한 패브릭 테넌트(공급자)의 사용자가 다른 패브릭 테넌트(소비자)의 사용자와 데이터를 공유할 수 있습니다. 이 기능은 거버넌스 및 보안 경계를 유지하면서 조직 간 협업을 지원합니다. 데이터 소비자는 자신의 레이크하우스에서 OneLake 바로 가기를 사용하여 읽기 전용 데이터에 액세스합니다.
GraphQL용 Fabric API는 단일 유연한 API 엔드포인트를 통해 지원되는 패브릭 데이터 원본의 데이터를 노출합니다. 이 접근 방식은 구조화된 데이터에 대한 효율적이고 실시간적인 액세스가 필요한 최신 애플리케이션을 빌드하는 데 적합합니다.
자동으로 구성된 안전하고 확장 가능한 기계 학습 온라인 엔드포인트를 사용하여 등록된 모든 기계 학습 모델에서 실시간 예측을 제공합니다. 패브릭 네이티브 실시간 배포의 경우 이러한 엔드포인트를 대부분의 패브릭 모델의 기본 제공 속성으로 사용합니다. 안정적이고 광범위한 사용을 위해 다른 패브릭 엔진 또는 외부 앱에서 호출합니다. 예측 데이터에서 의미 체계 모델을 만들고 Power BI 보고서에서 결과를 시각화합니다.
패브릭 데이터 에이전트는 자연어 쿼리를 OneLake 데이터에 대한 실행 가능한 인사이트로 변환하는 사용자 지정 가능한 AI 기반 대화형 인터페이스입니다. 코필로트는 데이터 분석 및 시각화 작업을 간소화합니다. Notebook 내에서 Lakehouse 테이블, pandas 및 Spark DataFrames에 관한 질문을 직접 할 수 있습니다. 부조종사 자연어 설명으로 응답합니다. 비즈니스 사용자는 코필로트 창을 사용하여 보고서 콘텐츠에 대한 질문을 하고 주요 인사이트를 빠르게 요약할 수 있습니다. 또한 Copilot 섹션을 사용하여 이미 액세스할 수 있는 정보를 검색할 수 있습니다.
Streaming
이 섹션에서는 대용량 시계열 스트리밍 데이터를 패브릭으로 가져오는 방법을 설명합니다.
Ingest
Real-Time Intelligence를 사용하여 이벤트 스트림을 통해 실시간 처리할 데이터를 수집합니다. IoT(사물 인터넷) 디바이스, 애플리케이션, 외부 이벤트 허브 및 패브릭 이벤트(예: 작업 영역 항목 이벤트, OneLake 이벤트 및 작업 이벤트)와 같은 광범위한 데이터 원본에서 데이터를 가져옵니다. Real-Time Intelligence의 기존 Azure Data Explorer 데이터베이스와 같은 원본 KQL(Kusto Query Language) 데이터베이스를 참조해야 하는 경우 복제하거나 다시 수집하지 않고 데이터에 액세스하는 데이터베이스 바로 가기 를 만들 수 있습니다.
Store
Eventstream은 다른 대상으로 데이터 라우팅을 지원합니다. 고성능, 최적화 및 확장 가능한 스토리지 솔루션인 이벤트하우스에 대량의 데이터를 저장합니다. KQL을 사용하여 이벤트 기반 데이터 분석을 위해 설계된 특수 데이터베이스인 이벤트 하우스 내에 KQL 데이터베이스를 만들 수 있습니다.
Process
KQL 쿼리 세트를 사용하여 다양한 실시간 데이터 원본에서 KQL 쿼리를 작성, 실행 및 관리합니다. KQL 쿼리 세트는 Real-Time Intelligence 환경의 핵심 도구입니다. 이를 통해 사용자는 스트리밍 또는 시계열 데이터를 탐색, 분석 및 시각화할 수 있습니다. Real-Time Intelligence에서 T-SQL을 사용하여 KQL 데이터베이스에 저장된 스트리밍 데이터를 쿼리할 수 있습니다. KQL은 실시간 분석을 위한 기본 언어이지만 Fabric은 SQL 기반 분석에 익숙한 사용자를 위해 T-SQL도 지원합니다.
엔진 간 처리를 위해 OneLake 가용성 을 켜 KQL 데이터베이스 데이터의 논리적 복사본을 만듭니다. Power BI의 Direct Lake 모드, 웨어하우스, 레이크하우스 및 Notebook과 같은 다른 패브릭 엔진에서 Delta Lake 형식으로 데이터를 쿼리할 수 있습니다.
Serve
비즈니스 분석가는 KQL 쿼리에 의해 구동되는 타일 컬렉션인 Real-Time Intelligence 대시보드를 만들 수 있습니다. 타일을 페이지로 구성하고 데이터 원본에 연결할 수 있습니다. 대시보드는 자동으로 업데이트되므로 시스템을 통해 데이터를 거의 즉시 볼 수 있습니다. 대시보드 타일에 데이터 활성화기를 추가하여 자주 변경되는 메트릭을 모니터링하고, 경고 조건을 정의하고, 전자 메일 또는 Teams 알림을 받을 수도 있습니다. Power BI 보고서를 만들어 KQL 데이터베이스에서 원본으로 빌드된 의미 체계 모델에서 보고서를 생성합니다.
패브릭 외부 데이터 공유를 사용하면 한 패브릭 테넌트(공급자)의 사용자가 다른 패브릭 테넌트(소비자)의 사용자와 데이터를 공유할 수 있습니다. 거버넌스 및 보안 경계를 유지하면서 조직 간 협업을 지원합니다. 데이터 소비자는 자신의 KQL 데이터베이스에서 OneLake 바로 가기를 통해 읽기 전용 데이터에 액세스합니다.
패브릭 데이터 에이전트는 KQL 데이터베이스를 사용하여 사용자가 질문을 할 수 있으므로 비기술 사용자에 대해 실시간 데이터를 쉽게 사용할 수 있습니다. Copilot은 자연어 쿼리를 실행할 수 있는 KQL로 번역할 수 있습니다.
Components
이 아키텍처는 다음 패브릭 및 Azure 서비스를 사용합니다.
패브릭의 코파일럿은 패브릭 플랫폼 전반에 통합된 생성 AI 어시스턴트입니다. 이 아키텍처에서는 확장 가능한 데이터 파이프라인을 빌드하고, 데이터 변환을 위한 Spark 코드를 만들고, 데이터 웨어하우스에 최적화된 SQL을 생성하고, Real-Time Intelligence에 대한 KQL 쿼리를 작성하고, 보고를 위한 의미 체계 모델 및 DAX(데이터 분석 식) 측정값을 빌드하는 데 도움이 됩니다.
패브릭 데이터 에이전트는 사용자가 자연어를 사용하여 조직 데이터와 상호 작용하는 데 도움이 되는 AI 기반 기능입니다. 이 아키텍처에서 데이터 에이전트는 자연어 질문을 SQL, DAX 또는 KQL과 같은 구조적 쿼리로 변환하는 대화형 인터페이스 역할을 합니다.
Microsoft Purview 는 데이터 거버넌스, 보안 및 규정 준수를 위한 통합 플랫폼입니다. 이 아키텍처에서 Microsoft Purview는 데이터 원본에서 Power BI 보고서에 이르는 전체 데이터 자산 및 계보를 제어합니다.
패브릭 외부 데이터 공유 는 사용자가 다른 패브릭 테넌트에서 사용자와 패브릭 환경의 데이터를 공유할 수 있도록 하여 안전한 테넌트 간 협업을 가능하게 하는 기능입니다. 이 아키텍처에서 조직은 데이터를 복제하지 않고도 테넌트 경계를 넘어 공동 작업할 수 있습니다.
GraphQL용 패브릭 API는 개발자가 GraphQL 쿼리 언어를 사용하여 데이터를 노출하고 상호 작용할 수 있는 기능입니다. 이 아키텍처에서는 사용자가 데이터 애플리케이션을 개발할 수 있습니다.
Real-Time Intelligence 는 스트리밍 데이터를 처리, 분석 및 작동하도록 설계된 이벤트 기반 분석 솔루션입니다. 이 아키텍처에서는 대용량 스트리밍 데이터를 처리하고 기본 쿼리를 시각화하는 타일로 구성된 실시간 대시보드를 제공합니다.
Power BI 는 BI(비즈니스 인텔리전스) 및 데이터 시각화 플랫폼입니다. 이 아키텍처에서는 OneLake에 연결하여 대시보드 및 보고서를 만듭니다.
Microsoft Foundry 는 엔터프라이즈 규모에서 AI 애플리케이션 및 에이전트를 빌드, 배포 및 관리하기 위한 PaaS(통합 플랫폼 서비스)입니다. 이 아키텍처에서 Foundry 에이전트는 다중 에이전트 시스템을 보강 및 사용하도록 설정하고 패브릭 데이터 에이전트는 다른 에이전트와 함께 도메인 전문가 역할을 합니다.
Azure Machine Learning 은 데이터 준비 및 실험에서 모델 학습, 배포 및 모니터링에 이르기까지 전체 기계 학습 수명 주기를 관리하기 위한 엔터프라이즈급 클라우드 서비스입니다. 이 아키텍처에서는 사용자가 일괄 처리 엔드포인트를 사용하여 기계 학습 모델을 실행할 수 있도록 설정할 수 있습니다. OneLake 바로 가기를 사용하면 Machine Learning과 Fabric이 동일한 기본 Data Lake Storage 인스턴스를 공유할 수 있으므로 두 서비스 모두 데이터를 복제하지 않고 읽고 쓸 수 있습니다.
Microsoft Cost Management는 Microsoft Azure 리소스 청구서를 추적, 분석 및 최적화하는 데 도움이 되는 서비스입니다. 이 아키텍처에서는 Cost Management의 비용 분석 및 청구서에 패브릭 용량 리소스와 연결된 여러 미터가 표시됩니다.
Azure Key Vault 는 비밀, 키 및 인증서와 같은 중요한 정보를 안전하게 저장하고 관리하기 위한 클라우드 기반 서비스입니다. 이 아키텍처에서는 패브릭 연결 및 게이트웨이에 사용되는 자격 증명을 관리합니다.
Azure Policy는 Azure 리소스 전반에 걸쳐 거버넌스 규칙을 적용하는 거버넌스 도구입니다. 이 아키텍처에서는 패브릭 데이터 플랫폼에서 규정 준수, 데이터 거버넌스 및 비용 제어를 보장합니다.
Microsoft Entra ID 는 사용자, 디바이스 및 워크로드에 대한 보안 액세스를 보장하는 클라우드 기반 ID 및 액세스 관리 솔루션입니다. 이 아키텍처에서는 사용자가 제로 트러스트 액세스 제어를 적용하는 동안 Microsoft Entra 자격 증명을 사용하여 Fabric에 로그인할 수 있습니다.
Azure DevOps 는 전체 소프트웨어 개발 수명 주기를 지원하기 위해 Microsoft에서 제공하는 개발 도구 및 서비스 모음입니다. 이 아키텍처에서 Azure DevOps는 패브릭 작업 영역과 통합되어 수명 주기를 관리하고 소스 제어를 제공합니다.
GitHub 는 개발자가 코드의 변경 내용을 저장, 관리 및 추적할 수 있는 버전 제어 및 협업을 위한 클라우드 기반 플랫폼입니다. 이 아키텍처에서 GitHub는 패브릭 작업 영역과 통합되어 수명 주기 관리 및 소스 제어를 지원합니다.
Fabric의 작업 영역 모니터링 기능을 사용하면 작업 영역 내의 패브릭 항목에서 로그 및 메트릭을 수집, 분석, 시각화할 수 있습니다. 이 아키텍처에서는 패브릭 환경에서 쿼리 진단을 수행하고, 문제를 식별하고, 사용자 지정된 모니터링 대시보드를 빌드하고, 경고를 설정하는 데 도움이 됩니다.
Alternatives
Fabric은 데이터 및 분석 워크로드를 효율적으로 관리하는 도구 집합을 제공합니다. 사용할 수 있는 옵션이 너무 많기 때문에 올바른 도구를 선택하는 것이 어려울 수 있습니다. 이러한 의사 결정 가이드는 선택 사항을 평가하고 가장 효과적인 전략을 결정하는 데 도움이 되는 로드맵을 제공합니다.
다른 대안을 비교하려면 다음 리소스를 참조하세요.
시나리오 정보
이 예제 시나리오에서는 Fabric이 통합을 간소화하고 인사이트를 가속화하며 운영 복잡성을 줄이는 통합된 최신 데이터 플랫폼을 빌드하는 데 패브릭이 어떻게 도움이 되는지 보여줍니다. 이를 통해 조직은 확장성, 거버넌스 및 비용 효율성을 높이는 동시에 일반적인 데이터 문제를 극복할 수 있습니다.
잠재적인 사용 사례
조각화된 도구를 통합 솔루션으로 대체하여 엔터프라이즈 데이터 플랫폼을 현대화합니다.
패브릭 레이크하우스를 사용하여 메달리온 레이크 아키텍처를 설정하고, 원시 데이터 수집을 위한 브론즈 계층, 정리 및 변환된 데이터를 위한 실버 계층, 분석 및 AI에 활용되는 비즈니스 준비 데이터에 대한 골드 계층을 설정합니다. 사용자 지정된 분석이 필요한 토픽용으로 설계된 주체 영역 또는 도메인별 솔루션으로 웨어하우스를 만듭니다.
패브릭 컴퓨팅 엔진을 사용하여 관계형 데이터 원본을 구조화되지 않은 데이터 세트와 통합합니다.
실시간 인텔리전스를 사용하여 스트리밍 데이터를 모니터링하고 조치를 수행하는 실시간 운영 분석을 제공합니다.
AI 기반 고객 인사이트를 생성하여 데이터를 보강하고 비즈니스 가치를 창출합니다.
의미 체계 모델링 및 고급 시각화 도구를 통해 엔터프라이즈 보고 및 셀프 서비스 BI를 제공합니다.
테넌트 간 데이터 공유를 OneLake 바로 가기와 외부 데이터 공유를 통해 사용하도록 설정합니다.
Azure AI Foundry 또는 Microsoft Copilot Studio 와 패브릭 데이터 에이전트를 통합하여 비즈니스 사용자 및 애플리케이션을 위한 지능적이고 대화형이며 상황에 맞는 AI 솔루션을 빌드합니다.
Recommendations
다음 권장 사항을 고려하세요.
검색 및 관리
데이터 거버넌스는 대기업 환경에서 일반적인 과제입니다. 비즈니스 분석가는 비즈니스 문제를 해결하기 위해 데이터 자산을 검색하고 이해해야 하며, 최고 데이터 책임자는 비즈니스 데이터의 개인 정보 보호 및 보안에 대한 인사이트를 구해야 합니다.
Microsoft Purview
Microsoft Purview 데이터 거버넌스는 두 가지 솔루션으로 구성됩니다. 통합 카탈로그 및 데이터 맵은 다양한 카탈로그 및 원본의 메타데이터를 통합하여 최신 거버넌스 환경을 제공합니다. 이러한 통합을 통해 가시성을 확보하고, 데이터 신뢰도를 강화하며, 기업 전체에서 책임 있는 혁신을 지원합니다.
사용자가 조직 전체의 데이터 세트 의미 체계 및 사용량을 이해해야 하는 특정 비즈니스 용어를 사용하여 용어집 용어를 유지 관리합니다. 데이터 원본을 등록하고 컬렉션으로 구성하며 메타데이터의 보안 경계 역할을 합니다. 조직 데이터 자산에 대한 관련 메타데이터를 자동으로 카탈로그화하고 업데이트하도록 정기적인 검사를 설정합니다. 패브릭 테넌트를 검색하면 Power BI를 포함한 패브릭 자산의 메타데이터 및 계보 가 Microsoft Purview 통합 데이터 카탈로그에 자동으로 수집됩니다. 검사 중에 미리 구성된 규칙 또는 사용자 지정 규칙을 기반으로 데이터 자산에 데이터 분류 및 데이터 민감도 레이블을 자동으로 할당합니다.
통합 카탈로그 상태 관리를 사용하여 데이터 환경의 전반적인 상태를 모니터링하고 보안 및 개인 정보 보호 위험으로부터 조직을 보호합니다. 패브릭 내의 기본 제공 Microsoft Purview 허브 는 데이터 인벤토리, 민감도 레이블 및 보증에 대한 인사이트를 제공합니다. 더 광범위한 Microsoft Purview 기능과 연결하는 게이트웨이 역할을 합니다.
플랫폼 서비스
Fabric은 조직이 비즈니스 요구 사항, 거버넌스 모델 및 성능 요구 사항에 맞게 데이터 아키텍처를 조정하는 데 도움이 되는 여러 배포 패턴을 지원합니다. 이러한 패턴은 테넌트, 용량, 작업 영역 및 배포의 항목 수준에서 정의됩니다. 각 패턴은 확장성, 격리, 비용 및 운영 복잡성에서 서로 다른 장단을 제공합니다.
이 디자인은 몇 가지 기본 Azure 서비스를 통합합니다. Microsoft Entra ID는 Azure 워크로드에서 ID 서비스, SSO(Single Sign-On) 및 다단계 인증을 제공합니다. Cost Management는 Azure 워크로드에 대한 재무 거버넌스를 제공합니다. Key Vault는 자격 증명 및 인증서를 안전하게 관리합니다. Fabric에서 키 자격 증명 보관소를 구성할 때 키 자격 증명 보관소 서비스에서 자격 증명 및 인증서를 가져올 수 있습니다. 이러한 자격 증명을 사용하여 온-프레미스 또는 외부 원본과 같은 통합 인증을 지원하지 않는 데이터 저장소에 액세스합니다.
Azure Monitor 는 Azure 리소스에서 원격 분석을 수집, 분석 및 작동하여 문제를 사전에 식별하고 성능 및 안정성을 최대화합니다. Azure DevOps 및 GitHub Enterprise 는 개발 작업(DevOps)을 구현하여 패브릭 워크로드 개발 및 배포 파이프라인에서 자동화 및 규정 준수를 적용합니다. 이 방법을 사용하면 버전 제어, 공동 작업 및 수명 주기 관리를 수행할 수 있습니다. Azure Policy는 리소스 일관성, 규정 준수, 보안, 비용 제어 및 관리를 보장하기 위해 조직 표준 및 거버넌스를 적용합니다.
Considerations
이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일련의 기본 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Well-Architected Framework를 참조하세요.
비용 최적화
비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 개선하는 방법에 중점을 둡니다. 자세한 내용은 비용 최적화에 대한 디자인 검토 검사 목록을 참조하세요.
비용을 예측하려면 가격 책정을 참조하세요. 이상적인 가격 책정 계층과 아키텍처의 각 서비스의 총 비용은 처리 및 저장되는 데이터의 양과 예상 성능 수준에 따라 달라집니다. 다음 가이드를 사용하여 패브릭에 대한 최고 비용 최적화 전략을 탐색합니다.
패브릭 용량은 데이터 엔지니어링 및 데이터 웨어하우징에서 데이터 모델링, BI 및 AI 환경에 이르기까지 모든 패브릭 기능을 지원하는 공유 풀입니다. Microsoft는 종량제 또는 예약 옵션을 사용하여 시간별 CPU(용량 단위)를 가격 책정합니다. 종량제 요금제는 패브릭 용량을 사용한 시간에 대해서만 비용을 지불할 수 있는 유연성을 제공합니다. 월별 또는 연간 약정 없이 비용을 관리하는 데 사용하지 않을 때 용량을 일시 중지할 수 있습니다. 예약은 예측 가능한 청구를 제공하며 일반적으로 안정적인 워크로드에 대한 절감액을 제공합니다. OneLake 스토리지 는 데이터를 이동하거나 복제할 필요 없이 모든 분석 엔진에서 단일 데이터 복사본을 제공합니다.
패브릭 용량 예측 도구는 용량 요구 사항을 예측하고 워크로드 특성에 따라 적절한 SKU 및 스토리지 요구 사항을 결정하는 데 도움이 됩니다. 패브릭 용량 메트릭 앱을 사용하여 사용량 및 사용량을 모니터링하여 용량 사용률을 표시합니다. Cost Management는 사용량을 추적하고 예산 경고를 설정합니다. 자세한 내용은 패브릭 용량용 Azure 청구서 이해를 참조하세요. 패브릭 용량 문제 해결 가이드는 용량 사용량을 모니터링하고 사전에 최적화하는 리소스를 제공합니다.
패브릭 차지백 앱(미리 보기)을 사용하면 조직에서 Fabric을 사용하는 사업부, 사용자 및 워크로드에서 용량 사용 비용을 추적, 분석 및 할당할 수 있습니다. 실제 소비량에 따라 투명하고 공정한 비용 분포를 가능하게 하는 차지백 및 쇼백 모델을 지원합니다. Microsoft Purview 가격 책정은 카탈로그의 데이터 자산 수와 이를 검사하는 데 필요한 컴퓨팅 성능에 따라 달라집니다.
운영 효율성
운영 우수성은 애플리케이션을 배포하고 프로덕션에서 계속 실행하는 운영 프로세스를 다룹니다. 자세한 내용은 Operational Excellence에 대한 디자인 검토 검사 목록을 참조하세요.
Bicep, ARM 템플릿(Azure Resource Manager 템플릿) 및 Terraform을 사용하여 패브릭 용량을 프로비전하기 위한 일관된 IaC(Infrastructure as Code) 방법론을 채택합니다. Fabric 작업 영역을 Git for Fabric 애플리케이션 수명 주기 관리와 통합하고 CI/CD(지속적인 통합 및 지속적인 배포)를 위해 배포 파이프라인 을 사용합니다.
모니터링 허브를 사용하여 패브릭 활동을 모니터링합니다. 관리 모니터링 작업 영역은 패브릭 관리자가 테넌트 작업을 감독하고 관리할 수 있는 전용 작업 영역을 제공합니다. 관리자가 워크로드 및 사용량을 효과적으로 모니터링할 수 있도록 활동 개요, 활동 세부 정보 및 거버넌스에 대한 기본 제공 보고서를 제공합니다. 그룹 채팅 또는 채널에서 Teams 메시지를 보내 파이프라인 상태를 알립니다. 전자 메일 알림의 경우 Office 365 Outlook 활동을 사용합니다.
Microsoft Purview를 통해 거버넌스 정책을 적용합니다. 정기적인 Well-Architected 검토 및 최적화 스프린트를 예약합니다. Fabric의 새로운 기능과 예상되는 시기에 대한 자세한 내용은 패브릭 로드맵을 참조하세요. 플랫폼을 개발하고 테스트하는 사전 프로덕션 환경에서 유사한 아키텍처를 구현합니다. 플랫폼의 특정 요구 사항과 각 서비스의 기능을 고려하여 비용 효율적인 사전 프로덕션 환경을 만듭니다.
Contributors
Microsoft는 이 문서를 유지 관리합니다. 다음 기여자는 이 문서를 작성했습니다.
주요 작성자:
- Kevin Lee | 클라우드 솔루션 설계자
- Lavanya Sreedhar | 선임 클라우드 솔루션 설계자
LinkedIn 비공개 프로필을 보려면, LinkedIn에 로그인하세요.