Udostępnij przez


Analiza od początku do końca z Microsoft Fabric

Microsoft Fabric
Azure Cosmos DB
Analiza w czasie rzeczywistym
Azure Databricks
Azure Event Hubs

Rozwiązanie w tym artykule łączy szereg usług firmy Microsoft, które pozyskiwają, przechowują, przetwarzają, wzbogacają i obsługują dane i szczegółowe informacje z różnych źródeł. Źródła te obejmują formaty strukturalne, częściowo ustrukturyzowane, nieustrukturyzowane i przesyłane strumieniowo.

Architecture

Diagram architektury przedstawiający nowoczesną platformę danych korzystającą z usługi Microsoft Fabric.

Diagram przedstawia szczegółową architekturę rozwiązania utworzonego w usłudze Microsoft Fabric. Po lewej stronie architektura zaczyna się od różnych źródeł danych, które obejmują systemy lokalne, Amazon Simple Storage Service (AWS S3), Google Cloud Storage oraz ustrukturyzowane i nieustrukturyzowane dane. Strumienie zdarzeń pozyskują dane w czasie rzeczywistym, a bazy danych działające lokalnie odwzorowują dane na platformy chmurowe, takie jak Azure SQL Database, Azure Databricks i Snowflake. Lakehouse przechowuje surowe i częściowo ustrukturyzowane formaty, a Fabric Data Warehouse przechowuje dane analityczne w formie strukturalnej. Skróty umożliwiają dostęp między środowiskami, zwiększając elastyczność i integrację. Po prawej stronie notesy, procedury składowane, DataFlow Gen2 w Fabric oraz potoki w obrębie Fabric przetwarzają przechowywane dane. Zaawansowane modele analityczne i uczenia maszynowego wzbogacają dane przed ich udostępnieniem użytkownikom i po nim. Punkty końcowe usługi Lakehouse i SQL Analytics, agenci danych i usługa Power BI udostępniają przetworzone dane i udostępniają wizualizacje w celu zapewnienia wysokiej jakości szczegółowych informacji z możliwością działania. W dolnej części warstwa platformy obsługuje całą architekturę z usługami takimi jak Microsoft Purview do zarządzania ładem, Microsoft Entra ID do zarządzania tożsamościami i Azure Key Vault do przechowywania bezpiecznych tajemnic. Usługi GitHub i Azure DevOps umożliwiają ciągłą integrację i ciągłe wdrażanie (CI/CD). Usługa Azure Policy wymusza zgodność, funkcja monitorowania obszaru roboczego w sieci szkieletowej zapewnia monitorowanie, a aplikacja Copilot w sieci Szkieletowej zapewnia programowanie wspomagane przez sztuczną inteligencję.

Amazon Simple Storage Service (AWS S3), Amazon Web Services (AWS), AWS Kinesis, Google Cloud Storage, Google Cloud Pub/Sub i Snowflake są zastrzeżonymi znakami towarowymi lub znakami towarowymi odpowiednich właścicieli. Apache® i Apache Kafka są zastrzeżonymi znakami towarowymi lub znakami towarowymi fundacji Apache Software Foundation w Stanach Zjednoczonych i/lub innych krajach. Nie jest sugerowane poparcie ze strony odpowiednich właścicieli znaków towarowych na skutek używania tych znaków.

Pobierz plik programu Visio tej architektury.

Przepływ danych

W poniższych sekcjach opisano, jak usługa OneLake służy jako strona główna danych na różnych etapach cyklu życia danych. OneLake to ujednolicona usługa klasy enterprise Data Lake wbudowana w Microsoft Fabric, która służy jako scentralizowana warstwa magazynowania dla wszystkich obciążeń danych, w tym Fabric Data Engineer, Fabric Data Factory, Fabric Data Science, Fabric Data Warehouse, Fabric Real-Time Intelligence, Fabric Databases i Power BI.

Lakehouse

Korzystaj z usługi Lakehouse , gdy potrzebujesz ujednoliconej, skalowalnej i elastycznej platformy. Idealnie nadaje się do zarządzania danymi ustrukturyzowanymi, częściowo ustrukturyzowanymi i bez struktury w celu obsługi analiz, uczenia maszynowego i raportowania. Organizuj dane za pomocą architektury medalonu i używaj warstw Brązowa (nieprzetworzona), Srebrna (zweryfikowana) i Złota (przygotowana do potrzeb biznesowych) między folderami i plikami, bazami danych i tabelami.

Magazyn

Użyj Data Warehouse, gdy potrzebujesz wydajnego, w pełni zarządzanego rozwiązania do analizy danych opartego na SQL, aby zarządzać danymi ustrukturyzowanymi i półustrukturyzowanymi, organizując je w bazach danych, schematach i tabelach. Ma pełną obsługę języka T-SQL, w tym tworzenie procedur składowanych, widoków i złączeń.

Eventhouse

Za pomocą magazynu zdarzeń można zarządzać danymi zdarzeń w czasie rzeczywistym i analizować je. Obsługuje ona dane ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane, takie jak dzienniki i dane telemetryczne, organizując je w bazach danych, schematach i tabelach.

Baza danych SQL w systemie Fabric

Użyj bazy danych SQL w Fabric, gdy trzeba ujednolicić obciążenia transakcyjne i analityczne. Działa na tym samym silniku co Azure SQL Database, zapewnia pełne wsparcie dla T-SQL i umożliwia integrację z szerszym ekosystemem Fabric.

Bazy danych platformy Azure, zewnętrzne źródła danych i relacyjne bazy danych

W tej sekcji wyjaśniono, jak przenieść dane z baz danych platformy Azure i platform, takich jak Azure Databricks, a także platform innych niż Microsoft, takich jak Snowflake, do usługi Fabric.

Ingest

Platforma Fabric udostępnia wiele metod pozyskiwania danych z relacyjnych baz danych. Użyj mirroringu, aby replikować istniejący zasób danych do usługi OneLake niemal w czasie rzeczywistym bez złożonych procesów wyodrębniania, przekształcania i ładowania (ETL). Aby uzyskać więcej informacji, zobacz Obsługiwane źródła danych do mirrorowania.

Potoki usługi Data Factory umożliwiają również pozyskiwanie danych z szerokiej gamy baz danych, zarówno lokalnych, jak i w chmurze. Aby pozyskać dane, można użyć różnych metod, takich jak działanie kopiowania, zadanie kopiowania lub przepływ danych Gen2. Te opcje zapewniają również możliwości orkiestracji, transformacji i planowania. Aby uzyskać więcej informacji, zobacz Obsługiwane łączniki.

W przypadku pozyskiwania danych opartych na języku SQL użyj funkcji języka T-SQL , aby ładować dane na dużą skalę z istniejących magazynów i magazynów typu lakehouse. Możesz utworzyć nowe wersje tabeli, które mają zagregowane dane, odfiltrowane podzestawy lub wyniki z złożonych zapytań.

Store

Funkcja dublowania umożliwia utworzenie repliki źródłowej bazy danych tylko do odczytu i ciągłe synchronizowanie jej z systemem źródłowym za pomocą replikacji niemal w czasie rzeczywistym. Odbicie lustrzane przechowuje dane w formacie Delta Lake w usłudze OneLake.

Możesz również użyć działania kopiowania danych lub zadania kopiowania z potoku Data Factory, aby przygotować dane skopiowane z relacyjnych baz danych do magazynu jeziorowego lub hurtowni danych. Architektura OneLake używa formatu usługi Delta Lake, który zapewnia elastyczność implementacji magazynów typu lakehouse przy użyciu platformy medalionu lub korzystania z modelu magazynu zgodnego z potrzebami organizacji.

Process

Każda dublowana baza danych zawiera automatycznie wygenerowany punkt końcowy SQL na potrzeby wykonywania zapytań. Punkt końcowy analizy SQL tylko do odczytu obsługuje dostęp za pośrednictwem programu SQL Server Management Studio, open database connectivity (ODBC), dowolnego narzędzia zapytań z parametrami połączenia SQL lub rozszerzenia MSSQL z programem Visual Studio Code (VS Code). Uruchom złożone agregacje przy użyciu języka T-SQL lub eksploruj dane przy użyciu notebooków Apache Spark. Zapytania obejmujące wiele baz danych umożliwiają uzyskiwanie dostępu do danych z rekonstruowanych baz danych i łączenie ich z innymi źródłami danych Fabric, takimi jak lakehouse’y i magazyny. Procedury składowane automatyzują logikę SQL na potrzeby przekształceń danych i agregacji, co zwiększa możliwość ponownego używania i scentralizowanie logiki dla powtarzających się zadań.

Funkcja dublowania tworzy pełną migawkę wybranych tabel z źródłowej bazy danych. Po początkowym załadowaniu Fabric używa przechwytywania zmian danych bazy danych (CDC) do śledzenia wstawiania, aktualizacji i usuwania. Stale replikuje te zmiany w usłudze OneLake z małym opóźnieniem i niemal synchronizacją w czasie rzeczywistym. Skróty do tabel dublowanych można tworzyć w usłudze Lakehouse i wykonywać zapytania za pośrednictwem notesów platformy Spark.

Przepływ danych Gen2 czyści i kształtuje analizowane dane przy jednoczesnym wykrywaniu niespójności schematu, wartości null lub wartości odstających. Po profilowaniu i przekształcaniu danych zapisz przetworzone dane w tabelach magazynu danych.

Notatniki Spark wzbogacają dane przez załadowanie ich z platformy lakehouse lub magazynów. Trenowanie lub ładowanie modeli uczenia maszynowego przy użyciu bibliotek, takich jak scikit-learn, XGBoost lub SynapseML. Używanie biblioteki MLflow do śledzenia eksperymentów i rejestrowania modeli. Ocenianie danych za pomocą skalowalnych przewidywań wsadowych i przewidywań w czasie rzeczywistym.

Serve

Dublowana baza danych generuje element dublowanej bazy danych SQL i punkt końcowy analizy SQL , którego można użyć do uruchamiania zapytań tylko do odczytu. Wyświetlanie danych za pośrednictwem podglądu danych lub eksplorowanie bezpośrednio w usłudze OneLake. Edytor zapytań SQL umożliwia tworzenie zapytań T-SQL względem danych w elemencie dublowanej bazy danych. Można uzyskać dostęp do zmirrorowanych danych, używając skrótu lakehouse i zapytań Spark do przetwarzania danych.

Zazwyczaj te dane będą dostępne w usłudze Power BI. W tym celu utwórz semantyczne modele , aby uprościć analizę danych biznesowych i relacji. Analitycy biznesowi używają raportów i pulpitów nawigacyjnych usługi Power BI do analizowania danych i uzyskiwania szczegółowych informacji biznesowych przy użyciu trybu Direct Lake dla usługi Lakehouse lub punktu końcowego SQL dla usługi Data Warehouse. Użyj funkcji Aktywacja danych , aby skonfigurować alerty dotyczące wizualizacji usługi Power BI, aby monitorować często zmieniające się metryki, definiować warunki alertów i otrzymywać powiadomienia e-mail lub Microsoft Teams.

Udostępnianie danych zewnętrznych w usłudze Fabric umożliwia użytkownikowi w jednej dzierżawie sieci szkieletowej (dostawcy) udostępnianie danych użytkownikowi w innej dzierżawie sieci szkieletowej (odbiorcy). Ta funkcja obsługuje współpracę między organizacjami przy zachowaniu granic ładu i zabezpieczeń. Konsumenci danych uzyskują dostęp do danych tylko do odczytu za pomocą skrótów OneLake we własnych magazynach typu lakehouse i własnych magazynach danych oraz w bazach danych SQL i ich kopii. Interfejs API sieci szkieletowej dla języka GraphQL uwidacznia dane z obsługiwanych źródeł danych sieci szkieletowej za pośrednictwem pojedynczego, elastycznego punktu końcowego interfejsu API. Ta funkcja jest idealna do tworzenia nowoczesnych aplikacji, które wymagają wydajnego, w czasie rzeczywistym dostępu do danych strukturalnych.

Modele uczenia maszynowego obsługują przewidywania w czasie rzeczywistym z dowolnego zarejestrowanego modelu uczenia maszynowego przy użyciu bezpiecznych, skalowalnych punktów końcowych uczenia maszynowego online , które są konfigurowane automatycznie. W przypadku wdrożenia natywnego dla Fabric w czasie rzeczywistym, te punkty końcowe są wbudowanymi właściwościami większości modeli Fabric. Można je wywoływać z innych silników Fabric lub aplikacji zewnętrznych dla szerokiego i niezawodnego wykorzystania. Agent danych platformy Fabric oferuje interfejs konwersacyjny z danymi z magazynu typu lakehouse lub warehouse, przekształcając zapytania w języku naturalnym na adekwatne zapytania. Copilot in Fabric przekształca pytania języka naturalnego w język SQL, naprawia błędy, zawiera wyjaśnienia zapytań SQL i pomaga w uzupełnianiu kodu.

Platforma danych oparta na chmurze dla usługi Dataverse

W tej sekcji wyjaśniono, jak przenieść dane z usługi Dataverse do Fabric.

Ingest

Dataverse Link to Fabric udostępnia dane Dynamics 365 i Dataverse niemal w czasie rzeczywistym w usłudze Fabric, bez konieczności kopiowania danych ani ETL. Dzięki usłudze Dataverse Link do sieci szkieletowej inżynierowie danych mogą wykonywać zapytania dotyczące danych przy użyciu języka SQL, stosować sztuczną inteligencję, łączyć zestawy danych, przekształcać informacje i tworzyć podsumowania bezpośrednio w usłudze Fabric.

Store

Gdy używasz funkcji Dataverse Link do Fabric, Dataverse tworzy lakehouse w OneLake, który zawiera skróty do tabel Dataverse, bez konieczności fizycznego przenoszenia danych.

Process

Wyświetl usługę Lakehouse wygenerowaną przez usługę Dataverse , aby eksplorować tabele połączone ze środowiskiem usługi Dataverse. Wykonywanie zapytań dla lakehouse wygenerowanego przez Dataverse przy użyciu punktu końcowego SQL, eksplorowanie danych za pomocą notatników Spark oraz uzyskiwanie dostępu do danych przez SQL Server Management Studio lub edytor SQL. Odnosić się do danych usługi Dataverse w innych magazynach typu lakehouse, używając skrótów w celu ponownego wykorzystania tych samych danych bez ich kopiowania lub duplikowania.

Wzbogacanie danych za pomocą narzędzia Data Wrangler, narzędzia niskokodowego i bezkodowego w Fabric notebooks. Umożliwia ona eksplorowanie, przygotowywanie i kształtowanie danych na potrzeby eksploracyjnej analizy. Operacje generują kod w bibliotece pandas lub PySpark i można zapisać kod w notebooku jako funkcję wielokrotnego użytku.

Serve

Skróty do tabel Dataverse utworzonych w usłudze OneLake obsługują format usługi Delta Lake. Można wprowadzić te dane do raportu Power BI z domyślnego zestawu danych generowanego przez usługę Dataverse w obszarze roboczym Fabric.

Możesz również użyć Data Activator, aby skonfigurować alerty dotyczące wizualizacji w Power BI, monitorować często zmieniające się metryki, definiować warunki alertów i otrzymywać powiadomienia e-mail lub Teams.

Źródła danych z częściową strukturą i nieustrukturyzowane

W tej sekcji opisano sposób wprowadzania częściowo ustrukturyzowanych i nieustrukturyzowanych danych do Fabric.

Ingest

Potoki usługi Data Factory umożliwiają pobieranie danych z szerokiego zakresu półstrukturalnych źródeł dostępnych lokalnie i w chmurze. Aby ściągnąć dane, możesz użyć różnych metod, takich jak działanie kopiowania, zadanie kopiowania, Dataflow Gen2, Notesy Spark lub przesyłanie plików do lakehouse. Rozważ następujące obsługiwane źródła:

  • Wczytywane dane ze źródeł plikowych zawierające pliki CSV lub JSON

  • Pliki XML ze starszych systemów

  • Pliki Parquet z kont pamięci masowej

  • PDF, MP3, obrazy, dzienniki, dokumenty i inne pliki binarne

  • Fabric REST API jako źródło danych dla potoku

Użyj instrukcji COPY INTO , aby pozyskiwać dane z zewnętrznego konta magazynu na potrzeby obciążeń SQL o wysokiej przepływności. Deklaracja obsługuje formaty plików Parquet i CSV. Tworzenie skrótów w usłudze OneLake do źródeł zewnętrznych, w tym usługi Azure Data Lake Storage, kont magazynu usługi Amazon Simple Storage Service (AWS S3), kont usługi Google Cloud Storage i innych obsługiwanych opcji magazynu zewnętrznego w celu umożliwienia dostępu bez kopiowania i uniknięcia duplikowania. Programowe lub ręczne przekazywanie plików do folderu lakehouse. Wyzwalaj potoki po nadejściu nowych plików przy użyciu orkiestracji opartej na zdarzeniach sieci Szkieletowej.

Store

Zorganizuj swoje dane w ujednoliconym jeziorze danych Fabric OneLake. Postępuj zgodnie z najlepszymi rozwiązaniami dotyczącymi tworzenia warstw, struktur folderów, które mają być używane w każdej warstwie i które formaty plików mają być używane w każdym scenariuszu analizy. Przechowuj dane bez struktury w strefie Brązowe, aby zachować nieprzetworzone dane w oryginalnym formacie. Użyj systemu przechowywania zdarzeń do składowania danych telemetrycznych, dzienników lub szeregów czasowych.

Process

Notatniki platformy Spark analizują i przekształcają dane półstrukturalne. Na przykład można spłaszczać zagnieżdżone struktury JSON, konwertować kod XML na format tabelaryczny lub wyodrębniać pola kluczy z plików dziennika. Notesy platformy Spark wyodrębniają również zawartość i przekształcają dane bez struktury za pomocą ramek danych platformy Spark.

Ładowanie danych za pomocą T-SQL ładuje dane z istniejących tabel w magazynach typu lakehouse lub warehouse usługi Fabric. Dataflow Gen2 czyści i kształtuje parsowane dane, gdy wykrywa niespójności schematu, puste wartości lub wartości odstające. Po profilowaniu i przekształcaniu danych zapisz je w tabelach lakehouse. Wewnętrzne skróty w referencyjnych danych Fabric przechowywanych w Lakehouse.

Notatniki Spark wzbogacają dane podczas ich przetwarzania. Załaduj dane z magazynów lub magazynów typu lakehouse, a następnie wytrenuj lub załaduj modele uczenia maszynowego przy użyciu bibliotek, takich jak scikit-learn, XGBoost lub SynapseML. Platforma MLflow śledzi eksperymenty i rejestruje modele. Ocenianie danych przy użyciu skalowalnych przewidywań wsadowych lub przewidywań w czasie rzeczywistym.

Serve

Język T-SQL wysyła zapytania do tabel typu lakehouse za pośrednictwem punktu końcowego analizy SQL usługi Fabric. Punkt końcowy analizy SQL obsługuje modele semantyczne i raporty usługi Power BI. Tryb Direct Lake zapewnia analizę o wysokiej wydajności. Możesz również skonfigurować alerty dotyczące wizualizacji Power BI przy użyciu narzędzia Data Activator, aby monitorować metryki często zmieniające się, definiować warunki alertów i otrzymywać powiadomienia email lub Teams.

Udostępnianie danych zewnętrznych w usłudze Fabric umożliwia użytkownikowi w jednej dzierżawie sieci szkieletowej (dostawcy) udostępnianie danych użytkownikowi w innej dzierżawie sieci szkieletowej (odbiorcy). Ta funkcja obsługuje współpracę między organizacjami, zachowując ład i granice zabezpieczeń. Użytkownicy danych mają dostęp do danych tylko do odczytu przy użyciu skrótów OneLake we własnych lakehouse'ach.

Interfejs API sieci szkieletowej dla języka GraphQL uwidacznia dane z obsługiwanych źródeł danych sieci szkieletowej za pośrednictwem pojedynczego, elastycznego punktu końcowego interfejsu API. Takie podejście jest idealne do tworzenia nowoczesnych aplikacji, które wymagają wydajnego, w czasie rzeczywistym dostępu do danych ustrukturyzowanych.

Obsługa przewidywań w czasie rzeczywistym z dowolnego zarejestrowanego modelu uczenia maszynowego przy użyciu bezpiecznych, skalowalnych punktów końcowych uczenia maszynowego w trybie online, które są automatycznie konfigurowane. W przypadku natywnego wdrożenia w czasie rzeczywistym dla systemu Fabric użyj tych punktów końcowych jako wbudowanych właściwości większości modeli Fabric. Można je wywoływać z innych silników Fabric lub aplikacji zewnętrznych, aby zapewnić niezawodne i szerokie wykorzystanie. Utwórz model semantyczny na podstawie danych przewidywania i wizualizuj wyniki w raporcie usługi Power BI.

Agent danych Fabric to dostosowywalny interfejs konwersacyjny oparty na sztucznej inteligencji, który tłumaczy zapytania języka naturalnego na użyteczne informacje dotyczące danych usługi OneLake. Copilot upraszcza zadania analizy danych i wizualizacji. Zadaj pytania dotyczące tabel typu lakehouse, biblioteki pandas i ramek danych platformy Spark bezpośrednio w notesach. Copilot odpowiada za pomocą wyjaśnień języka naturalnego. Użytkownicy biznesowi mogą za pomocą okienka Copilot zadawać pytania dotyczące zawartości raportu i szybko podsumowywać kluczowe szczegółowe informacje. Mogą również użyć sekcji Copilot, aby odnaleźć informacje, do których już mają dostęp.

Streaming

W tej sekcji opisano sposób przesyłania danych strumieniowych szeregów czasowych o wysokim wolumenie do Fabric.

Ingest

Użyj Real-Time Intelligence do pozyskiwania danych w czasie rzeczywistym za pośrednictwem strumienia zdarzeń. Pobierz dane z szerokiego zakresu źródeł danych, takich jak urządzenia Internetu Rzeczy (IoT), aplikacje, zewnętrzne huby zdarzeń i wydarzenia Fabric, takie jak zdarzenia elementów przestrzeni roboczej, zdarzenia OneLake oraz zdarzenia związane z zadaniami. Jeśli musisz odwołać się do źródłowej bazy danych języka zapytań Kusto (KQL), takiej jak istniejąca baza danych usługi Azure Data Explorer w usłudze Real-Time Intelligence, możesz utworzyć skrót bazy danych , aby uzyskać dostęp do danych bez duplikowania lub ponownego pozyskiwania.

Store

Eventstream obsługuje trasowanie danych do różnych celów. Przechowuj duże ilości danych w magazynie zdarzeń, który jest rozwiązaniem magazynu o wysokiej wydajności, zoptymalizowanym i skalowalnym. Bazę danych KQL można utworzyć w eventhouse, który jest wyspecjalizowaną bazą danych zaprojektowaną do analizy danych opartych na zdarzeniach z użyciem języka KQL.

Process

Użyj zestawu zapytań KQL , aby zapisywać, uruchamiać zapytania KQL i zarządzać nimi w różnych źródłach danych w czasie rzeczywistym. Zestaw zapytań KQL to centralne narzędzie w kontekście analizy w czasie rzeczywistym. Umożliwia użytkownikom eksplorowanie, analizowanie i wizualizowanie danych przesyłania strumieniowego lub szeregów czasowych. Do wykonywania zapytań dotyczących danych przesyłanych strumieniowo przechowywanych w bazach danych KQL można użyć języka T-SQL w Real-Time Intelligence . Język KQL to język podstawowy do analizy w czasie rzeczywistym, ale usługa Fabric obsługuje również język T-SQL dla użytkowników zaznajomionych z analizą opartą na języku SQL.

W przypadku przetwarzania między aparatami włącz dostępność usługi OneLake, aby utworzyć logiczną kopię danych bazy KQL. Możesz wykonywać zapytania dotyczące danych w formacie Delta Lake z innych silników Fabric, takich jak tryb Direct Lake w usłudze Power BI, magazynach danych, magazynach typu lakehouse i notesach.

Serve

Analitycy biznesowi mogą utworzyć pulpit nawigacyjny analizy Real-Time, który jest kolekcją kafelków opartych na zapytaniach KQL. Kafelki można organizować na stronach i łączyć je ze źródłami danych. Pulpit nawigacyjny zostanie automatycznie zaktualizowany, co zapewnia niemal natychmiastowy wgląd w dane w miarę przepływu przez system. Możesz również dodać Data Activator do kafelka pulpitu nawigacyjnego, aby monitorować często zmieniające się metryki. Możesz definiować warunki alertów i otrzymywać powiadomienia e-mail lub Teams. Utwórz raport usługi Power BI, aby wygenerować raporty na podstawie modeli semantycznych utworzonych na podstawie bazy danych KQL jako źródła.

Udostępnianie danych zewnętrznych sieci szkieletowej umożliwia użytkownikowi w jednej dzierżawie sieci szkieletowej (dostawcy) udostępnianie danych użytkownikowi w innej dzierżawie sieci szkieletowej (odbiorcy). Obsługuje on współpracę między organizacjami przy zachowaniu granic ładu i zabezpieczeń. Użytkownicy danych uzyskują dostęp do danych tylko do odczytu za pomocą skrótów OneLake we własnych bazach danych KQL.

Agent danych sieci szkieletowej może współpracować z bazami danych KQL, aby umożliwić użytkownikom zadawanie pytań, co sprawia, że dane w czasie rzeczywistym są łatwe w użyciu dla użytkowników nietechnicznych. Copilot może tłumaczyć zapytania języka naturalnego na język KQL, które można uruchomić.

Components

Ta architektura korzysta z następujących usług sieci szkieletowych i usług platformy Azure:

  • Copilot in Fabric to generacyjny asystent sztucznej inteligencji osadzony na platformie Fabric. W tej architekturze ułatwia tworzenie skalowalnych potoków danych, tworzenie kodu Platformy Spark na potrzeby przekształceń danych, generowanie zoptymalizowanego języka SQL dla usługi Data Warehouse, pisanie zapytań KQL na potrzeby analizy Real-Time oraz tworzenie modeli semantycznych i miar języka DAX (Data Analysis Expressions) na potrzeby raportowania.

  • Agent danych Fabric to funkcja oparta na sztucznej inteligencji, która ułatwia użytkownikom interakcję z danymi organizacji przy użyciu języka naturalnego. W tej architekturze agenci danych służą jako interfejs konwersacyjny do tłumaczenia pytań w języku naturalnym na zapytania ustrukturyzowane, takie jak SQL, DAX lub KQL.

  • Microsoft Purview to ujednolicona platforma do zapewniania ładu, zabezpieczeń i zgodności danych. W tej architekturze usługa Microsoft Purview zarządza całym zasobem danych i linią danych od źródła danych do raportu Power BI.

  • Zewnętrzne udostępnianie danych Fabric to funkcja umożliwiająca bezpieczną współpracę między tenantami, pozwalając użytkownikom udostępniać dane ze swojego środowiska Fabric użytkownikom w innym tenantcie Fabric. W tej architekturze organizacje mogą współpracować w granicach dzierżaw bez duplikowania danych.

  • Interfejs API sieci szkieletowej dla języka GraphQL to funkcja, która umożliwia deweloperom udostępnianie danych i interakcję z nimi przy użyciu języka zapytań GraphQL. W tej architekturze umożliwia użytkownikom tworzenie aplikacji danych.

  • Real-Time Intelligence to oparte na zdarzeniach rozwiązanie analityczne przeznaczone do przetwarzania, analizowania i wykonywania działań na danych przesyłanych strumieniowo. W tej architekturze przetwarza ona duże ilości danych przesyłanych strumieniowo i udostępnia pulpity nawigacyjne w czasie rzeczywistym złożone z kafelków, które wizualizują bazowe zapytania.

  • Usługa Power BI to platforma analizy biznesowej i wizualizacji danych. W tej architekturze łączy się z usługą OneLake w celu tworzenia pulpitów nawigacyjnych i raportów.

  • Microsoft Foundry to ujednolicona platforma jako usługa (PaaS) służąca do tworzenia, wdrażania i zarządzania aplikacjami i agentami sztucznej inteligencji w skali przedsiębiorstwa. W tej architekturze agenci platformy Foundry wzbogacają i umożliwiają działanie wielu systemów agentów, a agenci danych Fabric pełnią rolę ekspertów w danej dziedzinie wraz z innymi agentami.

  • Azure Machine Learning to usługa w chmurze klasy korporacyjnej służąca do zarządzania całym cyklem życia uczenia maszynowego, od przygotowywania i eksperymentowania danych do trenowania, wdrażania i monitorowania modeli. W tej architekturze można umożliwić użytkownikom uruchamianie modeli uczenia maszynowego przy użyciu punktów końcowych wsadowych. Skróty OneLake umożliwiają usługom Machine Learning i Fabric współdzielenie tej samej podstawowej instancji magazynu danych Data Lake, dzięki czemu obie usługi mogą odczytywać i zapisywać dane bez ich powielania.

  • Microsoft Cost Management to usługa, która ułatwia śledzenie, analizowanie i optymalizowanie faktur zasobów platformy Microsoft Azure. W tej architekturze analiza kosztów i faktura w usłudze Cost Management wyświetlają wiele mierników skojarzonych z zasobem pojemności Fabric.

  • Azure Key Vault to oparta na chmurze usługa do bezpiecznego przechowywania poufnych informacji, takich jak wpisy tajne, klucze i certyfikaty, oraz zarządzanie nimi. W tej architekturze zarządza poświadczeniami używanymi w połączeniach Fabric i bramach.

  • Azure Policy to narzędzie do zapewniania ładu, które wymusza reguły ładu w zasobach platformy Azure. W tej architekturze zapewnia ona zgodność, nadzór nad danymi i kontrolę kosztów na platformie danych sieci szkieletowej.

  • Microsoft Entra ID to oparte na chmurze rozwiązanie do zarządzania tożsamościami i dostępem, które zapewnia bezpieczny dostęp dla użytkowników, urządzeń i obciążeń. W tej architekturze umożliwia użytkownikom logowanie się do platformy Fabric przy użyciu poświadczeń Microsoft Entra, jednocześnie zapewniając kontrolę dostępu Zero Trust.

  • Azure DevOps to pakiet narzędzi programistycznych i usług, które firma Microsoft udostępnia w celu obsługi całego cyklu życia tworzenia oprogramowania. W tej architekturze usługa Azure DevOps integruje się z obszarami roboczymi usługi Fabric w celu zarządzania cyklem życia i zapewniania kontroli źródła.

  • GitHub to oparta na chmurze platforma do kontroli wersji i współpracy, która umożliwia deweloperom przechowywanie i śledzenie zmian w kodzie oraz zarządzanie nimi. W tej architekturze usługa GitHub integruje się z obszarami roboczymi usługi Fabric w celu zapewnienia obsługi zarządzania cyklem życia i kontroli źródła.

  • Funkcja monitorowania obszaru roboczego w Fabric umożliwia zbieranie, analizowanie i wizualizowanie dzienników oraz metryk z elementów Fabric w obszarze roboczym. Ta architektura pomaga przeprowadzać diagnozę zapytań w środowisku Fabric, identyfikację problemów, tworzenie dostosowanych pulpitów monitorujących i ustawianie alertów.

Alternatives

Platforma udostępnia zestaw narzędzi do wydajnego zarządzania obciążeniami związanymi z danymi i analizą. Dzięki tak wielu dostępnym opcjom wybranie odpowiedniego narzędzia może być trudne. Te przewodniki po decyzjach zawierają plan, który pomoże Ocenić wybory i określić najbardziej efektywną strategię.

Szczegóły scenariusza

W tym przykładowym scenariuszu pokazano, jak sieć szkieletowa ułatwia przedsiębiorstwom tworzenie ujednoliconej, nowoczesnej platformy danych, która upraszcza integrację, przyspiesza szczegółowe informacje i zmniejsza złożoność operacyjną. Pomaga to organizacjom przezwyciężyć typowe wyzwania związane z danymi, jednocześnie zwiększając skalowalność, ład i efektywność kosztową.

Potencjalne przypadki użycia

  • Modernizowanie platformy danych przedsiębiorstwa przez zastąpienie pofragmentowanych narzędzi ujednoliconym rozwiązaniem.

  • Ustanów architekturę typu medallion lake przy użyciu Fabric lakehouses, z warstwą Brązową na potrzeby pozyskiwania nieprzetworzonych danych, warstwą Srebrną do czyszczenia i przekształcania danych oraz warstwą Złotą dla danych gotowych do zastosowania biznesowego używanych w analizie i sztucznej inteligencji. Twórz magazyny jako rozwiązania specyficzne dla dziedziny lub domeny, zaprojektowane dla tematów wymagających dostosowanej analizy.

  • Integruj relacyjne źródła danych z nieustrukturyzowanymi zbiorami danych, korzystając z aparatów obliczeniowych Fabric.

  • Dostarczaj analizę operacyjną w czasie rzeczywistym, aby monitorować i podejmować działania na danych przesyłanych strumieniowo za pomocą technologii Real-time Intelligence.

  • Generowanie szczegółowych informacji o klientach opartych na sztucznej inteligencji w celu wzbogacania danych i napędzania wartości biznesowych.

  • Zapewnienie raportowania dla przedsiębiorstw i samoobsługowej analizy danych biznesowych za pomocą modelowania semantycznego i zaawansowanych narzędzi wizualizacji.

  • Włącz udostępnianie danych między dzierżawami za pomocą skrótów OneLake i usługi zewnętrznego udostępniania danych.

  • Integrowanie agentów danych sieci szkieletowej z usługą Azure AI Foundry lub Microsoft Copilot Studio w celu tworzenia inteligentnych, konwersacyjnych i kontekstowych rozwiązań sztucznej inteligencji dla użytkowników biznesowych i aplikacji.

Recommendations

Rozważmy następujące zalecenia.

Odnajdywanie i zarządzanie

Nadzór nad danymi jest częstym wyzwaniem w dużych środowiskach przedsiębiorstwa. Analitycy biznesowi muszą odnajdywać i rozumieć zasoby danych w celu rozwiązywania problemów biznesowych, podczas gdy dyrektorzy danych szukają szczegółowych informacji na temat prywatności i bezpieczeństwa danych biznesowych.

Microsoft Purview

Nadzór nad danymi usługi Microsoft Purview składa się z dwóch rozwiązań. Ujednolicony wykaz i mapa danych zapewniają nowoczesne środowisko zapewniania ładu, konsolidując metadane z różnych katalogów i źródeł. Ta integracja umożliwia widoczność, zwiększa pewność danych i wspiera odpowiedzialne innowacje w całym przedsiębiorstwie.

Zachowaj terminy słownika z konkretną terminologią biznesową, którą użytkownicy potrzebują do zrozumienia semantyki i wykorzystania zestawów danych w całej organizacji. Rejestruj źródła danych i organizuj je w kolekcje, które również służą jako granice zabezpieczeń metadanych. Skonfiguruj regularne skanowania , aby automatycznie katalogować i aktualizować odpowiednie metadane dotyczące zasobów danych organizacji. Gdy dzierżawa Fabric jest skanowana, metadane i pochodzenie z zasobów Fabric, w tym Power BI, są automatycznie pozyskiwane do ujednoliconego wykazu danych usługi Microsoft Purview. Automatyczne przypisywanie etykiet klasyfikacji danych i poufności danych do zasobów danych na podstawie wstępnie skonfigurowanych lub niestandardowych reguł podczas skanowania.

Zarządzanie kondycją ujednoliconego wykazu umożliwia monitorowanie ogólnej kondycji środowiska danych i ochronę organizacji przed zagrożeniami bezpieczeństwa i prywatnością. Wbudowane centrum Microsoft Purview w ramach Fabric zapewnia wgląd w spis danych, etykiety poufności i rekomendacje. Służy jako brama do łączenia się z szerszymi możliwościami usługi Microsoft Purview.

Usługi platformy

Platforma obsługuje kilka wzorców wdrażania, które ułatwiają organizacjom dostosowanie architektury danych do potrzeb biznesowych, modeli ładu i wymagań dotyczących wydajności. Te wzorce są definiowane na poziomie dzierżawy, pojemności, obszaru roboczego i elementów wdrożenia. Każdy wzorzec zapewnia różne kompromisy w skalowalności, izolacji, kosztach i złożoności operacyjnej.

Projekt obejmuje kilka podstawowych usług platformy Azure. Microsoft Entra ID zapewnia usługi tożsamości, logowanie jednokrotne i uwierzytelnianie wieloskładnikowe w obciążeniach platformy Azure. Usługa Cost Management zapewnia nadzór finansowy dla obciążeń platformy Azure. Usługa Key Vault bezpiecznie zarządza poświadczeniami i certyfikatami. Podczas konfigurowania magazynu kluczy w usłudze Fabric można pobrać poświadczenia i certyfikaty z usługi Key Vault. Te poświadczenia służą do uzyskiwania dostępu do magazynów danych, które nie obsługują zintegrowanego uwierzytelniania, takiego jak lokalne lub zewnętrzne źródła.

Usługa Azure Monitor zbiera, analizuje i działa na podstawie danych telemetrycznych z zasobów platformy Azure, aby aktywnie identyfikować problemy i maksymalizować wydajność i niezawodność. Usługi Azure DevOps i GitHub Enterprise implementują operacje deweloperskie (DevOps), aby wymuszać automatyzację i zgodność w potokach tworzenia i wdrażania obciążeń Fabric. Takie podejście umożliwia kontrolę wersji, współpracę i zarządzanie cyklem życia. Usługa Azure Policy wymusza standardy organizacyjne i ład, aby zapewnić spójność zasobów, zgodność z przepisami, zabezpieczenia, kontrolę kosztów i zarządzanie.

Considerations

Te zagadnienia obejmują implementację filarów platformy Azure Well-Architected Framework, która jest zestawem wytycznych, których można użyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Well-Architected Framework.

Optymalizacja kosztów

Optymalizacja kosztów koncentruje się na sposobach zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dotycząca optymalizacji kosztów.

Aby oszacować koszty, zobacz Cennik. Idealna warstwa cenowa i całkowity koszt każdej usługi w architekturze zależą od ilości przetwarzanych i przechowywanych danych oraz oczekiwanego poziomu wydajności. Skorzystaj z następującego przewodnika, aby zapoznać się z najlepszymi strategiami optymalizacji kosztów dla Fabric.

  • Pojemność sieci Fabric to udostępniona pula, która obsługuje wszystkie możliwości systemu Fabric, od inżynierii danych i magazynowania danych po modelowanie danych, analizę biznesową i sztuczną inteligencję. Firma Microsoft wycenia jednostki pojemności (CU) według godziny z opcją płacenia za rzeczywiste użycie lub z opcją rezerwacji. Płatność zgodnie z rzeczywistym użyciem zapewnia elastyczność płacenia tylko za godziny korzystania z pojemności obliczeniowej. Można wstrzymać wydajność, gdy nie jest używana, aby kontrolować koszty, bez konieczności miesięcznego lub rocznego zobowiązania. Rezerwacje zapewniają przewidywalne rozliczenia oraz zwykle umożliwiają oszczędności dla stabilnych obciążeń. Magazyn OneLake umożliwia przetrzymywanie jednej kopii danych dla wszystkich silników analitycznych, bez konieczności przenoszenia lub duplikowania danych.

  • Narzędzie do szacowania pojemności Fabric pomaga oszacować potrzeby pojemności i określić odpowiednie wymagania dotyczące jednostki SKU oraz przechowywania na podstawie charakterystyki obciążeń. Monitoruj zużycie i konsumpcję za pomocą aplikacji Metryki pojemności Fabric, aby pokazać wykorzystanie pojemności. Usługa Cost Management śledzi użycie i ustawia alerty budżetowe. Aby uzyskać więcej informacji, zobacz Zrozumienie rachunku za korzystanie z platformy Azure dla pojemności Fabric. Przewodniki dotyczące pojemności Fabric udostępniają zasoby do monitorowania i proaktywnego optymalizowania wykorzystania pojemności.

  • Aplikacja Fabric Chargeback (wersja zapoznawcza) pomaga organizacjom w śledzeniu, analizowaniu i przydzielaniu kosztów użycia zasobów między jednostki biznesowe, użytkowników i obciążenia korzystające z Fabric. Obsługuje modele chargeback i showback, umożliwiając przejrzysty i sprawiedliwy rozkład kosztów na podstawie rzeczywistego zużycia. Cennik usługi Microsoft Purview zależy od liczby zasobów danych w katalogu i mocy obliczeniowej wymaganej do ich skanowania.

Doskonałość operacyjna

Doskonałość operacyjna obejmuje procesy operacyjne, które wdrażają aplikację i działają w środowisku produkcyjnym. Aby uzyskać więcej informacji, zobacz Lista kontrolna projektu dotycząca doskonałości operacyjnej.

Contributors

Firma Microsoft utrzymuje ten artykuł. Następujący współautorzy napisali ten artykuł.

Główni autorzy:

Aby wyświetlić niepubliczne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Dalsze kroki