Udostępnij przez


Odwzorowanie usługi Azure Cosmos DB

Odwzorowanie w usłudze Microsoft Fabric zapewnia bezproblemowe środowisko bez ETL do integracji istniejących danych usługi Azure Cosmos DB z resztą danych w usłudze Microsoft Fabric dla prawdziwego hybrydowego przetwarzania transakcyjno-analitycznego (HTAP) z pełną izolacją obciążeń między systemami transakcyjnymi i analitycznymi. Dane usługi Azure Cosmos DB są stale replikowane bezpośrednio do usługi Fabric OneLake niemal w czasie rzeczywistym, bez wpływu na wydajność obciążeń transakcyjnych lub zużywających jednostki żądań (RU).

Dane w usłudze OneLake są przechowywane w formacie różnicowym typu open source i automatycznie udostępniane wszystkim aparatom analitycznym w sieci szkieletowej.

Wbudowane funkcje usługi Power BI umożliwiają uzyskiwanie dostępu do danych w usłudze OneLake w trybie DirectLake. Dzięki Copilot ulepszeniom w usłudze Fabric możesz użyć możliwości generowania sztucznej inteligencji, aby uzyskać kluczowe szczegółowe informacje na temat danych biznesowych. Oprócz usługi Power BI można używać języka T-SQL do uruchamiania złożonych zagregowanych zapytań lub używania platformy Spark do eksploracji danych. Możesz bezproblemowo uzyskiwać dostęp do danych w notesach i używać nauki o danych do tworzenia modeli uczenia maszynowego.

Ważne

Obecnie obsługiwane są tylko konta usługi Azure Cosmos DB for NoSQL.

Dlaczego warto używać dublowania w sieci szkieletowej?

W przypadku dublowania w sieci szkieletowej nie trzeba łączyć różnych usług od wielu dostawców. Zamiast tego możesz korzystać z wysoce zintegrowanego, kompleksowego i łatwego w użyciu produktu, który został zaprojektowany w celu uproszczenia potrzeb analitycznych i skompilowania pod kątem otwartości.

Jeśli szukasz raportów analizy biznesowej lub analizy danych operacyjnych w usłudze Azure Cosmos DB, dublowanie zapewnia:

  • Brak etL, ekonomiczny dostęp niemal w czasie rzeczywistym do danych usługi Azure Cosmos DB bez wpływu na użycie jednostek żądania
  • Łatwość noszenia danych między różnymi źródłami w usłudze Fabric OneLake
  • Optymalizacje tabeli delta z kolejnością wirtualną dla błyskawicznych operacji odczytu
  • Integracja jednym kliknięciem z usługą Power BI z usługą Direct Lake i Copilot
  • Rozbudowane szczegółowe informacje biznesowe dzięki dołączaniu danych do różnych źródeł
  • Bogatsza integracja aplikacji w celu uzyskiwania dostępu do zapytań i widoków

Dane usługi OneLake są przechowywane w formacie usługi Delta Lake typu open source, co umożliwia używanie ich z różnymi rozwiązaniami w firmie Microsoft i poza nią. Ten format danych ułatwia tworzenie pojedynczego majątku danych dla potrzeb analitycznych.

Jakie środowiska analityczne są wbudowane?

Dublowane bazy danych są elementem w magazynie danych sieci szkieletowej odrębnym od punktu końcowegomagazynu i analizy SQL.

Diagram dublowania sieci szkieletowej dla usługi Azure Cosmos DB.

Każdy element dublowany usługi Azure Cosmos DB tworzy te elementy, z którymi można korzystać w obszarze roboczym sieci szkieletowej:

  • Element dublowanej bazy danych. Dublowanie zarządza replikacją danych do usługi OneLake i konwersją na Parquet w formacie gotowym do analizy. Umożliwia to wykonywanie scenariuszy podrzędnych, takich jak inżynieria danych, nauka o danych i nie tylko.
  • Punkt końcowy analizy SQL, który jest generowany automatycznie

Dublowana baza danych

Dublowana baza danych pokazuje stan replikacji oraz kontrolki, które mają zatrzymać lub uruchomić replikację w usłudze Fabric OneLake. Możesz również wyświetlić źródłową bazę danych w trybie tylko do odczytu przy użyciu Eksploratora danych usługi Azure Cosmos DB. Za pomocą Eksploratora danych możesz wyświetlać kontenery w źródłowej bazie danych usługi Azure Cosmos DB i wykonywać względem nich zapytania. Te operacje zużywają jednostki żądań (RU) z konta usługi Azure Cosmos DB. Wszelkie zmiany źródłowej bazy danych są natychmiast odzwierciedlane w widoku źródłowej bazy danych sieci Szkieletowej. Zapisywanie w źródłowej bazie danych nie jest dozwolone z sieci szkieletowej, ponieważ można wyświetlać tylko dane.

Punkt końcowy analizy SQL

Każda dublowana baza danych ma automatycznie wygenerowany punkt końcowy analizy SQL, który zapewnia zaawansowane środowisko analityczne na podstawie tabel delty usługi OneLake utworzonych przez proces dublowania. Masz dostęp do znanych poleceń języka T-SQL, które mogą definiować obiekty danych i wykonywać względem niego zapytania, ale nie manipulować danymi z punktu końcowego analizy SQL, ponieważ jest to kopia tylko do odczytu.

Następujące akcje można wykonać w punkcie końcowym analizy SQL:

  • Eksplorowanie tabel usługi Delta Lake przy użyciu języka T-SQL. Każda tabela jest mapowana na kontener z bazy danych usługi Azure Cosmos DB.
  • Tworzenie zapytań i widoków bez kodu oraz eksplorowanie ich wizualnie bez konieczności pisania wiersza kodu.
  • Dołączanie i wykonywanie zapytań o dane w innych dublowanych bazach danych, magazynach i usłudze Lakehouse w tym samym obszarze roboczym.
  • Raporty analizy biznesowej można łatwo wizualizować i tworzyć na podstawie zapytań LUB widoków SQL.

Oprócz edytora zapytań SQL istnieje szeroki ekosystem narzędzi. Te narzędzia obejmują rozszerzenie mssql z programem Visual Studio Code, programem SQL Server Management Studio (SSMS), a nawet usługą GitHub Copilot. Możesz doładować analizę i generowanie szczegółowych informacji z wybranego narzędzia.

Model semantyczny

Możesz utworzyć model semantyczny usługi Power BI w bazie danych, aby umożliwić tworzenie, udostępnianie i ponowne używanie metryk biznesowych. Aby uzyskać więcej informacji, zobacz Tworzenie modelu semantycznego usługi Power BI.

Jak działa replikacja niemal w czasie rzeczywistym?

Po włączeniu dublowania w bazie danych usługi Azure Cosmos DB operacje wstawiania, aktualizowania i usuwania danych przetwarzania transakcji online (OLTP) są stale replikowane do usługi Fabric OneLake na potrzeby analizy.

Funkcja ciągłej kopii zapasowej jest wymaganiem wstępnym do dublowania. Możesz włączyć 7-dniową lub 30-dniową ciągłą kopię zapasową na koncie usługi Azure Cosmos DB. Jeśli włączasz ciągłą kopię zapasową specjalnie na potrzeby dublowania, zalecane jest wykonywanie 7-dniowej ciągłej kopii zapasowej, ponieważ jest to bezpłatne.

Uwaga / Notatka

Dublowanie nie używa magazynu analitycznego ani zestawienia zmian usługi Azure Cosmos DB jako źródła przechwytywania danych zmian. Te możliwości można nadal używać niezależnie wraz z dublowaniem.

Replikacja danych usługi Azure Cosmos DB do usługi Fabric OneLake może potrwać kilka minut. W zależności od początkowej migawki danych lub częstotliwości aktualizacji/usuwania replikacja może również trwać dłużej w niektórych przypadkach. Replikacja nie ma wpływu na jednostki żądań przydzielone dla obciążeń transakcyjnych.

Czego można oczekiwać od dublowania

Istnieje kilka zagadnień i obsługiwanych scenariuszy, które należy wziąć pod uwagę przed dublowaniem.

Zagadnienia dotyczące konfiguracji

Aby zdublować bazę danych, należy ją już aprowizować na platformie Azure. Musisz włączyć ciągłą kopię zapasową na koncie jako wymaganie wstępne.

  • W danym momencie można dublować tylko każdą bazę danych pojedynczo. Możesz wybrać bazę danych do dublowania.
  • Tę samą bazę danych można dublować wiele razy w tym samym obszarze roboczym. Najlepszym rozwiązaniem jest ponowne użycie pojedynczej kopii bazy danych w magazynach typu lakehouse, magazynach lub innych dublowanych bazach danych. Nie musisz konfigurować wielu luster do tej samej bazy danych.
  • Tę samą bazę danych można również dublować w różnych obszarach roboczych lub dzierżawach usługi Fabric.
  • Możesz wybrać kontenery do dublowania w bazie danych.
  • Zmiany w kontenerach usługi Azure Cosmos DB, takie jak dodawanie nowych kontenerów i usuwanie istniejących, są bezproblemowo replikowane do sieci szkieletowej. Możesz rozpocząć dublowanie pustej bazy danych bez kontenerów, na przykład, a dublowanie bezproblemowo pobiera kontenery dodane w późniejszym punkcie w czasie.

Obsługa zagnieżdżonych danych

Zagnieżdżone dane są wyświetlane jako ciąg JSON w tabelach punktów końcowych analizy SQL. Do selektywnego rozszerzania tych danych można używać OPENJSONzapytań , CROSS APPLYi OUTER APPLY w zapytaniach języka T-SQL lub widokach. Jeśli używasz dodatku Power Query, możesz również zastosować funkcję w celu rozwinięcia ToJson tych danych.

Dzięki wnioskowaniu automatycznego schematu zagnieżdżone dane można spłaszczać OPENJSON bez konieczności jawnego definiowania zagnieżdżonego schematu. Jest to szczególnie przydatne w przypadku obciążeń z dynamicznymi lub nieprzewidywalnymi schematami zagnieżdżonych. Aby uzyskać więcej informacji, zobacz jak wykonywać zapytania dotyczące zagnieżdżonych danych.

Obsługa zmian schematu

Dublowanie automatycznie replikuje właściwości między elementami usługi Azure Cosmos DB z zmianami schematu. Wszystkie nowe właściwości odnalezione w elemencie są wyświetlane jako nowe kolumny, a brakujące właściwości , jeśli istnieją, są reprezentowane jako null w sieci szkieletowej.

Jeśli zmienisz nazwę właściwości w elemencie, tabele sieci szkieletowej zachowają zarówno stare, jak i nowe kolumny. Stara kolumna będzie zawierać wartość null, a nowa będzie zawierać najnowszą wartość dla wszystkich elementów replikowanych po operacji zmiany nazwy.

W przypadku zmiany typu danych właściwości w elementach usługi Azure Cosmos DB zmiany są obsługiwane w przypadku zgodnych typów danych, które można przekonwertować. Jeśli typy danych nie są zgodne z konwersją w funkcji Delta, są one reprezentowane jako wartości null.

Tabele punktów końcowych analizy SQL konwertują typy danych różnicowych na typy danych T-SQL.

Zduplikowane nazwy kolumn

Usługa Azure Cosmos DB obsługuje nazwy kolumn bez uwzględniania wielkości liter na podstawie standardu JSON. Funkcja dublowania obsługuje te zduplikowane nazwy kolumn, dodając _n do nazwy kolumny, gdzie n byłaby wartością liczbową.

Jeśli na przykład element usługi Azure Cosmos DB ma addressName unikatowe właściwości i AddressName jako unikatowe, tabele sieci szkieletowej mają odpowiednie addressName kolumny i AddressName_1 . Aby uzyskać więcej informacji, zobacz Ograniczenia replikacji.

Obsługa obciążeń sztucznej inteligencji

Funkcja dublowania w usłudze Azure Cosmos DB obsługuje konta korzystające z wyszukiwania wektorów i indeksowania, dzięki czemu obciążenia sztucznej inteligencji i uczenia maszynowego mogą w pełni korzystać z zaawansowanych analiz usługi Microsoft Fabric, a jednocześnie korzystać z możliwości wektorów o wysokiej wydajności usługi Azure Cosmos DB.

Aby uzyskać więcej informacji, zapoznaj się z dokumentacją dotyczącą wyszukiwania wektorów i indeksowania dla usług Cosmos DBi Fabric Data Science and AI Experiences.

Zabezpieczenia

Możesz nawiązać połączenie z kontem źródłowym przy użyciu identyfikatora Microsoft Entra i kontroli dostępu opartej na rolach lub kluczy na poziomie konta.

Jeśli używasz kluczy i obracasz lub ponownie generujesz klucze, musisz zaktualizować połączenia, aby upewnić się, że replikacja działa. Aby uzyskać więcej informacji, zobacz połączenia. Klucze konta nie są bezpośrednio widoczne dla innych użytkowników sieci Szkieletowej po skonfigurowaniu połączenia. Możesz ograniczyć, kto ma dostęp do połączeń utworzonych w usłudze Fabric. Zapisy nie są dozwolone w bazie danych usługi Azure Cosmos DB z eksploratora danych lub punktu końcowego analizy w dublowanej bazie danych. Dublowanie nie obsługuje obecnie uwierzytelniania przy użyciu kluczy kont tylko do odczytu.

W przypadku uwierzytelniania identyfikatora entra firmy Microsoft wymagane są następujące uprawnienia RBAC: Microsoft.DocumentDB/databaseAccounts/readMetadata & Microsoft.DocumentDB/databaseAccounts/readAnalytics. Aby uzyskać więcej informacji, zobacz dokumentację kontroli dostępu opartej na rolach płaszczyzny danych.

Wskazówka

Gdy dane są replikowane do usługi Fabric OneLake, należy również zabezpieczyć dostęp do tych danych.

Funkcje ochrony danych

Szczegółowe zabezpieczenia można skonfigurować w dublowanej bazie danych w usłudze Microsoft Fabric. Aby uzyskać więcej informacji, zobacz szczegółowe uprawnienia w usłudze Microsoft Fabric.

Filtry kolumn i filtry wierszy oparte na predykacie można zabezpieczyć w tabelach do ról i użytkowników w usłudze Microsoft Fabric:

Możesz również maskować poufne dane od użytkowników niebędących administratorami przy użyciu dynamicznego maskowania danych:

Bezpieczeństwo sieci

Konta usługi Azure Cosmos DB z sieciami wirtualnymi lub prywatnymi punktami końcowymi są obsługiwane z mirroringiem Fabric przy użyciu funkcji pomijania list ACL sieciowych. Dzięki temu autoryzowany obszar roboczy Fabric może uzyskiwać dostęp do konta usługi Cosmos DB bez konieczności używania bramy danych, jednocześnie zachowując zwiększone zabezpieczenia sieci. Aby uzyskać szczegółowe instrukcje dotyczące konfiguracji, zobacz Konfigurowanie sieci prywatnych dla dublowanych baz danych usługi Microsoft Fabric z usługi Azure Cosmos DB.

Usługa OneLake nie obsługuje obecnie kluczy zarządzanych przez klienta (CMK) w funkcji mirroringu.

Odzyskiwanie po awarii i opóźnienie replikacji

W sieci szkieletowej można wdrożyć zawartość w centrach danych w regionach innych niż region macierzysny dzierżawy sieci szkieletowej. Aby uzyskać więcej informacji, zobacz Obsługa wielu regionów geograficznych.

W przypadku konta usługi Azure Cosmos DB z podstawowym regionem zapisu i wieloma regionami odczytu funkcja dublowania wybiera region odczytu usługi Azure Cosmos DB najbliżej regionu, w którym skonfigurowano pojemność sieci szkieletowej. Ten wybór pomaga zapewnić replikację o małych opóźnieniach na potrzeby dublowania.

Po przełączeniu konta usługi Azure Cosmos DB do regionu odzyskiwania funkcja dublowania automatycznie wybiera najbliższy region usługi Azure Cosmos DB ponownie.

Uwaga / Notatka

Dublowanie nie obsługuje kont z wieloma regionami zapisu.

Dane usługi Cosmos DB replikowane do usługi OneLake muszą być skonfigurowane do obsługi awarii w całym regionie. Aby uzyskać więcej informacji, zobacz Odzyskiwanie po awarii w usłudze OneLake.

Eksplorowanie danych za pomocą dublowania

Dane dublowane można wyświetlać bezpośrednio i uzyskiwać do nich dostęp w usłudze OneLake. Możesz również bezproblemowo uzyskiwać dostęp do danych dublowanych bez dalszego przenoszenia danych.

Dowiedz się więcej na temat uzyskiwania dostępu do usługi OneLake przy użyciu interfejsów API lub zestawu SDK usługi ADLS Gen2, Eksploratora plików usługi OneLake i Eksploratora usługi Azure Storage.

Możesz nawiązać połączenie z punktem końcowym analizy SQL za pomocą narzędzi, takich jak SQL Server Management Studio (SSMS) lub używając sterowników, takich jak Microsoft Open Database Connectivity (ODBC) i Java Database Connectivity (JDBC). Aby uzyskać więcej informacji, zobacz Łączność punktów końcowych analizy SQL.

Dostęp do danych dublowanych można również uzyskać za pomocą usług, takich jak:

  • Usługi platformy Azure, takie jak Azure Databricks, Azure HDInsight lub Azure Synapse Analytics
  • Usługa Fabric Lakehouse korzystająca ze skrótów do scenariuszy inżynierii danych i nauki o danych
  • Inne dublowane bazy danych lub magazyny w obszarze roboczym Sieć szkieletowa

Możesz również tworzyć rozwiązania architektury medalonu, czyścić i przekształcać dane docelowe w dublowaną bazę danych jako warstwę z brązu. Aby uzyskać więcej informacji, zobacz obsługa architektury medalonu w usłudze Fabric.

Pricing

Zasoby obliczeniowe sieci szkieletowej używane do replikowania danych usługi Cosmos DB do usługi Fabric OneLake są bezpłatne. Magazyn w usłudze OneLake jest bezpłatny na podstawie rozmiaru pojemności. Aby uzyskać więcej informacji, zobacz Cennik usługi OneLake na potrzeby dublowania. Użycie zasobów obliczeniowych do wykonywania zapytań dotyczących danych za pośrednictwem usług SQL, Power BI lub Spark jest nadal naliczane na podstawie pojemności sieci szkieletowej.

Jeśli używasz eksploratora danych w funkcji dublowania sieci szkieletowej, naliczasz typowe koszty na podstawie użycia jednostek żądań (RU) w celu eksplorowania kontenerów i wykonywania zapytań o elementy w źródłowej bazie danych usługi Azure Cosmos DB. Funkcja ciągłej kopii zapasowej usługi Azure Cosmos DB jest wymaganiem wstępnym do dublowania: obowiązują standardowe opłaty za ciągłą kopię zapasową. Nie są naliczane dodatkowe opłaty za dublowanie w rozliczeniach ciągłej kopii zapasowej. Aby uzyskać więcej informacji, zobacz Cennik usługi Azure Cosmos DB.

Następny krok