Udostępnij przez


Co to jest usługa Data Factory w usłudze Microsoft Fabric?

Usługa Data Factory w usłudze Microsoft Fabric ułatwia rozwiązywanie jednego z najtrudniejszych wyzwań biznesowych: przekształcanie rozproszonych danych w przydatne szczegółowe informacje.

Dane organizacji są przechowywane w wielu różnych miejscach: bazy danych, pliki, usługi w chmurze i starsze systemy. To sprawia, że trudno uzyskać pełny obraz twojej firmy. Usługa Data Factory łączy się z ponad 170 źródłami danych, w tym środowiskami wielochmurowymi i konfiguracjami hybrydowymi z bramami lokalnymi. Ułatwia ona przenoszenie i przekształcanie danych na dużą skalę, przekształcając je w formaty, które dobrze sprawdzają się w analizie i podejmowaniu decyzji.

Diagram stosu integracji danych w usłudze Microsoft Fabric.

Diagram usługi Data Factory w usłudze Microsoft Fabric przedstawiający wybór łączników połączonych z narzędziami do analityki i przetwarzania danych w Fabric poprzez ruch, orkiestrację i transformację danych. To wszystko znajduje się na szczycie usługi Fabric OneLake, a cały stos jest tkany za pomocą analizy opartej na sztucznej inteligencji.

Niezależnie od tego, czy jesteś użytkownikiem biznesowym tworzącym swoją pierwszą strategię analizy danych, czy deweloperem tworzącym złożone strumienie pracy, znajdziesz odpowiednie narzędzia:

  • Łączenie danych
  • Wyczyść to
  • Przygotuj do analizy w Lakehouse lub Data Warehouse
  • Automatyzowanie przepływów pracy danych

Co to jest integracja danych?

Integracja danych to proces łączenia danych strategicznych, dzięki czemu można uzyskiwać do niego dostęp i analizować je. Jest to kluczowa część każdej firmy, która chce podejmować decyzje oparte na danych.

Istnieje wiele sposobów integrowania danych, ale jedną z najczęstszych strategii jest ETL. ETL oznacza wyodrębnianie, przekształcanie, ładowanie. Pobiera informacje z wielu różnych źródeł, przekształca je w format, który można analizować, i ładuje je do wspólnego systemu docelowego na potrzeby analizy lub raportowania. Implementowanie procesu ETL na platformie danych firmy zwiększa spójność danych, jakość i dostępność.

Oto co robi każda faza:

  • Wyodrębnianie: odczytuje dane ze źródeł i przenosi je do centralnego miejsca przechowywania. Źródła mogą być bazami danych, plikami, interfejsami API, witrynami internetowymi i nie tylko.
  • Przekształcanie: czyści, wzbogaca i przekształca dane w format, który jest łatwy do przeanalizowania. Na przykład możesz porównać dane sprzedaży z bazy danych SQL z zeskanowanymi, historycznymi dokumentami sprzedaży. Po wyodrębnieniu danych należy przekształcić dane z każdego źródła, aby był w tym samym formacie, sprawdzić uszkodzenia lub duplikaty i połączyć dane w jeden zestaw danych.
  • Ładowanie: Zapisuje przekształcone dane w systemie docelowym, na przykład w hurtowni danych lub data lake. System docelowy umożliwia uruchamianie zapytań i raportów dotyczących danych.

ETL lub ELT?

Podczas pracy z danymi ważne jest przenoszenie i przekształcanie danych, a każda organizacja będzie miała różne potrzeby. Na przykład: ETL (wyodrębnianie, przekształcanie, ładowanie) i ELT (wyodrębnianie, ładowanie, transformacja). Każda z nich ma mocne strony, w zależności od potrzeb dotyczących wydajności, skalowalności i kosztów.

ETL: Przekształć dane przed załadowaniem ich do miejsca docelowego. Działa to dobrze, gdy trzeba oczyścić, standandaryzować lub wzbogacić dane podczas ich przemieszczania. Na przykład użyj przepływu danych Dataflow Gen 2 w usłudze Data Factory, aby zastosować przekształcenia na dużą skalę przed załadowaniem danych do data warehouse lub Lakehouse.

ELT: Najpierw załaduj dane w ich surowej postaci, a następnie przekształć je tam, gdzie są przechowywane. Takie podejście wykorzystuje możliwości aparatów analitycznych, takich jak OneLake, Spark Notebooks lub narzędzia oparte na języku SQL. ELT dobrze sprawdza się w przypadku obsługi dużych zestawów danych z nowoczesnymi obliczeniami w skali chmury.

Usługa Fabric Data Factory obsługuje obie te elementy. Masz następujące możliwości:

  • Tworzenie klasycznych potoków ETL w celu uzyskania natychmiastowej jakości i gotowości danych
  • Wykorzystaj przepływy pracy ELT do korzystania ze zintegrowanych obliczeń i magazynowania do przekształceń na dużą skalę.
  • Łączenie obu podejść w tym samym rozwiązaniu w celu zapewnienia elastyczności

Usługa Data Factory to zaawansowane rozwiązanie do integracji danych

Usługa Data Factory łączy się z danymi, przenosi je, przekształca i organizuje zadania przenoszenia i przekształcania danych z jednego miejsca. Decydujesz, jaka strategia działa najlepiej dla Twojej firmy, a usługa Data Factory udostępnia narzędzia do wykonania.

Połącz się z danymi: niezależnie od tego, czy jest to środowisko lokalne, w chmurze, czy w środowiskach wielochmurowych, usługa Data Factory łączy się ze źródłami danych i lokalizacjami docelowymi. Obsługuje ona szeroką gamę źródeł danych, w tym baz danych, magazynów danych, systemów plików, interfejsów API i nie tylko. Zobacz dostępne łączniki , aby uzyskać pełną listę obsługiwanych źródeł danych i miejsc docelowych.

Przenoszenie danych: usługa Data Factory udostępnia kilka metod przenoszenia danych ze źródła do miejsca docelowego lub zapewnia łatwy dostęp do istniejących danych w zależności od potrzeb.

  • Zadanie kopiowania — preferowane rozwiązanie do uproszczonego przenoszenia danych z natywną obsługą wielu stylów dostarczania, w tym kopiowania zbiorczego, kopiowania przyrostowego i replikacji przechwytywania zmian danych (CDC). Oferuje również elastyczność obsługi szerokiej gamy scenariuszy z wielu źródeł do wielu miejsc docelowych — dzięki intuicyjnemu, łatwemu w użyciu środowisku.
  • Działanie kopiowania — przenosi dane z jednego miejsca do innego na dowolną skalę, z rozbudowanym dostosowywaniem, obsługą szerokiego zakresu źródeł i miejsc docelowych oraz ręczną kontrolą kopiowania równoległego w celu zwiększenia wydajności.
  • Mirroring — utwórz niemal w czasie rzeczywistym replikę operacyjnej bazy danych w ramach OneLake w Microsoft Fabric, aby ułatwić analizę i raportowanie.

Zapoznaj się z naszym przewodnikiem po decyzjach dotyczących przenoszenia danych , aby ułatwić wybór odpowiedniej metody przenoszenia danych dla danego scenariusza.

Przekształcanie: usługa Data Factory udostępnia działania umożliwiające połączenie z niestandardowymi skryptami przekształcania lub zaawansowanym projektantem przepływów danych.

  • Operacje przepływu danych — notebook platformy Fabric, działanie HDInsight, definicja zadania Spark, procedura zapisana, skrypty SQL i inne. Te działania umożliwiają uruchamianie niestandardowego kodu lub skryptów w celu przekształcenia danych.
  • Przepływ danych Gen 2 — przekształcanie danych za pomocą interfejsu niskokodowego, oferującego ponad 300 przekształceń. Można wykonywać sprzężenia, agregacje, czyszczenie danych, przekształcenia niestandardowe i wiele innych.
  • zadanie dbt — zadanie dbt w usłudze Microsoft Fabric umożliwia przekształcanie danych oparte na języku SQL bezpośrednio w usłudze Fabric. Zapewniają one prostą konfigurację bez kodu do tworzenia, testowania i wdrażania modeli dbt w ramach infrastruktury Twojego magazynu danych Fabric.

Orkiestracja: usługa Data Factory umożliwia tworzenie potoków, które mogą uruchamiać wiele przepływów danych, przekształceń i innych działań w jednym przepływie pracy.

Integracja danych opartych na sztucznej inteligencji

Sztuczna inteligencja pojawia się w całej usłudze Data Factory, aby umożliwić ci zrobienie więcej przy mniejszym wysiłku. Rozwiązanie Copilot for Data Factory umożliwia projektowanie, edytowanie potoków i przepływów danych oraz zarządzanie nimi przy użyciu języka naturalnego. Możesz wpisać zwyczajne angielskie polecenia, a Copilot przekształci je w działające kroki ETL.

Copilot podsumowuje również istniejące zapytania i potoki przepływu danych, dzięki czemu możesz szybko zrozumieć, co robią. Jeśli wystąpią błędy, Copilot wyjaśnia, co poszło nie tak i sugeruje sposoby jego naprawy.

Aby uzyskać szczegółowe informacje, zobacz Copilot in Fabric w obciążeniu usługi Data Factory.

Czego potrzebujesz, aby zacząć?

Co zrobić, jeśli używamy już usługi Azure Data Factory?

Usługa Data Factory w usłudze Microsoft Fabric to następna generacja usługi Azure Data Factory, utworzona w celu obsługi najbardziej złożonych wyzwań związanych z integracją danych przy użyciu prostszego podejścia.

Zapoznaj się z naszym przewodnikiem porównawczym , aby zapoznać się z kluczowymi różnicami między tymi dwoma usługami, dzięki czemu możesz dokonać odpowiedniego wyboru dla przedsiębiorstwa.

Gdy wszystko będzie gotowe do migracji, postępuj zgodnie z naszym przewodnikiem migracji.

Aby uzyskać więcej informacji i rozpocząć pracę z usługą Microsoft Fabric, postępuj zgodnie z następującymi przewodnikami: