Udostępnij przez


Szybkie kopiowanie w przepływie danych Gen2

Szybkie kopiowanie ułatwia szybsze przenoszenie dużych ilości danych w usłudze Dataflow Gen2. Pomyśl o tym, jak przełączenie na bardziej zaawansowany silnik, gdy trzeba obsługiwać terabajty danych.

Podczas pracy z przepływami danych musisz najpierw pozyskać dane, a następnie je przekształcić. W przypadku skalowania przepływu danych w poziomie przy użyciu obliczeń usługi SQL DW można przekształcać dane na dużą skalę. Szybka kopia zajmuje się częścią pozyskiwania, zapewniając łatwe zarządzanie przepływem danych dzięki zaawansowanemu zapleczu technicznemu funkcjonalności kopiowania w ramach potoku.

Oto jak to działa: po włączeniu szybkiego kopiowania przepływy danych automatycznie przełączają się do szybszego zaplecza, gdy rozmiar danych przekroczy określony próg. Nie musisz nic zmieniać podczas tworzenia przepływów danych. Po odświeżeniu przepływu danych możesz sprawdzić historię odświeżania, aby dowiedzieć się, czy użyto szybkiej kopii, sprawdzając typ silnika.

Jeśli włączysz opcję Wymagaj szybkiego kopiowania , odświeżanie przepływu danych zostanie zatrzymane, jeśli z jakiegoś powodu nie można użyć szybkiej kopii. Pomaga to uniknąć oczekiwania na przekroczenie limitu czasu i może być przydatne podczas debugowania. Możesz użyć wskaźników szybkiego kopiowania w okienku kroków zapytania, aby sprawdzić, czy zapytanie może działać z szybkim kopiowaniem.

Zrzut ekranu przedstawiający miejsce wyświetlania wskaźnika szybkiego kopiowania w okienku kroków zapytania.

Prerequisites

Przed użyciem szybkiej kopii potrzebne są następujące elementy:

  • Pojemność sieci szkieletowej
  • W przypadku danych plików: pliki CSV lub Parquet, które mają co najmniej 100 MB i są przechowywane w usłudze Azure Data Lake Storage (ADLS) Gen2 lub magazynie obiektów blob
  • W przypadku baz danych (w tym baz danych Azure SQL DB i PostgreSQL): 5 milionów wierszy lub więcej danych w źródle danych

Note

Próg można pominąć, aby wymusić szybką kopię, wybierając ustawienie Wymagaj szybkiego kopiowania .

Obsługa łączników

Szybkie kopiowanie działa z tymi łącznikami usługi Dataflow Gen2:

  • ADLS Gen2
  • Przechowywanie blobów
  • Azure SQL DB
  • Lakehouse
  • PostgreSQL
  • Lokalny program SQL Server
  • Warehouse
  • Oracle
  • Snowflake
  • Baza danych SQL w Fabric

Ograniczenia przekształcania

Podczas nawiązywania połączenia ze źródłami plików działanie kopiowania obsługuje tylko następujące przekształcenia:

  • Łączenie plików
  • Wybierz kolumny
  • Zmienianie typów danych
  • Zmienianie nazwy kolumny
  • Usuwanie kolumny

Jeśli potrzebujesz innych przekształceń, możesz podzielić pracę na oddzielne zapytania. Utwórz jedno zapytanie, aby pobrać dane i inne zapytanie odwołujące się do pierwszego. W ten sposób można użyć obliczeń DW dla przekształceń.

W przypadku źródeł SQL każda transformacja, która jest częścią zapytania natywnego, działa prawidłowo.

Miejsca docelowe danych wyjściowych

W tej chwili szybka kopia obsługuje tylko ładowanie bezpośrednio do Lakehouse jako miejsca docelowego. Jeśli chcesz użyć innego miejsca docelowego danych wyjściowych, możesz najpierw przygotować zapytanie i odwołać się do niego w późniejszym zapytaniu z preferowanym miejscem docelowym.

Jak używać szybkiego kopiowania

Poniżej przedstawiono sposób konfigurowania i używania szybkiej kopii:

  1. W Fabric przejdź do obszaru roboczego w warstwie Premium i utwórz przepływ danych Gen2.

  2. Na karcie Narzędzia główne nowego przepływu danych wybierz pozycję Opcje:

    Zrzut ekranu przedstawiający miejsce wybierania opcji dla przepływu danych Gen2 na karcie Narzędzia główne.

  3. W oknie dialogowym Opcje wybierz kartę Skalowanie , a następnie włącz opcję Zezwalaj na używanie łączników szybkiego kopiowania. Po zakończeniu zamknij okno dialogowe Opcje .

    Zrzut ekranu przedstawiający, gdzie włączyć szybką kopię na karcie Skalowanie w oknie dialogowym Opcje.

  4. Wybierz pozycję Pobierz dane, wybierz źródło usługi ADLS Gen2 i wypełnij szczegóły kontenera.

  5. Wybierz przycisk Połącz .

    Zrzut ekranu przedstawiający okno danych folderu Podgląd z wyróżnioną opcją Połącz.

  6. Aby upewnić się, że szybkie kopiowanie działa, zastosuj tylko przekształcenia wymienione w sekcji Obsługa łącznika . Jeśli potrzebujesz innych przekształceń, najpierw przygotuj dane i odwołaj się do zapytania etapowego w późniejszym zapytaniu. Zastosuj inne przekształcenia do przywołynego zapytania.

  7. (Opcjonalnie) Możesz wymagać szybkiej kopii zapytania, klikając zapytanie prawym przyciskiem myszy i wybierając polecenie Wymagaj szybkiego kopiowania.

    Zrzut ekranu przedstawiający, gdzie wybrać opcję Wymagaj szybkiego kopiowania w menu prawym przyciskiem myszy dla zapytania.

  8. (Opcjonalnie) W tej chwili można skonfigurować tylko usługę Lakehouse jako miejsce docelowe danych wyjściowych. W przypadku dowolnego innego miejsca docelowego przygotuj zapytanie i odnieś się do niego później w innym zapytaniu, gdzie można wyprowadzić dane do dowolnego źródła.

  9. Sprawdź wskaźniki szybkiego kopiowania, aby upewnić się, że zapytanie może działać z szybką kopią. Jeśli to możliwe, typ silnika pokazuje CopyActivity.

    Zrzut ekranu przedstawiający informacje o odświeżeniu wskazujące, że użyto silnika potoku CopyActivity.

  10. Opublikuj przepływ danych.

  11. Po zakończeniu odświeżania sprawdź, czy użyto szybkiej kopii.

Jak podzielić zapytanie w celu korzystania z szybkiej kopii

Podczas pracy z dużymi ilościami danych możesz uzyskać najlepszą wydajność, korzystając z szybkiego kopiowania danych w celu wprowadzania ich do obszaru tymczasowego, a następnie przekształcając je na dużą skalę przy użyciu obliczeń SQL DW.

Wskaźniki szybkiego kopiowania pomagają ustalić, jak podzielić zapytanie na dwie części: wczytywanie danych do obszaru tymczasowego i przeprowadzanie transformacji na dużą skalę przy użyciu obliczeń SQL DW. Spróbuj jak najwięcej operacji oceny zapytań przesunąć w kierunku szybkiego kopiowania, jeśli to możliwe, przy wprowadzaniu danych. Gdy wskaźniki szybkiego kopiowania pokazują, że pozostałe kroki nie mogą być uruchamiane z szybką kopią, możesz podzielić resztę zapytania z włączonym przemieszczaniem.

Krokowe wskaźniki diagnostyczne

Indicator Icon Description
Ten krok zostanie oceniony przy użyciu szybkiej kopii Wskaźnik szybkiego kopiowania pokazuje, że zapytanie na tym etapie obsługuje szybką kopię.
Ten krok nie jest obsługiwany przez szybkie kopiowanie Wskaźnik szybkiego kopiowania pokazuje, że ten krok nie obsługuje szybkiego kopiowania.
Co najmniej jeden krok w zapytaniu nie jest obsługiwany przez szybką kopię Wskaźnik szybkiego kopiowania pokazuje, że niektóre kroki w tym zapytaniu obsługują szybką kopię, a inne nie. Aby zoptymalizować, podziel zapytanie: żółte kroki (potencjalnie wspierane przez szybką kopię) i czerwone kroki (niewspierane).

Wskazówki krok po kroku

Po zakończeniu logiki przekształcania danych w Dataflow Gen2 wskaźnik szybkiego kopiowania ocenia każdy krok, aby ustalić, ile kroków może korzystać z szybkiego kopiowania, co poprawia wydajność.

W tym przykładzie ostatni krok przedstawia czerwoną ikonę, co oznacza, że krok Grupuj według nie jest obsługiwany przez szybkie kopiowanie. Jednak wszystkie poprzednie kroki z żółtymi ikonami mogą być potencjalnie obsługiwane przez szybkie kopiowanie.

Zrzut ekranu przedstawiający zawartość pierwszego zapytania z ostatnim krokiem na czerwono.

Jeśli opublikujesz i uruchomisz Dataflow Gen2 w tym momencie, nie użyje on szybkiej kopiarki do ładowania danych.

Zrzut ekranu przedstawiający wynik zapytania bez włączonego szybkiego kopiowania.

Aby użyć szybkiego aparatu kopiowania i zwiększyć wydajność usługi Dataflow Gen2, możesz podzielić zapytanie na dwie części: pobieranie danych do etapu przygotowawczego i transformację na dużą skalę za pomocą obliczeń w SQL DW. Oto, jak to zrobić:

  1. Usuń wszystkie przekształcenia przedstawiające czerwone ikony (co oznacza, że nie są obsługiwane przez szybką kopię) wraz z miejscem docelowym (jeśli je zdefiniowano).

    Zrzut ekranu przedstawiający pierwsze zapytanie, w którym usunięto wszystkie kroki, które nie obsługują szybkiego kopiowania.

  2. Wskaźnik szybkiego kopiowania jest teraz zielony dla pozostałych kroków, co oznacza, że pierwsze zapytanie może używać szybkiego kopiowania, aby poprawić wydajność.

    Kliknij prawym przyciskiem myszy pierwsze zapytanie, wybierz pozycję Włącz inscenizację, a następnie ponownie kliknij prawym przyciskiem myszy pierwsze zapytanie i wybierz pozycję Odwołanie.

    Zrzut ekranu przedstawiający wybrane opcje wymagane do odwoływania się do szybkiego zapytania kopiowania przy użyciu drugiego zapytania.

  3. W nowym zapytaniu, do którego odwołujesz się, dodaj przekształcenie "Grupuj według" i miejsce docelowe (jeśli dotyczy).

  4. Opublikuj i odśwież przepływ danych Gen2. Masz teraz dwa zapytania w usłudze Dataflow Gen2, a ogólny czas trwania jest krótszy.

    • Pierwsze zapytanie wczytuje dane do etapu przejściowego za pomocą szybkiej kopii.

    • Drugie zapytanie wykonuje przekształcenia na dużą skalę przy użyciu obliczeń usługi SQL DW.

      Zrzut ekranu przedstawiający szczegóły stanu uruchomienia z wynikami zapytania.

    Pierwsze szczegóły zapytania:

    Zrzut ekranu przedstawiający wyniki pozyskiwania danych.

    Drugie szczegóły zapytania:

    Zrzut ekranu przedstawiający wyniki kroków przekształcania.

Znane ograniczenia

Poniżej przedstawiono bieżące ograniczenia dotyczące szybkiego kopiowania:

  • Do obsługi szybkiego kopiowania potrzebna jest lokalna brama danych w wersji 3000.214.2 lub nowszej.
  • Stały schemat nie jest obsługiwany.
  • Miejsce docelowe oparte na schemacie nie jest obsługiwane