Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Szybkie kopiowanie ułatwia szybsze przenoszenie dużych ilości danych w usłudze Dataflow Gen2. Pomyśl o tym, jak przełączenie na bardziej zaawansowany silnik, gdy trzeba obsługiwać terabajty danych.
Podczas pracy z przepływami danych musisz najpierw pozyskać dane, a następnie je przekształcić. W przypadku skalowania przepływu danych w poziomie przy użyciu obliczeń usługi SQL DW można przekształcać dane na dużą skalę. Szybka kopia zajmuje się częścią pozyskiwania, zapewniając łatwe zarządzanie przepływem danych dzięki zaawansowanemu zapleczu technicznemu funkcjonalności kopiowania w ramach potoku.
Oto jak to działa: po włączeniu szybkiego kopiowania przepływy danych automatycznie przełączają się do szybszego zaplecza, gdy rozmiar danych przekroczy określony próg. Nie musisz nic zmieniać podczas tworzenia przepływów danych. Po odświeżeniu przepływu danych możesz sprawdzić historię odświeżania, aby dowiedzieć się, czy użyto szybkiej kopii, sprawdzając typ silnika.
Jeśli włączysz opcję Wymagaj szybkiego kopiowania , odświeżanie przepływu danych zostanie zatrzymane, jeśli z jakiegoś powodu nie można użyć szybkiej kopii. Pomaga to uniknąć oczekiwania na przekroczenie limitu czasu i może być przydatne podczas debugowania. Możesz użyć wskaźników szybkiego kopiowania w okienku kroków zapytania, aby sprawdzić, czy zapytanie może działać z szybkim kopiowaniem.
Prerequisites
Przed użyciem szybkiej kopii potrzebne są następujące elementy:
- Pojemność sieci szkieletowej
- W przypadku danych plików: pliki CSV lub Parquet, które mają co najmniej 100 MB i są przechowywane w usłudze Azure Data Lake Storage (ADLS) Gen2 lub magazynie obiektów blob
- W przypadku baz danych (w tym baz danych Azure SQL DB i PostgreSQL): 5 milionów wierszy lub więcej danych w źródle danych
Note
Próg można pominąć, aby wymusić szybką kopię, wybierając ustawienie Wymagaj szybkiego kopiowania .
Obsługa łączników
Szybkie kopiowanie działa z tymi łącznikami usługi Dataflow Gen2:
- ADLS Gen2
- Przechowywanie blobów
- Azure SQL DB
- Lakehouse
- PostgreSQL
- Lokalny program SQL Server
- Warehouse
- Oracle
- Snowflake
- Baza danych SQL w Fabric
Ograniczenia przekształcania
Podczas nawiązywania połączenia ze źródłami plików działanie kopiowania obsługuje tylko następujące przekształcenia:
- Łączenie plików
- Wybierz kolumny
- Zmienianie typów danych
- Zmienianie nazwy kolumny
- Usuwanie kolumny
Jeśli potrzebujesz innych przekształceń, możesz podzielić pracę na oddzielne zapytania. Utwórz jedno zapytanie, aby pobrać dane i inne zapytanie odwołujące się do pierwszego. W ten sposób można użyć obliczeń DW dla przekształceń.
W przypadku źródeł SQL każda transformacja, która jest częścią zapytania natywnego, działa prawidłowo.
Miejsca docelowe danych wyjściowych
W tej chwili szybka kopia obsługuje tylko ładowanie bezpośrednio do Lakehouse jako miejsca docelowego. Jeśli chcesz użyć innego miejsca docelowego danych wyjściowych, możesz najpierw przygotować zapytanie i odwołać się do niego w późniejszym zapytaniu z preferowanym miejscem docelowym.
Jak używać szybkiego kopiowania
Poniżej przedstawiono sposób konfigurowania i używania szybkiej kopii:
W Fabric przejdź do obszaru roboczego w warstwie Premium i utwórz przepływ danych Gen2.
Na karcie Narzędzia główne nowego przepływu danych wybierz pozycję Opcje:
W oknie dialogowym Opcje wybierz kartę Skalowanie , a następnie włącz opcję Zezwalaj na używanie łączników szybkiego kopiowania. Po zakończeniu zamknij okno dialogowe Opcje .
Wybierz pozycję Pobierz dane, wybierz źródło usługi ADLS Gen2 i wypełnij szczegóły kontenera.
Wybierz przycisk Połącz .
Aby upewnić się, że szybkie kopiowanie działa, zastosuj tylko przekształcenia wymienione w sekcji Obsługa łącznika . Jeśli potrzebujesz innych przekształceń, najpierw przygotuj dane i odwołaj się do zapytania etapowego w późniejszym zapytaniu. Zastosuj inne przekształcenia do przywołynego zapytania.
(Opcjonalnie) Możesz wymagać szybkiej kopii zapytania, klikając zapytanie prawym przyciskiem myszy i wybierając polecenie Wymagaj szybkiego kopiowania.
(Opcjonalnie) W tej chwili można skonfigurować tylko usługę Lakehouse jako miejsce docelowe danych wyjściowych. W przypadku dowolnego innego miejsca docelowego przygotuj zapytanie i odnieś się do niego później w innym zapytaniu, gdzie można wyprowadzić dane do dowolnego źródła.
Sprawdź wskaźniki szybkiego kopiowania, aby upewnić się, że zapytanie może działać z szybką kopią. Jeśli to możliwe, typ silnika pokazuje CopyActivity.
Opublikuj przepływ danych.
Po zakończeniu odświeżania sprawdź, czy użyto szybkiej kopii.
Jak podzielić zapytanie w celu korzystania z szybkiej kopii
Podczas pracy z dużymi ilościami danych możesz uzyskać najlepszą wydajność, korzystając z szybkiego kopiowania danych w celu wprowadzania ich do obszaru tymczasowego, a następnie przekształcając je na dużą skalę przy użyciu obliczeń SQL DW.
Wskaźniki szybkiego kopiowania pomagają ustalić, jak podzielić zapytanie na dwie części: wczytywanie danych do obszaru tymczasowego i przeprowadzanie transformacji na dużą skalę przy użyciu obliczeń SQL DW. Spróbuj jak najwięcej operacji oceny zapytań przesunąć w kierunku szybkiego kopiowania, jeśli to możliwe, przy wprowadzaniu danych. Gdy wskaźniki szybkiego kopiowania pokazują, że pozostałe kroki nie mogą być uruchamiane z szybką kopią, możesz podzielić resztę zapytania z włączonym przemieszczaniem.
Krokowe wskaźniki diagnostyczne
| Indicator | Icon | Description |
|---|---|---|
| Ten krok zostanie oceniony przy użyciu szybkiej kopii |
|
Wskaźnik szybkiego kopiowania pokazuje, że zapytanie na tym etapie obsługuje szybką kopię. |
| Ten krok nie jest obsługiwany przez szybkie kopiowanie |
|
Wskaźnik szybkiego kopiowania pokazuje, że ten krok nie obsługuje szybkiego kopiowania. |
| Co najmniej jeden krok w zapytaniu nie jest obsługiwany przez szybką kopię |
|
Wskaźnik szybkiego kopiowania pokazuje, że niektóre kroki w tym zapytaniu obsługują szybką kopię, a inne nie. Aby zoptymalizować, podziel zapytanie: żółte kroki (potencjalnie wspierane przez szybką kopię) i czerwone kroki (niewspierane). |
Wskazówki krok po kroku
Po zakończeniu logiki przekształcania danych w Dataflow Gen2 wskaźnik szybkiego kopiowania ocenia każdy krok, aby ustalić, ile kroków może korzystać z szybkiego kopiowania, co poprawia wydajność.
W tym przykładzie ostatni krok przedstawia czerwoną ikonę, co oznacza, że krok Grupuj według nie jest obsługiwany przez szybkie kopiowanie. Jednak wszystkie poprzednie kroki z żółtymi ikonami mogą być potencjalnie obsługiwane przez szybkie kopiowanie.
Jeśli opublikujesz i uruchomisz Dataflow Gen2 w tym momencie, nie użyje on szybkiej kopiarki do ładowania danych.
Aby użyć szybkiego aparatu kopiowania i zwiększyć wydajność usługi Dataflow Gen2, możesz podzielić zapytanie na dwie części: pobieranie danych do etapu przygotowawczego i transformację na dużą skalę za pomocą obliczeń w SQL DW. Oto, jak to zrobić:
Usuń wszystkie przekształcenia przedstawiające czerwone ikony (co oznacza, że nie są obsługiwane przez szybką kopię) wraz z miejscem docelowym (jeśli je zdefiniowano).
Wskaźnik szybkiego kopiowania jest teraz zielony dla pozostałych kroków, co oznacza, że pierwsze zapytanie może używać szybkiego kopiowania, aby poprawić wydajność.
Kliknij prawym przyciskiem myszy pierwsze zapytanie, wybierz pozycję Włącz inscenizację, a następnie ponownie kliknij prawym przyciskiem myszy pierwsze zapytanie i wybierz pozycję Odwołanie.
W nowym zapytaniu, do którego odwołujesz się, dodaj przekształcenie "Grupuj według" i miejsce docelowe (jeśli dotyczy).
Opublikuj i odśwież przepływ danych Gen2. Masz teraz dwa zapytania w usłudze Dataflow Gen2, a ogólny czas trwania jest krótszy.
Pierwsze zapytanie wczytuje dane do etapu przejściowego za pomocą szybkiej kopii.
Drugie zapytanie wykonuje przekształcenia na dużą skalę przy użyciu obliczeń usługi SQL DW.
Pierwsze szczegóły zapytania:
Drugie szczegóły zapytania:
Znane ograniczenia
Poniżej przedstawiono bieżące ograniczenia dotyczące szybkiego kopiowania:
- Do obsługi szybkiego kopiowania potrzebna jest lokalna brama danych w wersji 3000.214.2 lub nowszej.
- Stały schemat nie jest obsługiwany.
- Miejsce docelowe oparte na schemacie nie jest obsługiwane