Przyrostowe kopiowanie nowych plików na podstawie nazwy pliku partycjonowanego w czasie przy użyciu narzędzia do kopiowania danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym samouczku utworzysz fabrykę danych za pomocą witryny Azure Portal. Następnie użyjesz narzędzia do kopiowania danych, aby utworzyć potok, który przyrostowo kopiuje nowe pliki na podstawie nazwy pliku partycjonowanego czasowo z usługi Azure Blob Storage do usługi Azure Blob Storage.

Uwaga

Jeśli jesteś nowym użytkownikiem usługi Azure Data Factory, zobacz Wprowadzenie do usługi Azure Data Factory.

Ten samouczek obejmuje wykonanie następujących kroków:

Tworzenie fabryki danych.
Użyj narzędzia 'Kopiowanie danych', aby utworzyć potok.
Monitorowanie potoku danych i wykonywanie działań.

Wymagania wstępne

Subskrypcja platformy Azure: jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.
Konto usługi Azure Storage: użyj usługi Blob Storage jako magazynu danych źródłowego i ujścia. Jeśli nie masz konta magazynu w usłudze Azure, zobacz instrukcje w Tworzenie konta magazynu.

Tworzenie dwóch kontenerów w usłudze Blob Storage

Przygotuj przestrzeń przechowywania obiektów blob na potrzeby samouczka, wykonując następujące kroki.

Utwórz kontener o nazwie source. Utwórz ścieżkę folderu jako 2021/07/15/06 w kontenerze. Utwórz pusty plik tekstowy i nadaj mu nazwę file1.txt. Prześlij file1.txt do ścieżki folderu source/2021/07/15/06 w koncie magazynowym. Do wykonania tych zadań możesz użyć różnych narzędzi, takich jak Eksplorator usługi Azure Storage.

Uwaga

Proszę dostosować nazwę folderu, uwzględniając czas UTC. Jeśli na przykład bieżąca godzina UTC to 6:10 w dniu 15 lipca 2021 r., możesz utworzyć ścieżkę folderu jako źródło/2021/07/15/06/ przez regułę source/{Year}/{Month}/{Day}/{Hour}/.
Utwórz kontener o nazwie destination. Do wykonania tych zadań możesz użyć różnych narzędzi, takich jak Eksplorator usługi Azure Storage.

Tworzenie fabryki danych

W górnym menu wybierz pozycję Utwórz zasób>Analityka>Data Factory :
Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.

Nazwa Twojej fabryki danych musi być globalnie unikatowa. Może zostać wyświetlony następujący komunikat o błędzie:

Jeśli zostanie wyświetlony komunikat o błędzie dotyczącym wartości nazwy, wprowadź inną nazwę dla fabryki danych. Na przykład użyj nazwy twojanazwaADFTutorialDataFactory. Artykuł Data Factory naming rules (Zasady nazewnictwa fabryki danych) zawiera zasady nazewnictwa artefaktów usługi Data Factory.
Wybierz subskrypcję platformy Azure, w której utworzysz nową fabrykę danych.
W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

a. Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.

b. Wybierz pozycję Utwórz nową, a następnie wprowadź nazwę grupy zasobów.

Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).
W obszarze Wersja wybierz wersję V2.
W obszarze lokalizacja wybierz lokalizację fabryki danych. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje. Magazyny danych (np. usługi Azure Storage i SQL Database) oraz jednostki obliczeniowe (np. usługa Azure HDInsight) używane przez Twoją fabrykę danych mogą mieścić się w innych lokalizacjach i regionach.
Wybierz pozycję Utwórz.
Po zakończeniu tworzenia zostanie wyświetlona strona główna usługi Data Factory.
Aby uruchomić interfejs użytkownika usługi Azure Data Factory w osobnej karcie, wybierz pozycję Otwórz na kafelku Otwórz Azure Data Factory Studio.

Użyj narzędzia Kopiowanie Danych, aby utworzyć potok

Na stronie głównej usługi Azure Data Factory wybierz Wczytaj, aby uruchomić narzędzie Kopiowanie Danych.
Na stronie Właściwości wykonaj następujące czynności:
1. W obszarze Typ zadania wybierz pozycję Wbudowane zadanie kopiowania.
2. W obszarze Harmonogram zadań wybierz pozycję Przetaczane okno.
3. W obszarze Cykl wprowadź 1 godzinę(y).
4. Wybierz Dalej.
Na stronie Źródłowy magazyn danych wykonaj następujące czynności:

a. Wybierz pozycję + Nowe połączenie , aby dodać połączenie.

b. Wybierz pozycję Azure Blob Storage z galerii, a następnie wybierz pozycję Kontynuuj.

c. Na stronie Nowe połączenie (Azure Blob Storage) wprowadź nazwę połączenia. Wybierz swoją subskrypcję platformy Azure i wybierz swoje konto magazynowe z listy Nazwa konta magazynowego. Przetestuj połączenie, a następnie wybierz pozycję Utwórz.

d. Na stronie Źródłowy magazyn danych wybierz nowo utworzone połączenie w sekcji Połączenie.

e. W sekcji Plik lub folder przeglądaj i wybierz kontener źródłowy, a następnie wybierz przycisk OK.

f. W sekcji Zachowanie ładowania plików wybierz opcję Ładowanie przyrostowe: nazwy folderów/plików partycjonowanych czasowo.

g. Zapisz ścieżkę folderu dynamicznego jako źródło/{rok}/{month}/{day}/{hour}/, a następnie zmień format, jak pokazano na poniższym zrzucie ekranu.

h. Zaznacz Kopia binarna i wybierz Dalej.
Na stronie Docelowy skład danych, wykonaj następujące kroki:
1. Wybierz usługę AzureBlobStorage, która jest tym samym kontem magazynowym co źródło danych.
2. Przeglądaj i wybierz folder docelowy, a następnie wybierz OK.
3. Zapisz ścieżkę folderu dynamicznego jako docelową/{rok}/{month}/{day}/{hour}/, a następnie zmień format, jak pokazano na poniższym zrzucie ekranu.
4. Wybierz Dalej.
Na stronie Ustawienia, pod Nazwa zadania wprowadź DeltaCopyFromBlobPipeline, a następnie wybierz pozycję Dalej. Interfejs użytkownika usługi Data Factory tworzy potok o określonej nazwie zadania.
Na stronie Podsumowanie sprawdź ustawienia, a następnie kliknij przycisk Dalej.
Na stronie Wdrażanie wybierz pozycję Monitorowanie, aby monitorować potok (zadanie).
Zwróć uwagę, że karta Monitor po lewej stronie jest automatycznie wybrana. Musisz poczekać na uruchomienie potoku, gdy zostanie on wyzwolony automatycznie (około po godzinie). Po uruchomieniu wybierz link DeltaCopyFromBlobPipeline aby wyświetlić szczegóły przebiegu aktywności lub ponownie uruchomić potok. Wybierz pozycję Odśwież, aby odświeżyć listę.
W potoku danych jest tylko jedno działanie (działanie kopiowania), dlatego widzisz tylko jedną pozycję. Dostosuj szerokość kolumn źródłowych i docelowych (w razie potrzeby), aby wyświetlić więcej szczegółów, możesz zobaczyć, że plik źródłowy (file1.txt) został skopiowany ze źródła/2021/07/07/06/ do lokalizacji docelowej/2021/07/15/06/ o tej samej nazwie pliku.

Możesz również zweryfikować to samo za pomocą Eksploratora Azure Storage (https://storageexplorer.com/) do skanowania plików.
Utwórz kolejny pusty plik tekstowy o nowej nazwie jako file2.txt. Przekaż plik o nazwie file2.txt do ścieżki folderu source/2021/07/15/07 na koncie magazynowym. Do wykonania tych zadań możesz użyć różnych narzędzi, takich jak Eksplorator usługi Azure Storage.

Uwaga

Być może trzeba będzie utworzyć nową ścieżkę folderu. Proszę dostosować nazwę folderu, uwzględniając czas UTC. Na przykład, jeśli bieżąca godzina UTC to 7:30 rano w dniu w lipcu. 15 lipca 2021 można utworzyć ścieżkę folderu jako source/2021/07/15/07/ według reguły {Year}/{Month}/{Day}/{Hour}/.
Aby wrócić do widoku Uruchomienia potoków, wybierz pozycję Wszystkie uruchomienia potoków i poczekaj, aż ten sam potok zostanie automatycznie wyzwolony ponownie po kolejnej godzinie.
Wybierz nowy link DeltaCopyFromBlobPipeline dla drugiego przebiegu potoku, a następnie wykonaj to samo, aby przejrzeć szczegóły. Zobaczysz, że plik źródłowy (file2.txt) został skopiowany ze źródła/2021/07/15/07/ do lokalizacji docelowej/2021/07/15/07/ o tej samej nazwie pliku. Możesz również sprawdzić to samo przy użyciu Eksplorator usługi Azure Storage (https://storageexplorer.com/), aby skanować pliki w kontenerze docelowym.

Przejdź do następującego samouczka, aby dowiedzieć się więcej o przekształcaniu danych za pomocą klastra Spark na platformie Azure:

Przekształcanie danych przy użyciu klastra Spark w chmurze

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-04-23