Udostępnij przez


Pozyskiwanie danych do usługi Azure Data Lake Storage Gen2

W tym artykule dowiesz się, jak pozyskiwać dane z jednej lokalizacji do innej na koncie magazynu usługi Azure Data Lake Gen 2 (Azure Data Lake Gen 2) przy użyciu usługi Azure Synapse Analytics.

Wymagania wstępne

  • Subskrypcja platformy Azure: jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure.
  • Konto usługi Azure Storage: Azure Data Lake Gen 2 jest używany jako źródłowy magazyn danych. Jeśli nie masz konta magazynowego, zobacz sekcję Utwórz konto usługi Azure Storage, aby uzyskać instrukcje dotyczące jego tworzenia.

Tworzenie połączonych usług

W usłudze Azure Synapse Analytics połączona usługa jest miejscem, gdzie definiujesz informacje o połączeniu z innymi usługami. W tej sekcji dodasz usługi Azure Synapse Analytics i Azure Data Lake Gen 2 jako połączone usługi.

  1. Otwórz środowisko użytkownika usługi Azure Synapse Analytics i przejdź do karty Zarządzanie .
  2. W obszarze Połączenia zewnętrzne wybierz pozycję Połączone usługi.
  3. Aby dodać połączoną usługę, wybierz pozycję Nowy.
  4. Wybierz kafelek Azure Data Lake Storage Gen2 z listy i wybierz pozycję Kontynuuj.
  5. Wprowadź poświadczenia uwierzytelniania. Klucz konta, podmiot usługi i tożsamość zarządzana to obecnie obsługiwane typy uwierzytelniania. Wybierz pozycję Testuj połączenie, aby sprawdzić, czy poświadczenia są poprawne.
  6. Po zakończeniu wybierz pozycję Utwórz.

Utwórz potok

Potok zawiera przepływ logiczny na potrzeby wykonywania zestawu działań. W tej sekcji nauczysz się tworzyć potok, który zawiera operację kopiowania, która wczytuje dane z Azure Data Lake Gen 2 do puli SQL.

  1. Przejdź do karty Zorkiestruj. Kliknij ikonę plusa obok nagłówka potoków i wybierz Potok.
  2. W obszarze Przenoszenie i przekształcanie w okienku działań przeciągnij pozycję Kopiuj dane na kanwę potoku.
  3. Wybierz działanie kopiowania i przejdź do karty Źródło . Wybierz pozycję Nowy , aby utworzyć nowy źródłowy zestaw danych.
  4. Wybierz pozycję Azure Data Lake Storage Gen2 jako magazyn danych i wybierz pozycję Kontynuuj.
  5. Wybierz pozycję DelimitedText jako format i wybierz pozycję Kontynuuj.
  6. W okienku ustawień właściwości wybierz utworzoną usługę połączoną ADLS. Określ ścieżkę pliku danych źródłowych i określ, czy pierwszy wiersz ma nagłówek. Możesz zaimportować schemat z magazynu plików lub przykładowego pliku. Po zakończeniu wybierz OK.
  7. Przejdź do karty Ujście . Wybierz pozycję Nowy , aby utworzyć nowy zestaw danych ujścia.
  8. Wybierz usługę Azure Data Lake Storage Gen2 jako magazyn danych i wybierz pozycję Kontynuuj.
  9. Wybierz pozycję DelimitedText jako format i wybierz pozycję Kontynuuj.
  10. W okienku ustawień właściwości wybierz utworzoną usługę połączoną ADLS. Określ ścieżkę folderu, w którym chcesz zapisywać dane. Po zakończeniu wybierz OK.

Debugowanie i publikowanie potoku danych

Po zakończeniu konfigurowania potoku możesz wykonać przebieg debugowania przed opublikowaniem artefaktów, aby sprawdzić, czy wszystko jest poprawne.

  1. Aby debugować potok, wybierz na pasku narzędzi pozycję Debuguj. Na karcie Dane wyjściowe w dolnej części okna wyświetlany jest stan uruchomienia potoku.
  2. Po pomyślnym uruchomieniu pipeline'u na górnym pasku narzędzi wybierz pozycję Opublikuj wszystko. Ta akcja powoduje opublikowanie jednostek (zestawów danych i potoków) utworzonych w usłudze Synapse Analytics.
  3. Poczekaj na wyświetlenie komunikatu Pomyślnie opublikowano. Aby wyświetlić komunikaty powiadomień, wybierz przycisk dzwonka w prawym górnym rogu.

Wyzwalanie i monitorowanie pipeliny

W tym kroku ręcznie uruchamiasz potok opublikowany w poprzednim kroku.

  1. Wybierz pozycję Dodaj wyzwalacz na pasku narzędzi, a następnie wybierz pozycję Wyzwól teraz. Na stronie Uruchamianie potoku wybierz pozycję Zakończ.
  2. Przejdź do karty Monitor znajdującej się na lewym pasku bocznym. Widoczne jest uruchomienie potoku, które zostało wyzwolone za pomocą wyzwalacza ręcznego. Za pomocą linków w kolumnie Akcje możesz wyświetlić szczegóły działań i ponownie uruchomić pipeline.
  3. Aby wyświetlić uruchomienia działań powiązanych z uruchomieniem potoku, wybierz link Wyświetl uruchomienia działań w kolumnie Akcje. W tym przykładzie istnieje tylko jedno działanie, dlatego na liście jest widoczny tylko jeden wpis. Aby uzyskać szczegółowe informacje na temat operacji kopiowania, wybierz link Szczegóły (ikona okularów) w kolumnie Akcje . Wybierz Uruchomienia potoku u góry, aby wrócić do widoku Uruchomienia potoków. Aby odświeżyć widok, wybierz pozycję Odśwież.
  4. Sprawdź, czy dane są poprawnie zapisywane w dedykowanej puli SQL.

Następne kroki

Aby uzyskać więcej informacji na temat integracji danych dla usługi Azure Synapse Analytics, zobacz artykuł Pozyskiwanie danych do dedykowanej puli SQL .