Udostępnij przez


Zbiorcze kopiowanie z bazy danych do usługi Azure Data Explorer przy użyciu szablonu usługi Azure Data Factory

Azure Data Explorer to szybka, w pełni zarządzana usługa analizy danych. Oferuje ona analizę w czasie rzeczywistym na dużych ilościach danych przesyłanych strumieniowo z wielu źródeł, takich jak aplikacje, witryny internetowe i urządzenia IoT.

Aby skopiować dane z bazy danych w programie Oracle Server, Netezza, Teradata lub SQL Server do usługi Azure Data Explorer, musisz załadować ogromne ilości danych z wielu tabel. Zazwyczaj dane muszą być podzielone w każdej tabeli, aby można było ładować wiersze przy użyciu wielu wątków równolegle z jednej tabeli. W tym artykule opisano szablon do użycia w tych scenariuszach.

Szablony usługi Azure Data Factory są wstępnie zdefiniowanymi potokami usługi Data Factory. Te szablony mogą pomóc w szybkim rozpoczęciu pracy z usługą Data Factory i skróceniu czasu opracowywania projektów integracji danych.

Tworzysz szablon kopii zbiorczej z bazy danych do usługi Azure Data Explorer za pomocą działań Lookup i ForEach. W celu szybszego kopiowania danych można użyć szablonu, aby utworzyć wiele potoków na bazę danych lub tabelę.

Ważne

Pamiętaj, aby użyć narzędzia odpowiedniego dla ilości danych, które chcesz skopiować.

  • Użyj szablonu Kopiowanie zbiorcze z bazy danych do usługi Azure Data Explorer , aby skopiować duże ilości danych z baz danych, takich jak sql server i Google BigQuery do usługi Azure Data Explorer.
  • Za pomocą narzędzia Data Factory Copy Data Tool skopiuj kilka tabel z małymi lub umiarkowanymi ilościami danych do usługi Azure Data Explorer.

Wymagania wstępne

Tworzenie tabeli ControlTableDataset

ControlTableDataset wskazuje, jakie dane zostaną skopiowane ze źródła do miejsca docelowego w potoku. Liczba wierszy wskazuje łączną liczbę potoków potrzebnych do skopiowania danych. Należy zdefiniować element ControlTableDataset jako część źródłowej bazy danych.

Przykład formatu tabeli źródłowej programu SQL Server jest pokazany w następującym kodzie:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

Elementy kodu zostały opisane w poniższej tabeli:

Majątek Opis Przykład
Identyfikator partycji Kolejność kopiowania 1
Zapytanie źródłowe Zapytanie wskazujące, które dane zostaną skopiowane w trakcie działania potoku
select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
ADXTableName Nazwa tabeli docelowej MyAdxTable

Jeśli zestaw danych Kontrolnej Tabeli ma inny format, utwórz porównywalny zestaw danych Kontrolnej Tabeli odpowiadający twojemu formatowi.

Używanie szablonu kopiowania zbiorczego z bazy danych do usługi Azure Data Explorer

  1. W okienku Zacznijmy wybierz pozycję Utwórz pipeline z szablonu , aby otworzyć okienko Galeria szablonów .

    Okienko

  2. Wybierz szablon Kopiowanie zbiorcze z bazy danych do usługi Azure Data Explorer .

    Szablon kopiowania zbiorczego z bazy danych do usługi Azure Data Explorer

  3. W panelu Kopiowanie zbiorcze z bazy danych do usługi Azure Data Explorer, w sekcji Dane wejściowe użytkownika, określ swoje zestawy danych, wykonując następujące czynności:

    a. Na liście rozwijanej ControlTableDataset wybierz połączoną usługę z tabelą sterowania, która wskazuje, jakie dane są kopiowane ze źródła do miejsca docelowego i gdzie zostaną umieszczone w miejscu docelowym.

    b. Z listy rozwijanej SourceDataset wybierz połączoną usługę ze źródłową bazą danych.

    c. Na liście rozwijanej AzureDataExplorerTable wybierz tabelę Azure Data Explorer. Jeśli zestaw danych nie istnieje, utwórz połączoną usługę Azure Data Explorer , aby dodać zestaw danych.

    d. Wybierz Użyj tego szablonu.

    Okienko

  4. Wybierz obszar na płótnie, poza działaniami, aby uzyskać dostęp do potoku szablonów. Wybierz kartę Parametry , aby wprowadzić parametry tabeli, w tym nazwę (nazwę tabeli sterującej) i wartość domyślną (nazwy kolumn).

    Parametry potoku.

  5. W obszarze Wyszukiwanie wybierz pozycję GetPartitionList aby wyświetlić ustawienia domyślne. Zapytanie jest tworzone automatycznie.

  6. Wybierz aktywność Polecenie, ForEachPartition, wybierz kartę Ustawienia, a następnie wykonaj następujące czynności:

    a. W polu Liczba partii wprowadź liczbę z zakresu od 1 do 50. Ten wybór określa liczbę potoków uruchamianych równolegle do momentu osiągnięcia liczby wierszy ControlTableDataset .

    b. Aby upewnić się, że partie potoku działają równolegle, nie zaznaczaj pola wyboru Sekwencyjne.

    Ustawienia forEachPartition.

    Wskazówka

    Najlepszą praktyką jest równoczesne uruchamianie wielu potoków, aby dane mogły być kopiowane szybciej. Aby zwiększyć wydajność, należy podzielić dane w tabeli źródłowej i przydzielić jedną partycję na przetwarzanie według daty i tabeli.

  7. Wybierz opcję Waliduj wszystko, aby zwalidować potok usługi Azure Data Factory, a następnie wyświetl wynik w okienku Wynik walidacji potoku.

    Weryfikowanie potoków szablonów.

  8. W razie potrzeby wybierz Debuguj, a następnie Dodaj wyzwalacz, aby uruchomić potok.

    Przyciski

Teraz możesz użyć szablonu, aby efektywnie kopiować duże ilości danych z baz danych i tabel.