Omówienie pozyskiwania danych w usłudze Azure Synapse Data Explorer (wersja zapoznawcza)

Ważne

Eksplorator danych usługi Azure Synapse Analytics (wersja zapoznawcza) zostanie wycofany 7 października 2025 r. Po tej dacie obciążenia uruchomione w usłudze Synapse Data Explorer zostaną usunięte, a skojarzone dane aplikacji zostaną utracone. Zdecydowanie zalecamy migrację do usługi Eventhouse w usłudze Microsoft Fabric.

Program Microsoft Cloud Migration Factory (CMF) ma na celu pomoc klientom w migracji do sieci szkieletowej. Program oferuje praktyczne zasoby klawiaturowe bez ponoszenia kosztów dla klienta. Te zasoby są przypisywane przez okres 6–8 tygodni ze wstępnie zdefiniowanym i uzgodnionym zakresem. Nominacje klientów są akceptowane przez zespół ds. kont Microsoft lub bezpośrednio, przesyłając wniosek o pomoc zespołowi CMF.

Pozyskiwanie danych to proces używany do ładowania rekordów danych z co najmniej jednego źródła w celu zaimportowania danych do tabeli w puli usługi Azure Synapse Data Explorer. Po pozyskaniu dane staną się dostępne dla zapytań.

Usługa zarządzania danymi usługi Azure Synapse Data Explorer, która jest odpowiedzialna za pozyskiwanie danych, implementuje następujący proces:

Ściąga dane w partiach lub przesyła strumieniowo z zewnętrznego źródła i odczytuje żądania z oczekującej kolejki platformy Azure.
Dane wsadowe przesyłane do tej samej bazy danych i tabeli są zoptymalizowane pod kątem wydajności przetwarzania.
Początkowe dane są weryfikowane i format jest konwertowany w razie potrzeby.
Dalsze manipulowanie danymi, w tym dopasowywanie schematu, organizowanie, indeksowanie, kodowanie i kompresowanie danych.
Dane są utrwalane w magazynie zgodnie z ustawionymi zasadami przechowywania.
Pozyskane dane są zatwierdzane w silniku, gdzie są dostępne do zapytań.

Obsługiwane formaty danych, właściwości i uprawnienia

Obsługiwane formaty danych
Właściwości pozyskiwania: właściwości wpływające na sposób pozyskiwania danych (na przykład tagowanie, mapowanie, czas tworzenia).
Uprawnienia: Aby pozyskiwać dane, proces wymaga uprawnień na poziomie ingestor bazy danych. Inne akcje, takie jak zapytanie, mogą wymagać uprawnień administratora bazy danych, użytkownika bazy danych lub administratora tabeli.

Przetwarzanie wsadowe a przetwarzanie strumieniowe

Wsadowe pobieranie danych wykonuje wsadowe grupowanie danych i jest zoptymalizowane pod kątem wysokiego przepływu danych. Ta metoda jest zalecanym i najbardziej wydajnym typem przechwytywania danych. Dane są grupowane zgodnie z właściwościami przetwarzania. Małe partie danych są scalane i zoptymalizowane pod kątem szybkich wyników zapytań. Zasady dzielenia na partie pozyskiwania można ustawić w bazach danych lub tabelach. Domyślnie maksymalna wartość dzielenia na partie wynosi 5 minut, 1000 elementów lub całkowity rozmiar 1 GB. Limit rozmiaru danych dla polecenia ładowania wsadowego wynosi 4 GB.
Pozyskiwanie danych przesyłanych strumieniowo to ciągłe pobieranie danych ze źródła przesyłania strumieniowego. Pozyskiwanie danych przesyłanych strumieniowo umożliwia niemal rzeczywiste opóźnienie dla małych zestawów danych na tabelę. Dane są początkowo pozyskiwane do magazynu wierszy, a następnie przenoszone do zakresów magazynu kolumn.

Metody pozyskiwania i narzędzia

Usługa Azure Synapse Data Explorer obsługuje kilka metod pozyskiwania, z których każdy ma własne scenariusze docelowe. Te metody obejmują narzędzia przetwarzania danych, łączniki i wtyczki do różnych usług, zarządzane potoki danych, programistyczne przetwarzanie przy użyciu zestawów SDK i bezpośredni dostęp do przetwarzania danych.

Pozyskiwanie przy użyciu zarządzanych potoków

W przypadku organizacji, które chcą, aby zarządzanie (kontrola przepustowości, ponawianie prób, monitorowanie, alerty i nie tylko) było wykonywane przez usługę zewnętrzną, użycie konektora jest prawdopodobnie najbardziej odpowiednim rozwiązaniem. Przyjmowanie danych w kolejce jest odpowiednie dla dużych ilości danych. Usługa Azure Synapse Data Explorer obsługuje następujące usługi Azure Pipelines:

Event Hub: potok, który przekazuje zdarzenia z usług do usługi Azure Synapse Data Explorer. Aby uzyskać więcej informacji, zobacz Pozyskiwanie danych z centrum zdarzeń do usługi Azure Synapse Data Explorer.

Potoki usługi Synapse: w pełni zarządzana usługa integracji danych dla obciążeń analitycznych w potokach usługi Synapse łączy się z ponad 90 obsługiwanymi źródłami w celu zapewnienia wydajnego i odpornego transferu danych. Potoki usługi Synapse przygotowują, przekształcają i wzbogacają dane w celu uzyskania szczegółowych informacji, które można monitorować na różne sposoby. Tę usługę można używać jako jednorazowego rozwiązania, w ustalonych odstępach czasu lub może być wyzwalana przez określone zdarzenia.

Programatyczne pozyskiwanie danych za pomocą zestawów SDK

Usługa Azure Synapse Data Explorer udostępnia zestawy SDK, których można używać do pozyskiwania zapytań i danych. Programatyczne pozyskiwanie jest zoptymalizowane pod kątem zmniejszenia kosztów pozyskiwania (COGs), minimalizując transakcje związane z magazynowaniem danych podczas procesu pozyskiwania i po jego zakończeniu.

Przed rozpoczęciem wykonaj następujące kroki, aby uzyskać punkty końcowe puli eksploratora danych na potrzeby konfigurowania pozyskiwania programowego.

W programie Synapse Studio w okienku po lewej stronie wybierz pozycję Zarządzaj pulami>eksploratora danych.
Wybierz pulę Eksploratora danych, której chcesz użyć, aby wyświetlić jego szczegóły.
Zanotuj punkty końcowe zapytań i pozyskiwania danych. Użyj punktu końcowego zapytania jako klastra podczas konfigurowania połączeń z pulą eksploratora danych. Podczas konfigurowania zestawów SDK na potrzeby pozyskiwania danych użyj punktu końcowego pozyskiwania danych.

Dostępne zestawy SDK i projekty open source

Tools

Pozyskiwanie jednym kliknięciem: umożliwia szybkie pozyskiwanie danych przez tworzenie i dostosowywanie tabel z szerokiego zakresu typów źródłowych. Pozyskiwanie jednym kliknięciem automatycznie sugeruje tabele i struktury mapowania na podstawie źródła danych w usłudze Azure Synapse Data Explorer. Pozyskiwanie jednym kliknięciem może służyć do jednorazowego pozyskiwania lub do definiowania ciągłego pozyskiwania za pośrednictwem usługi Event Grid w kontenerze, do którego pozyskano dane.

Polecenia sterujące pozyskiwania języka zapytań Kusto

Istnieje wiele metod, za pomocą których dane można wczytywać bezpośrednio do silnika za pomocą poleceń języka KQL (Kusto Query Language). Ponieważ ta metoda pomija usługi zarządzania danymi, jest ona odpowiednia tylko do eksploracji i tworzenia prototypów. Nie używaj tej metody w scenariuszach produkcyjnych lub w scenariuszach o dużym natężeniu.

Ingestja liniowa: do aparatu jest wysyłane polecenie sterujące .ingest inline, przy czym dane do pozyskania są częścią tekstu samego polecenia. Ta metoda jest przeznaczona do improwizowanych celów testowych.
Pobieranie z zapytania: Polecenie sterujące .set, .append, .set-or-append lub .set-or-replace jest wysyłane do silnika, z danymi określonymi pośrednio jako wyniki zapytania lub polecenia.
Pozyskiwanie z magazynu (ściąganie): polecenie sterujące .wchłonięcie do. jest wysyłane do silnika, a dane przechowywane w zewnętrznym magazynie (na przykład Azure Blob Storage) są dostępne dla silnika i wskazywane przez polecenie.

Aby zapoznać się z przykładem używania poleceń kontroli pobierania, zobacz Analizowanie za pomocą Eksploratora danych.

Proces wprowadzania danych

Po wybraniu najbardziej odpowiedniej metody importowania dla Twoich potrzeb wykonaj następujące czynności:

Ustawianie zasad przechowywania

Dane pozyskane do tabeli w usłudze Azure Synapse Data Explorer podlegają obowiązującym zasadom przechowywania tabeli. Jeśli nie ustawiono jawnie zasad przechowywania na tabeli, efektywna polityka przechowywania jest czerpana z polityki przechowywania bazy danych. Przechowywanie na gorąco jest funkcją rozmiaru klastra oraz polityki przechowywania. Przetwarzanie większej ilości danych niż dostępne miejsce wymusi przeniesienie pierwszych danych do zimnego przechowywania.

Upewnij się, że zasady przechowywania bazy danych są odpowiednie dla Twoich potrzeb. Jeśli nie, jawnie przesłoń go na poziomie tabeli. Aby uzyskać więcej informacji, zobacz zasady przechowywania.
Utwórz tabelę

Aby pozyskiwać dane, należy wcześniej utworzyć tabelę. Użyj jednej z następujących opcji:
- Utwórz tabelę za pomocą polecenia . Przykład użycia polecenia create a table można znaleźć w temacie Analyze with Data Explorer (Analizowanie za pomocą Eksploratora danych).
- Utwórz tabelę za pomocą jednoklikowego importowania.
Uwaga / Notatka

Jeśli rekord jest niekompletny lub nie można przeanalizować pola jako wymaganego typu danych, odpowiednie kolumny tabeli zostaną wypełnione wartościami null.
Tworzenie mapowania schematu

Mapowanie schematu pomaga powiązać pola danych źródłowych z kolumnami tabeli docelowej. Mapowanie umożliwia przejmowanie danych z różnych źródeł do tej samej tabeli na podstawie zdefiniowanych atrybutów. Obsługiwane są różne typy mapowań, zarówno zorientowane na wiersze (CSV, JSON i AVRO), jak i zorientowane na kolumny (Parquet). W większości metod mapowania mapy można również wstępnie utworzyć w tabeli i odnosić się do nich z parametru polecenia pozyskiwania.
Ustawianie zasad aktualizacji (opcjonalnie)

Niektóre mapowania formatów danych (Parquet, JSON i Avro) obsługują proste i przydatne przekształcenia podczas wczytywania danych. Jeśli scenariusz wymaga bardziej złożonego przetwarzania w czasie pozyskiwania, użyj zasad aktualizacji, które umożliwiają uproszczone przetwarzanie przy użyciu poleceń języka zapytań Kusto. Polityka aktualizacji automatycznie uruchamia wyodrębnienia i przekształcenia danych w oryginalnej tabeli i ładuje wynikowe dane do jednej lub więcej tabel docelowych. Ustaw zasady aktualizacji.

Dalsze kroki

Last updated on 2025-03-24

Udostępnij przez