Udostępnij przez


Pobieranie danych z magazynu obiektów w chmurze

W tym artykule wymieniono sposoby konfigurowania pozyskiwania przyrostowego z magazynu obiektów w chmurze.

Dodawanie interfejsu użytkownika danych

Aby dowiedzieć się, jak użyć interfejsu użytkownika do dodawania danych, aby utworzyć zarządzaną tabelę z danych w chmurowym magazynie obiektów, zobacz Ładowanie danych za pomocą zewnętrznej lokalizacji w Katalogu Unity.

Notatnik lub edytor SQL

W tej sekcji opisano opcje konfigurowania pozyskiwania przyrostowego z magazynu obiektów w chmurze przy użyciu notesu lub edytora SQL usługi Databricks.

Automatyczny moduł ładowania

Automatycznie ładujący przyrostowo i wydajnie przetwarza nowe pliki danych w miarę ich przybycia do magazynu w chmurze bez konieczności dodatkowej konfiguracji. Moduł automatycznego ładowania udostępnia źródło przesyłania strumieniowego ze strukturą o nazwie cloudFiles. Biorąc pod uwagę ścieżkę katalogu wejściowego w magazynie plików w chmurze, cloudFiles źródło automatycznie przetwarza nowe pliki po ich nadejściu, z opcją również przetwarzania istniejących plików w tym katalogu.

COPY INTO

Dzięki COPY INTOużytkownicy SQL mogą idempotentnie i przyrostowo importować dane z magazynu obiektów w chmurze do tabel Delta. Możesz użyć COPY INTO w usłudze Databricks SQL, notesach i zadaniach Lakeflow.

Kiedy należy używać COPY INTO i kiedy używać automatycznego modułu ładującego

Poniżej przedstawiono kilka kwestii, które należy wziąć pod uwagę podczas wybierania między modułem automatycznego ładowania i COPY INTO:

  • Jeśli zamierzasz przetwarzać pliki w ilości tysięcy w miarę upływu czasu, możesz użyć COPY INTO. Jeśli spodziewasz się plików w liczbie milionów lub więcej w miarę upływu czasu, użyj Auto Loader. Moduł automatycznego ładowania wymaga mniejszej liczby operacji odnajdywania plików w porównaniu z COPY INTO i może podzielić przetwarzanie na wiele partii, co oznacza, że moduł automatycznego ładowania jest mniej kosztowny i bardziej wydajny na dużą skalę.
  • Jeśli schemat danych będzie często ewoluować, moduł automatycznego ładowania zapewnia lepsze typy danych pierwotnych wokół wnioskowania i ewolucji schematu. Aby uzyskać więcej informacji, zobacz Konfigurowanie wnioskowania schematu i ewolucji w Auto Loaderze.
  • Ładowanie podzestawu ponownie przekazanych plików może być nieco łatwiejsze do zarządzania za pomocą polecenia COPY INTO. W przypadku automatycznego modułu ładującego trudniej jest ponownie przetworzyć wybrany podzbiór plików. Można jednak użyć COPY INTO do ponownego załadowania podzbioru plików, podczas gdy strumień Auto Loadera działa jednocześnie.

Aby uzyskać krótkie omówienie i prezentację Auto Loader i COPY INTO, obejrzyj następujący film wideo w serwisie YouTube (2 minuty).

Automatyzowanie procesu ETL z użyciem deklaratywnych potoków Lakeflow Spark i Auto Loader

Możesz uprościć wdrażanie skalowalnej, przyrostowej infrastruktury pozyskiwania z użyciem narzędzi Auto Loader i potoków deklaratywnych Lakeflow Spark. Potoki deklaratywne Lakeflow Spark nie korzystają ze standardowego interaktywnego wykonywania, które można znaleźć w notesach, zamiast tego koncentrują się na wdrażaniu infrastruktury gotowej do produkcji.

Narzędzia do integrowania danych zewnętrznych dostawców

Usługa Databricks zatwierdza integracje technologiczne partnerów, które umożliwiają pozyskiwanie danych z różnych źródeł, w tym magazynu obiektów w chmurze. Te integracje umożliwiają niskokodowe, skalowalne pozyskiwanie danych z różnych źródeł do usługi Azure Databricks. Zobacz Partnerów technologicznych. Niektórzy partnerzy technologiczni są polecani w artykule Co to jest program Databricks Partner Connect?, który udostępnia interfejs użytkownika, który upraszcza łączenie narzędzi innych firm z danymi typu lakehouse.