Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule wymieniono sposoby konfigurowania pozyskiwania przyrostowego z magazynu obiektów w chmurze.
Dodawanie interfejsu użytkownika danych
Aby dowiedzieć się, jak użyć interfejsu użytkownika do dodawania danych, aby utworzyć zarządzaną tabelę z danych w chmurowym magazynie obiektów, zobacz Ładowanie danych za pomocą zewnętrznej lokalizacji w Katalogu Unity.
Notatnik lub edytor SQL
W tej sekcji opisano opcje konfigurowania pozyskiwania przyrostowego z magazynu obiektów w chmurze przy użyciu notesu lub edytora SQL usługi Databricks.
Automatyczny moduł ładowania
Automatycznie ładujący przyrostowo i wydajnie przetwarza nowe pliki danych w miarę ich przybycia do magazynu w chmurze bez konieczności dodatkowej konfiguracji. Moduł automatycznego ładowania udostępnia źródło przesyłania strumieniowego ze strukturą o nazwie cloudFiles. Biorąc pod uwagę ścieżkę katalogu wejściowego w magazynie plików w chmurze, cloudFiles źródło automatycznie przetwarza nowe pliki po ich nadejściu, z opcją również przetwarzania istniejących plików w tym katalogu.
COPY INTO
Dzięki COPY INTOużytkownicy SQL mogą idempotentnie i przyrostowo importować dane z magazynu obiektów w chmurze do tabel Delta. Możesz użyć COPY INTO w usłudze Databricks SQL, notesach i zadaniach Lakeflow.
Kiedy należy używać COPY INTO i kiedy używać automatycznego modułu ładującego
Poniżej przedstawiono kilka kwestii, które należy wziąć pod uwagę podczas wybierania między modułem automatycznego ładowania i COPY INTO:
- Jeśli zamierzasz przetwarzać pliki w ilości tysięcy w miarę upływu czasu, możesz użyć
COPY INTO. Jeśli spodziewasz się plików w liczbie milionów lub więcej w miarę upływu czasu, użyj Auto Loader. Moduł automatycznego ładowania wymaga mniejszej liczby operacji odnajdywania plików w porównaniu zCOPY INTOi może podzielić przetwarzanie na wiele partii, co oznacza, że moduł automatycznego ładowania jest mniej kosztowny i bardziej wydajny na dużą skalę. - Jeśli schemat danych będzie często ewoluować, moduł automatycznego ładowania zapewnia lepsze typy danych pierwotnych wokół wnioskowania i ewolucji schematu. Aby uzyskać więcej informacji, zobacz Konfigurowanie wnioskowania schematu i ewolucji w Auto Loaderze.
- Ładowanie podzestawu ponownie przekazanych plików może być nieco łatwiejsze do zarządzania za pomocą polecenia
COPY INTO. W przypadku automatycznego modułu ładującego trudniej jest ponownie przetworzyć wybrany podzbiór plików. Można jednak użyćCOPY INTOdo ponownego załadowania podzbioru plików, podczas gdy strumień Auto Loadera działa jednocześnie.
- Dla jeszcze bardziej skalowalnego i niezawodnego procesu przetwarzania plików, Auto Loader umożliwia użytkownikom SQL wykorzystywanie tabel strumieniowych. Zobacz Korzystanie z tabel przesyłania strumieniowego w usłudze Databricks SQL.
Aby uzyskać krótkie omówienie i prezentację Auto Loader i COPY INTO, obejrzyj następujący film wideo w serwisie YouTube (2 minuty).
Automatyzowanie procesu ETL z użyciem deklaratywnych potoków Lakeflow Spark i Auto Loader
Możesz uprościć wdrażanie skalowalnej, przyrostowej infrastruktury pozyskiwania z użyciem narzędzi Auto Loader i potoków deklaratywnych Lakeflow Spark. Potoki deklaratywne Lakeflow Spark nie korzystają ze standardowego interaktywnego wykonywania, które można znaleźć w notesach, zamiast tego koncentrują się na wdrażaniu infrastruktury gotowej do produkcji.
- Samouczek: Tworzenie potoku ETL przy użyciu deklaratywnych potoków Lakeflow Spark
- Dołączanie danych z usługi Azure Data Lake Storage
Narzędzia do integrowania danych zewnętrznych dostawców
Usługa Databricks zatwierdza integracje technologiczne partnerów, które umożliwiają pozyskiwanie danych z różnych źródeł, w tym magazynu obiektów w chmurze. Te integracje umożliwiają niskokodowe, skalowalne pozyskiwanie danych z różnych źródeł do usługi Azure Databricks. Zobacz Partnerów technologicznych. Niektórzy partnerzy technologiczni są polecani w artykule Co to jest program Databricks Partner Connect?, który udostępnia interfejs użytkownika, który upraszcza łączenie narzędzi innych firm z danymi typu lakehouse.