Udostępnij przez


Używanie potoków deklaratywnych Lakeflow Spark ze starszym magazynem metadanych Hive

Ten artykuł zawiera szczegółowe informacje o konfiguracjach i zastrzeżeniach specyficznych dla potoków deklaratywnych Lakeflow Spark skonfigurowanych do publikowania danych do starszego metastore'a Hive. Databricks zaleca używanie Unity Catalog dla wszystkich nowych pipeline'ów. Zobacz Używanie Unity Catalogu z potokami.

Uwaga / Notatka

Artykuł omawia funkcjonalności bieżącego trybu publikowania domyślnego dla potoków. Rurociągi utworzone przed 5 lutego 2025 roku mogą korzystać ze starszego trybu publikacji i LIVE wirtualnego schematu. Zobacz LIVE schema (legacy).

Jak wykonywać zapytania dotyczące tabel strumieniowych i zmaterializowanych widoków w starszej przechowalni metadanych Hive

Po zakończeniu aktualizacji można wyświetlić schemat i tabele, wykonać zapytanie dotyczące danych lub użyć danych w aplikacjach podrzędnych.

Po opublikowaniu tabele Deklaratywnych Potoków Lakeflow Spark mogą być odpytywane z dowolnego środowiska z dostępem do schematu docelowego. Obejmuje to usługę Databricks SQL, notesy i inne potoki deklaratywne platformy Spark w usłudze Lakeflow.

Ważne

Podczas tworzenia konfiguracji target publikowane są tylko tabele i skojarzone metadane. Widoki nie są publikowane w metastore.

Konfigurowanie potoku do publikowania w metastore Hive

Aby opublikować w starszym magazynie metadanych Hive, wybierz pozycję Użyj magazynu metadanych Hive w obszarze Opcje zaawansowane podczas tworzenia nowego potoku (może być konieczne wybranie opcji Zobacz więcej , aby wyświetlić tę opcję). Podczas publikowania w magazynie metadanych Hive należy określić domyślny schemat docelowy. Zobacz Konfigurowanie potoków.

Określanie lokalizacji przechowywania

Możesz określić lokalizację pamięci dla potoku, który publikuje do metastore Hive. Główną motywacją do określenia lokalizacji jest kontrolowanie miejsca przechowywania obiektów dla danych zapisywanych przez potok. Usługa Databricks zaleca zawsze określać lokalizację przechowywania, aby uniknąć zapisywania w katalogu głównym systemu plików DBFS.

Ponieważ wszystkie tabele, dane, punkty kontrolne i metadane potoków deklaratywnych Lakeflow Spark są w pełni zarządzane przez Lakeflow Spark Declarative Pipelines, większość interakcji z zestawami danych Lakeflow Spark Declarative Pipelines odbywa się za pośrednictwem tabel zarejestrowanych w magazynie metadanych Hive lub wykazie Unity Catalog.

Konfiguracja magazynu w chmurze

Aby uzyskać dostęp do usługi Azure Storage, należy skonfigurować wymagane parametry, w tym tokeny dostępu, przy użyciu ustawień spark.conf w konfiguracjach klastra. Aby zapoznać się z przykładem konfigurowania dostępu do konta magazynowego usługi Azure Data Lake Storage (ADLS), zobacz Bezpieczny dostęp do poświadczeń magazynowych za pomocą tajnych danych w potoku przetwarzania.

praca z dziennikiem zdarzeń dla potoków magazynu metadanych Hive

Jeśli potok publikuje tabele w magazynie metadanych Hive, dziennik zdarzeń jest przechowywany w /system/events w lokalizacji storage. Jeśli na przykład skonfigurowano ustawienie storage potoku jako /Users/username/data, dziennik zdarzeń jest przechowywany w ścieżce /Users/username/data/system/events w systemie plików DBFS.

Jeśli ustawienie storage nie zostało skonfigurowane, domyślna lokalizacja dziennika zdarzeń jest /pipelines/<pipeline-id>/system/events w systemie plików DBFS. Jeśli na przykład identyfikator potoku jest 91de5e48-35ed-11ec-8d3d-0242ac130003, lokalizacja przechowywania jest /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

Widok można utworzyć, aby uprościć wykonywanie zapytań w dzienniku zdarzeń. Poniższy przykład tworzy widok tymczasowy o nazwie event_log_raw. Ten widok jest używany w przykładowych zapytaniach dziennika zdarzeń zawartych w tym artykule:

CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Zastąp <event-log-path> lokalizacją dziennika zdarzeń.

Każde wystąpienie uruchomienia potoku jest określane jako aktualizacja. Często chcesz wyodrębnić informacje dotyczące najnowszej aktualizacji. Uruchom następujące zapytanie, aby znaleźć identyfikator najnowszej aktualizacji i zapisać go w widoku tymczasowym latest_update_id. Ten widok jest używany w przykładowych zapytaniach dziennika zdarzeń zawartych w tym artykule:

CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

Możesz wykonać zapytanie dotyczące dziennika zdarzeń w notesie usługi Azure Databricks lub edytorze SQL. Użyj notesu lub edytora SQL, aby uruchomić przykładowe zapytania dziennika zdarzeń.

Przykładowe notatniki kodu źródłowego dla potoków w obszarach roboczych bez Unity Catalog

Następujące notesy można zaimportować do obszaru roboczego Azure Databricks bez włączonego Unity Catalog i użyć ich do wdrożenia deklaratywnych potoków Spark w Lakeflow. Zaimportuj notes w wybranym przez ciebie języku i określ ścieżkę w polu kod źródłowy podczas konfigurowania potoku przy użyciu opcji magazynu metadanych programu Hive. Zobacz Konfigurowanie potoków.

Rozpocznij korzystanie z

Pobierz laptopa

Rozpocznij korzystanie z

Pobierz laptopa