Inżynieria danych w usłudze Databricks

Databricks oferuje Lakeflow, kompleksowe rozwiązanie do inżynierii danych, które umożliwia inżynierom danych, deweloperom oprogramowania, deweloperom SQL, analitykom i naukowcom danych dostarczanie wysokiej jakości danych na potrzeby analizy danych, sztucznej inteligencji i aplikacji operacyjnych. Lakeflow to zunifikowane rozwiązanie do pozyskiwania, przekształcania i organizowania danych, obejmujące Lakeflow Connect, Potoki Deklaratywne Lakeflow Spark i Lakeflow Jobs.

Lakeflow Connect

Usługa Lakeflow Connect upraszcza pozyskiwanie danych za pomocą łączników do popularnych aplikacji dla przedsiębiorstw, baz danych, magazynu w chmurze, magistrali komunikatów i plików lokalnych. Zobacz Lakeflow Connect.

Funkcja	Opis
Łączniki zarządzane	Łączniki zarządzane zapewniają prosty i intuicyjny interfejs użytkownika oraz usługę integracji opartą na konfiguracji z minimalnym nakładem operacyjnym, nie wymagając od Ciebie użycia podstawowej infrastruktury i interfejsów API potoku.
Łączniki standardowe	Łączniki standardowe umożliwiają dostęp do danych z szerszej gamy źródeł danych wewnątrz potoków lub innych zapytań.

Potoki deklaratywne Lakeflow Spark (SDP)

Deklaratywne potoki danych Lakeflow Spark (SDP) to ramy deklaratywne, które redukują złożoność tworzenia oraz zarządzania wydajnymi potokami danych wsadowych i strumieniowych. Lakeflow SDP rozszerza i współpracuje z potokami deklaratywnymi platformy Apache Spark, działając na platformie Databricks Runtime zoptymalizowanej pod kątem wydajności. Protokół SDP automatycznie organizuje wykonywanie przepływów, ujść, tabel przesyłania strumieniowego i zmaterializowane widoki przez hermetyzowanie i uruchamianie ich jako potoku. Zobacz Lakeflow Spark Declarative Pipelines.

Funkcja	Opis
Przepływy	Przepływy przetwarzają dane w potokach. Interfejs API przepływów używa tego samego API DataFrame co Apache Spark i Structured Streaming. Przepływ może zapisywać do tabel strumieniowych i odbiorników, takich jak temat Kafka, używając semantyki strumieniowej, lub może zapisywać do widoku materializowanego, używając semantyki wsadowej.
tabele przesyłania strumieniowego	Tabela przesyłania strumieniowego to tabela delty z dodatkową obsługą przesyłania strumieniowego lub przyrostowego przetwarzania danych. Działa jako element docelowy dla co najmniej jednego przepływu w potokach.
zmaterializowane widoki	Zmaterializowany widok to widok z buforowanymi wynikami umożliwiający szybszy dostęp. Zmaterializowany widok działa jako element docelowy dla potoków.
zlewozmywaki	Potoki obsługują zewnętrzne ujścia danych jako obiekty docelowe. Te miejsca docelowe mogą obejmować usługi przesyłania strumieniowego zdarzeń, takie jak Apache Kafka lub Azure Event Hubs, tabele zewnętrzne zarządzane przez Unity Catalog lub niestandardowe miejsca docelowe zdefiniowane w języku Python.

Zadania Lakeflow

Lakeflow Jobs zapewniają niezawodną koordynację oraz monitorowanie procesów produkcyjnych dla dowolnych obciążeń danych i sztucznej inteligencji. Praca może składać się z jednego lub więcej zadań, które uruchamiają notesy, potoki, łączniki zarządzane, zapytania SQL, trening uczenia maszynowego oraz wdrażanie i wnioskowanie modelu. Zadania również obsługują niestandardową logikę przepływu sterowania, taką jak rozgałęzianie z instrukcjami if / else i pętle z instrukcjami dla każdego przypadku. Zobacz Zadania lakeflow.

Funkcja	Opis
Zadania	Zadania to podstawowy zasób do orkiestracji. Reprezentują one proces, który chcesz wykonać zgodnie z harmonogramem.
Zadania	Określona jednostka pracy w zadaniu. Istnieje wiele typów zadań, które dają szereg opcji, które można wykonać w ramach zadania.
Przepływ sterowania w zadaniach	Zadania przepływu sterowania umożliwiają kontrolowanie, czy uruchamiać inne zadania, czy też kolejność zadań do uruchomienia.

Databricks Runtime dla platformy Apache Spark

Środowisko uruchomieniowe Databricks to niezawodne, zoptymalizowane pod kątem wydajności środowisko obliczeniowe do uruchamiania obciążeń Spark, w tym wsadowych i strumieniowych. Databricks Runtime oferuje Photon, wektorowy silnik zapytań zoptymalizowany pod kątem wysokiej wydajności, natywny dla Databricks, oraz różne optymalizacje infrastruktury, takie jak automatyczne skalowanie. Obciążenia Spark i Strukturalnego Przesyłania Strumieniowego można uruchamiać w środowisku Databricks Runtime, budując programy Spark jako notesy, pliki JAR lub pakiety Python. Zobacz Databricks Runtime for Apache Spark (Środowisko uruchomieniowe usługi Databricks dla platformy Apache Spark).

Funkcja	Opis
Platforma Apache Spark w usłudze Databricks	Platforma Spark jest sercem platformy analizy danych usługi Databricks.
Przesyłanie strumieniowe ze strukturą	Strukturalne przesyłanie strumieniowe to silnik przetwarzania danych strumieniowych Spark działający niemal w czasie rzeczywistym.

Co się stało z tabelami Delta Live (DLT)?

Jeśli znasz tabele delta Live Tables (DLT), zobacz Co się stało z tabelami delta live tables (DLT)?.

Dodatkowe zasoby

Pojęcia dotyczące inżynierii danych opisują pojęcia dotyczące inżynierii danych w usłudze Azure Databricks.
Delta Lake to zoptymalizowana warstwa magazynowania, która stanowi podstawę dla tabel w lakehouse na Azure Databricks.
Najlepsze praktyki inżynierii danych nauczysz się najlepszych praktyk inżynierii danych w usłudze Azure Databricks.
Notatniki Databricks są popularnym narzędziem do współpracy i rozwoju.
Usługa Databricks SQL opisuje używanie zapytań SQL i narzędzi analizy biznesowej w usłudze Azure Databricks.
Usługa Databricks Mosaic AI opisuje tworzenie architektury rozwiązań uczenia maszynowego.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-12-12