Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Databricks oferuje Lakeflow, kompleksowe rozwiązanie do inżynierii danych, które umożliwia inżynierom danych, deweloperom oprogramowania, deweloperom SQL, analitykom i naukowcom danych dostarczanie wysokiej jakości danych na potrzeby analizy danych, sztucznej inteligencji i aplikacji operacyjnych. Lakeflow to zunifikowane rozwiązanie do pozyskiwania, przekształcania i organizowania danych, obejmujące Lakeflow Connect, Potoki Deklaratywne Lakeflow Spark i Lakeflow Jobs.
Lakeflow Connect
Usługa Lakeflow Connect upraszcza pozyskiwanie danych za pomocą łączników do popularnych aplikacji dla przedsiębiorstw, baz danych, magazynu w chmurze, magistrali komunikatów i plików lokalnych. Zobacz Lakeflow Connect.
| Funkcja | Opis |
|---|---|
| Łączniki zarządzane | Łączniki zarządzane zapewniają prosty i intuicyjny interfejs użytkownika oraz usługę integracji opartą na konfiguracji z minimalnym nakładem operacyjnym, nie wymagając od Ciebie użycia podstawowej infrastruktury i interfejsów API potoku. |
| Łączniki standardowe | Łączniki standardowe umożliwiają dostęp do danych z szerszej gamy źródeł danych wewnątrz potoków lub innych zapytań. |
Potoki deklaratywne Lakeflow Spark (SDP)
Deklaratywne potoki danych Lakeflow Spark (SDP) to ramy deklaratywne, które redukują złożoność tworzenia oraz zarządzania wydajnymi potokami danych wsadowych i strumieniowych. Lakeflow SDP rozszerza i współpracuje z potokami deklaratywnymi platformy Apache Spark, działając na platformie Databricks Runtime zoptymalizowanej pod kątem wydajności. Protokół SDP automatycznie organizuje wykonywanie przepływów, ujść, tabel przesyłania strumieniowego i zmaterializowane widoki przez hermetyzowanie i uruchamianie ich jako potoku. Zobacz Lakeflow Spark Declarative Pipelines.
| Funkcja | Opis |
|---|---|
| Przepływy | Przepływy przetwarzają dane w potokach. Interfejs API przepływów używa tego samego API DataFrame co Apache Spark i Structured Streaming. Przepływ może zapisywać do tabel strumieniowych i odbiorników, takich jak temat Kafka, używając semantyki strumieniowej, lub może zapisywać do widoku materializowanego, używając semantyki wsadowej. |
| tabele przesyłania strumieniowego | Tabela przesyłania strumieniowego to tabela delty z dodatkową obsługą przesyłania strumieniowego lub przyrostowego przetwarzania danych. Działa jako element docelowy dla co najmniej jednego przepływu w potokach. |
| zmaterializowane widoki | Zmaterializowany widok to widok z buforowanymi wynikami umożliwiający szybszy dostęp. Zmaterializowany widok działa jako element docelowy dla potoków. |
| zlewozmywaki | Potoki obsługują zewnętrzne ujścia danych jako obiekty docelowe. Te miejsca docelowe mogą obejmować usługi przesyłania strumieniowego zdarzeń, takie jak Apache Kafka lub Azure Event Hubs, tabele zewnętrzne zarządzane przez Unity Catalog lub niestandardowe miejsca docelowe zdefiniowane w języku Python. |
Zadania Lakeflow
Lakeflow Jobs zapewniają niezawodną koordynację oraz monitorowanie procesów produkcyjnych dla dowolnych obciążeń danych i sztucznej inteligencji. Praca może składać się z jednego lub więcej zadań, które uruchamiają notesy, potoki, łączniki zarządzane, zapytania SQL, trening uczenia maszynowego oraz wdrażanie i wnioskowanie modelu. Zadania również obsługują niestandardową logikę przepływu sterowania, taką jak rozgałęzianie z instrukcjami if / else i pętle z instrukcjami dla każdego przypadku. Zobacz Zadania lakeflow.
| Funkcja | Opis |
|---|---|
| Zadania | Zadania to podstawowy zasób do orkiestracji. Reprezentują one proces, który chcesz wykonać zgodnie z harmonogramem. |
| Zadania | Określona jednostka pracy w zadaniu. Istnieje wiele typów zadań, które dają szereg opcji, które można wykonać w ramach zadania. |
| Przepływ sterowania w zadaniach | Zadania przepływu sterowania umożliwiają kontrolowanie, czy uruchamiać inne zadania, czy też kolejność zadań do uruchomienia. |
Databricks Runtime dla platformy Apache Spark
Środowisko uruchomieniowe Databricks to niezawodne, zoptymalizowane pod kątem wydajności środowisko obliczeniowe do uruchamiania obciążeń Spark, w tym wsadowych i strumieniowych. Databricks Runtime oferuje Photon, wektorowy silnik zapytań zoptymalizowany pod kątem wysokiej wydajności, natywny dla Databricks, oraz różne optymalizacje infrastruktury, takie jak automatyczne skalowanie. Obciążenia Spark i Strukturalnego Przesyłania Strumieniowego można uruchamiać w środowisku Databricks Runtime, budując programy Spark jako notesy, pliki JAR lub pakiety Python. Zobacz Databricks Runtime for Apache Spark (Środowisko uruchomieniowe usługi Databricks dla platformy Apache Spark).
| Funkcja | Opis |
|---|---|
| Platforma Apache Spark w usłudze Databricks | Platforma Spark jest sercem platformy analizy danych usługi Databricks. |
| Przesyłanie strumieniowe ze strukturą | Strukturalne przesyłanie strumieniowe to silnik przetwarzania danych strumieniowych Spark działający niemal w czasie rzeczywistym. |
Co się stało z tabelami Delta Live (DLT)?
Jeśli znasz tabele delta Live Tables (DLT), zobacz Co się stało z tabelami delta live tables (DLT)?.
Dodatkowe zasoby
- Pojęcia dotyczące inżynierii danych opisują pojęcia dotyczące inżynierii danych w usłudze Azure Databricks.
- Delta Lake to zoptymalizowana warstwa magazynowania, która stanowi podstawę dla tabel w lakehouse na Azure Databricks.
- Najlepsze praktyki inżynierii danych nauczysz się najlepszych praktyk inżynierii danych w usłudze Azure Databricks.
- Notatniki Databricks są popularnym narzędziem do współpracy i rozwoju.
- Usługa Databricks SQL opisuje używanie zapytań SQL i narzędzi analizy biznesowej w usłudze Azure Databricks.
- Usługa Databricks Mosaic AI opisuje tworzenie architektury rozwiązań uczenia maszynowego.