Wprowadzenie

Zakończone

Azure Databricks to oparta na chmurze platforma danych, która łączy najlepsze rozwiązania w zakresie inżynierii danych, nauki o danych i uczenia maszynowego w jednym, ujednoliconym obszarze roboczym. Oparta na platformie Apache Spark umożliwia organizacjom łatwe przetwarzanie, analizowanie i wizualizowanie ogromnych ilości danych w czasie rzeczywistym.

Diagram przedstawiający przegląd usługi Azure Databricks.

Łącząc się z szeroką gamą źródeł danych — od dostawców usług w chmurze, takich jak Azure SQL Database, Amazon S3 i Google Cloud Storage, po systemy przedsiębiorstwa, takie jak SAP i Oracle — usługa Azure Databricks ułatwia integrowanie i przekształcanie danych z dowolnego miejsca.

Po pozyskiwaniu danych zespoły w zakresie sprzedaży, marketingu, operacji, finansów, kadr i zrównoważonego rozwoju mogą używać usługi Databricks do zaawansowanej analizy, uczenia maszynowego, analizy biznesowej i analizy biznesowej opartej na sztucznej inteligencji.

Usługa Azure Databricks ułatwia organizacjom:

  • Integrowanie danych z wielu źródeł
  • Inżynier przekształca dane pierwotne w formaty do użytku.
  • Efektywne przechowywanie i zarządzanie danymi z zapewnieniem ładu korporacyjnego i bezpieczeństwa
  • Stosowanie analiz w czasie rzeczywistym, uczenia maszynowego i modeli sztucznej inteligencji
  • Tworzenie lepszych decyzji biznesowych i rezultatów

Data Lakehouse

Data Lakehouse to podejście do zarządzania danymi, które łączy mocne strony jezior danych i magazynów danych. Oferuje ona skalowalny magazyn i przetwarzanie, dzięki czemu organizacje mogą obsługiwać różne obciążenia — takie jak uczenie maszynowe i analiza biznesowa — bez polegania na oddzielnych, odłączonych systemach. Dzięki scentralizowaniu danych usługa Lakehouse obsługuje pojedyncze źródło prawdy, zmniejsza zduplikowane koszty i zapewnia aktualność informacji.

Wiele lakehouse'ów stosuje wzorzec projektowania warstwowego, w którym dane są stopniowo ulepszane, wzbogacane i udoskonalane w miarę przetwarzania przez różne etapy. Takie podejście warstwowe — często nazywane architekturą medalionu — organizuje dane na etapach, które są oparte na sobie, co ułatwia efektywne zarządzanie i korzystanie z nich.

Usługa Databricks Lakehouse korzysta z dwóch kluczowych technologii:

  • Delta Lake: zoptymalizowana warstwa magazynu, która obsługuje transakcje ACID i wymuszanie schematu.
  • Unity Catalog: ujednolicone, szczegółowe rozwiązanie do zarządzania danymi i sztuczną inteligencją.