Wprowadzenie
Azure Databricks to oparta na chmurze platforma danych, która łączy najlepsze rozwiązania w zakresie inżynierii danych, nauki o danych i uczenia maszynowego w jednym, ujednoliconym obszarze roboczym. Oparta na platformie Apache Spark umożliwia organizacjom łatwe przetwarzanie, analizowanie i wizualizowanie ogromnych ilości danych w czasie rzeczywistym.
Łącząc się z szeroką gamą źródeł danych — od dostawców usług w chmurze, takich jak Azure SQL Database, Amazon S3 i Google Cloud Storage, po systemy przedsiębiorstwa, takie jak SAP i Oracle — usługa Azure Databricks ułatwia integrowanie i przekształcanie danych z dowolnego miejsca.
Po pozyskiwaniu danych zespoły w zakresie sprzedaży, marketingu, operacji, finansów, kadr i zrównoważonego rozwoju mogą używać usługi Databricks do zaawansowanej analizy, uczenia maszynowego, analizy biznesowej i analizy biznesowej opartej na sztucznej inteligencji.
Usługa Azure Databricks ułatwia organizacjom:
- Integrowanie danych z wielu źródeł
- Inżynier przekształca dane pierwotne w formaty do użytku.
- Efektywne przechowywanie i zarządzanie danymi z zapewnieniem ładu korporacyjnego i bezpieczeństwa
- Stosowanie analiz w czasie rzeczywistym, uczenia maszynowego i modeli sztucznej inteligencji
- Tworzenie lepszych decyzji biznesowych i rezultatów
Data Lakehouse
Data Lakehouse to podejście do zarządzania danymi, które łączy mocne strony jezior danych i magazynów danych. Oferuje ona skalowalny magazyn i przetwarzanie, dzięki czemu organizacje mogą obsługiwać różne obciążenia — takie jak uczenie maszynowe i analiza biznesowa — bez polegania na oddzielnych, odłączonych systemach. Dzięki scentralizowaniu danych usługa Lakehouse obsługuje pojedyncze źródło prawdy, zmniejsza zduplikowane koszty i zapewnia aktualność informacji.
Wiele lakehouse'ów stosuje wzorzec projektowania warstwowego, w którym dane są stopniowo ulepszane, wzbogacane i udoskonalane w miarę przetwarzania przez różne etapy. Takie podejście warstwowe — często nazywane architekturą medalionu — organizuje dane na etapach, które są oparte na sobie, co ułatwia efektywne zarządzanie i korzystanie z nich.
Usługa Databricks Lakehouse korzysta z dwóch kluczowych technologii:
- Delta Lake: zoptymalizowana warstwa magazynu, która obsługuje transakcje ACID i wymuszanie schematu.
- Unity Catalog: ujednolicone, szczegółowe rozwiązanie do zarządzania danymi i sztuczną inteligencją.