Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Platforma Apache Spark jest sercem platformy analizy danych usługi Azure Databricks i jest technologią obsługujące klastry obliczeniowe i magazyny SQL. Azure Databricks to zoptymalizowana platforma dla platformy Apache Spark, która zapewnia wydajną i prostą platformę do uruchamiania obciążeń platformy Apache Spark.
Jaka jest relacja platformy Apache Spark z usługą Azure Databricks?
Firma Databricks została założona przez oryginalnych twórców platformy Apache Spark. Jako projekt oprogramowania typu open source, Apache Spark ma committerów z wielu wiodących firm, w tym Databricks.
Usługa Databricks kontynuuje opracowywanie i wydawanie funkcji na platformie Apache Spark. Środowisko Databricks Runtime, które obsługuje usługę Azure Databricks, obejmuje dodatkowe optymalizacje i zastrzeżone funkcje, które tworzą i rozszerzają platformę Apache Spark, w tym photon, zoptymalizowaną warstwę wykonywania, która może być używana w połączeniu z platformą Spark. Usługa Databricks Photon jest przeznaczona do pracy z obciążeniami platformy Apache Spark i poprawiania ich wydajności. Aplikacja Photon zwiększa wydajność platformy Spark przez wektoryzowanie zapytań i innych operacji, co pozwala na szybsze wykonywanie operacji interfejsu API SQL i ramki danych.
W jaki sposób usługa Databricks jest zoptymalizowana pod kątem platformy Apache Spark?
Na platformie Apache Spark wszystkie operacje są definiowane jako przekształcenia lub akcje.
- Przekształcenia: dodaj logikę przetwarzania do planu. Przykłady obejmują odczytywanie danych, łączenia, agregacje i rzutowanie typów.
- Akcje: wyzwalanie logiki przetwarzania w celu oceny i wyprowadzania wyniku. Przykłady obejmują zapis, wyświetlanie wyników lub podgląd wyników, ręczne buforowanie lub zliczanie wierszy.
Apache Spark używa leniwego modelu wykonywania, co oznacza, że żadna logika zdefiniowana przez kolekcję operacji nie jest wykonywana do momentu wywołania akcji. Aby uniknąć niepotrzebnej oceny logiki, użyj tylko akcji, aby zapisać wyniki z powrotem do tabeli docelowej.
Ponieważ akcje stanowią wąskie gardło dla przetwarzania, co utrudnia optymalizację logiki, Azure Databricks dodał liczne optymalizacje do tych już obecnych w Apache Spark, aby zapewnić optymalne wykonywanie logiki. Te optymalizacje uwzględniają wszystkie przekształcenia wyzwalane przez daną akcję jednocześnie i znalezienie optymalnego planu na podstawie fizycznego układu danych. Ręczne buforowanie danych lub zwracanie wyników podglądu w liniach produkcyjnych może przerwać te optymalizacje i prowadzić do wzrostu kosztów i latencji.
Jak działa platforma Apache Spark w usłudze Azure Databricks?
Podczas wdrażania klastra obliczeniowego lub usługi SQL Warehouse w usłudze Azure Databricks platforma Apache Spark jest konfigurowana i wdrażana na maszynach wirtualnych. Nie musisz konfigurować ani inicjować kontekstu platformy Spark ani sesji platformy Spark, ponieważ są one zarządzane przez usługę Azure Databricks.
Czy mogę używać usługi Azure Databricks bez korzystania z platformy Apache Spark?
Tak. Usługa Azure Databricks obsługuje różne obciążenia i obejmuje biblioteki open source w środowisku Databricks Runtime. Usługa Databricks SQL używa aplikacji Photon pod maską, ale użytkownicy końcowi mogą używać składni Spark SQL do tworzenia obiektów bazy danych i wykonywania zapytań względem nich za pomocą aplikacji Photon.
Środowisko Databricks Runtime for Machine Learning jest zoptymalizowane pod kątem obciążeń uczenia maszynowego, a wielu analityków danych korzysta z podstawowych bibliotek typu open source, takich jak TensorFlow i SciKit Learn podczas pracy z usługą Azure Databricks. Za pomocą zadań można zaplanować dowolne obciążenia względem zasobów obliczeniowych wdrożonych i zarządzanych przez usługę Azure Databricks.
Dlaczego warto używać platformy Apache Spark w usłudze Azure Databricks?
Platforma Databricks zapewnia bezpieczne, wspólne środowisko do tworzenia i wdrażania rozwiązań dla przedsiębiorstw, które są skalowane wraz z twoją firmą. Pracownicy usługi Databricks obejmują wielu najbardziej znających się na świecie opiekunów i użytkowników platformy Apache Spark. Firma stale opracowuje i publikuje nowe optymalizacje, aby zapewnić użytkownikom dostęp do najszybszego środowiska do uruchamiania platformy Apache Spark.
Jak dowiedzieć się więcej na temat korzystania z platformy Apache Spark w usłudze Azure Databricks?
Aby rozpocząć pracę z platformą Apache Spark w usłudze Azure Databricks, zapoznaj się z tym tematem! Samouczek dotyczący ramek danych platformy Apache Spark zawiera omówienie ładowania i przekształcania danych w języku Python, R lub Scala. Zobacz Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark. Inne przewodniki i linki do dodatkowych informacji można znaleźć w temacie Apache Spark on Azure Databricks (Platforma Apache Spark w usłudze Azure Databricks).
Aby uzyskać dodatkowe informacje na temat obsługi języków Python, R i Scala na platformie Spark, zobacz PySpark w usłudze Azure Databricks, sparklyr i Azure Databricks dla deweloperów języka Scala, a także w temacie Dokumentacja interfejsów API platformy Apache Spark.