Udostępnij przez


Omówienie platformy Apache Spark

Apache Spark to technologia umożliwiająca klastry obliczeniowe i magazyny SQL w usłudze Azure Databricks.

Ta strona zawiera omówienie dokumentacji w tej sekcji.

Wprowadzenie

Rozpocznij pracę z platformą Apache Spark w usłudze Databricks.

Temat Description
Platforma Apache Spark w usłudze Azure Databricks Uzyskaj odpowiedzi na często zadawane pytania dotyczące platformy Apache Spark w usłudze Azure Databricks.
Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark Postępuj zgodnie z przewodnikiem krok po kroku dotyczącym pracy z ramkami danych platformy Spark w języku Python, R lub Scala na potrzeby ładowania i przekształcania danych.
Podstawy PySpark Poznaj podstawy korzystania z programu PySpark, przechodząc przez proste przykłady.

Dodatkowe zasoby

Zapoznaj się z innymi możliwościami i dokumentacją platformy Spark.

Temat Description
Porównaj Spark Connect z Spark Classic Dowiedz się więcej o kluczowych różnicach między usługami Spark Connect i Spark Classic w zakresie wykonywania i analizy, aby uniknąć nieoczekiwanych zachowań i problemów z wydajnością podczas migrowania kodu.
Ustawianie właściwości konfiguracji platformy Spark w usłudze Azure Databricks Ustaw właściwości konfiguracji platformy Spark, aby dostosować ustawienia w środowisku obliczeniowym i zoptymalizować wydajność.
Przesyłanie strumieniowe ze strukturą Przeczytaj omówienie Structured Streaming, czyli silnika przetwarzania niemal w czasie rzeczywistym.
Diagnozowanie problemów z kosztami i wydajnością przy użyciu interfejsu użytkownika platformy Spark Dowiedz się, jak używać interfejsu użytkownika platformy Spark do dostrajania wydajności, debugowania i optymalizacji kosztów zadań platformy Spark.
Korzystanie z biblioteki MLlib platformy Apache Spark w usłudze Azure Databricks Rozproszone uczenie maszynowe z wykorzystaniem Spark MLlib i integracja z popularnymi frameworkami uczenia maszynowego.

Interfejsy API platformy Spark

Praca z platformą Spark przy użyciu preferowanego języka programowania.

Temat Description
Dokumentacja interfejsów API platformy Apache Spark Omówienie dokumentacji interfejsu API Apache Spark, w tym linki do dokumentacji Spark SQL, struktur danych i operacji RDD w różnych obsługiwanych językach.
PySpark Używanie języka Python z platformą Spark, w tym podstaw pySpark, niestandardowych źródeł danych i optymalizacji specyficznych dla języka Python.
Interfejs API biblioteki Pandas na platformie Spark Skorzystaj ze znanej składni biblioteki pandas ze skalowalnością platformy Spark na potrzeby rozproszonego przetwarzania danych.
Język R dla platformy Spark Praca w środowisku R i Spark przy użyciu interfejsów SparkR i sparklyr na potrzeby obliczeń statystycznych i analizy danych.
Scala dla platformy Spark Twórz aplikacje spark o wysokiej wydajności przy użyciu języka Scala z natywnymi interfejsami API platformy Spark i bezpieczeństwem typów.