Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Apache Spark to technologia umożliwiająca klastry obliczeniowe i magazyny SQL w usłudze Azure Databricks.
Ta strona zawiera omówienie dokumentacji w tej sekcji.
Wprowadzenie
Rozpocznij pracę z platformą Apache Spark w usłudze Databricks.
| Temat | Description |
|---|---|
| Platforma Apache Spark w usłudze Azure Databricks | Uzyskaj odpowiedzi na często zadawane pytania dotyczące platformy Apache Spark w usłudze Azure Databricks. |
| Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark | Postępuj zgodnie z przewodnikiem krok po kroku dotyczącym pracy z ramkami danych platformy Spark w języku Python, R lub Scala na potrzeby ładowania i przekształcania danych. |
| Podstawy PySpark | Poznaj podstawy korzystania z programu PySpark, przechodząc przez proste przykłady. |
Dodatkowe zasoby
Zapoznaj się z innymi możliwościami i dokumentacją platformy Spark.
| Temat | Description |
|---|---|
| Porównaj Spark Connect z Spark Classic | Dowiedz się więcej o kluczowych różnicach między usługami Spark Connect i Spark Classic w zakresie wykonywania i analizy, aby uniknąć nieoczekiwanych zachowań i problemów z wydajnością podczas migrowania kodu. |
| Ustawianie właściwości konfiguracji platformy Spark w usłudze Azure Databricks | Ustaw właściwości konfiguracji platformy Spark, aby dostosować ustawienia w środowisku obliczeniowym i zoptymalizować wydajność. |
| Przesyłanie strumieniowe ze strukturą | Przeczytaj omówienie Structured Streaming, czyli silnika przetwarzania niemal w czasie rzeczywistym. |
| Diagnozowanie problemów z kosztami i wydajnością przy użyciu interfejsu użytkownika platformy Spark | Dowiedz się, jak używać interfejsu użytkownika platformy Spark do dostrajania wydajności, debugowania i optymalizacji kosztów zadań platformy Spark. |
| Korzystanie z biblioteki MLlib platformy Apache Spark w usłudze Azure Databricks | Rozproszone uczenie maszynowe z wykorzystaniem Spark MLlib i integracja z popularnymi frameworkami uczenia maszynowego. |
Interfejsy API platformy Spark
Praca z platformą Spark przy użyciu preferowanego języka programowania.
| Temat | Description |
|---|---|
| Dokumentacja interfejsów API platformy Apache Spark | Omówienie dokumentacji interfejsu API Apache Spark, w tym linki do dokumentacji Spark SQL, struktur danych i operacji RDD w różnych obsługiwanych językach. |
| PySpark | Używanie języka Python z platformą Spark, w tym podstaw pySpark, niestandardowych źródeł danych i optymalizacji specyficznych dla języka Python. |
| Interfejs API biblioteki Pandas na platformie Spark | Skorzystaj ze znanej składni biblioteki pandas ze skalowalnością platformy Spark na potrzeby rozproszonego przetwarzania danych. |
| Język R dla platformy Spark | Praca w środowisku R i Spark przy użyciu interfejsów SparkR i sparklyr na potrzeby obliczeń statystycznych i analizy danych. |
| Scala dla platformy Spark | Twórz aplikacje spark o wysokiej wydajności przy użyciu języka Scala z natywnymi interfejsami API platformy Spark i bezpieczeństwem typów. |