Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Uwaga
W tym artykule opisano program Databricks Connect dla środowiska Databricks Runtime w wersji 14.0 lub nowszej.
Program Databricks Connect dla języka Python jest dostarczany z plikiem binarnym, który jest biblioteką pyspark REPL PySpark (powłoką Spark) skonfigurowaną do korzystania z usługi Databricks Connect.
Uruchom powłokę
Aby uruchomić powłokę interaktywną Spark i połączyć ją z uruchomionym klastrem, uruchom następujące polecenie z twojego aktywowanego środowiska wirtualnego języka Python.
Uwaga
Po uruchomieniu bez dodatkowych parametrów, powłoka pobiera domyślne poświadczenia z ustawień środowiska (na przykład zmienne środowiskowe DATABRICKS_ lub profil konfiguracji DEFAULT) w celu nawiązania połączenia z klastrem usługi Azure Databricks. Aby uzyskać informacje na temat konfigurowania połączenia, zobacz Konfiguracja obliczeniowa dla usługi Databricks Connect.
pyspark
Zostanie wyświetlona powłoka Spark, na przykład:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
Po uruchomieniu powłoki spark obiekt jest dostępny do uruchamiania poleceń Apache Spark w klastrze Databricks. Uruchom proste polecenie PySpark, takie jak spark.range(1,10).show(). Jeśli nie ma żadnych błędów, połączenie zostało pomyślnie nawiązane.
Korzystanie z powłoki
Zapoznaj się z tematem Interactive Analysis with the Spark Shell (Interaktywna analiza za pomocą powłoki Spark w powłoce Spark w języku Python) w celu uruchamiania poleceń w obliczeniach.
Użyj wbudowanej spark zmiennej do reprezentowania SparkSession elementu w uruchomionym klastrze, na przykład:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Cały kod w języku Python działa lokalnie, podczas gdy cały kod PySpark obejmujący operacje ramki danych jest uruchamiany w klastrze w zdalnym obszarze roboczym usługi Azure Databricks i uruchamiane odpowiedzi są wysyłane z powrotem do lokalnego obiektu wywołującego.
Zatrzymywanie powłoki
Aby zatrzymać powłokę Spark, naciśnij Ctrl + d lub Ctrl + z, lub uruchom polecenie quit() lub exit().