Note
この記事では、Databricks Runtime 14.0 以降の Databricks Connect について説明します。
Databricks Connect for Python には、Databricks Connect を使用するように構成された PySpark REPL (Spark シェル) である pyspark バイナリが付属しています。
シェルを起動する
Spark シェルを起動し、実行中のクラスターに接続するには、アクティブ化された Python 仮想環境から次のコマンドを実行します。
Note
追加のパラメーターなしで開始すると、シェルは、Azure Databricks クラスターに接続するために、環境 ( DATABRICKS_ 環境変数や DEFAULT 構成プロファイルなど) から既定の資格情報を取得します。 接続の構成の詳細については、「 Databricks Connect のコンピューティング構成」を参照してください。
pyspark
Spark シェルが表示されます。次に例を示します。
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
シェルが起動すると、 spark オブジェクトを使用して、Databricks クラスターで Apache Spark コマンドを実行できます。
spark.range(1,10).show()などの単純な PySpark コマンドを実行します。 エラーがない場合は、正常に接続されています。
シェルを使用する
Spark シェルと Python を使用してお使いのコンピューティングでコマンドを実行する方法については、「Interactive Analysis with the Spark Shell (Spark Shell による対話型分析) を参照してください。
組み込みの spark 変数を使用して、実行中のクラスターの SparkSession を表します。次に例を示します。
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードは、リモートの Azure Databricks ワークスペース内のクラスターで実行され、実行応答がローカル呼び出し元に返送されます。
シェルを停止する
Spark シェルを停止するには、Ctrl + d または Ctrl + z を押すか、コマンド quit() または exit() を実行します。