Migrar para o Databricks Connect para Python

Este artigo descreve como migrar do Databricks Connect for Databricks Runtime 12.2 LTS e inferior para o Databricks Connect for Databricks Runtime 13.3 LTS e superior para Python. O Databricks Connect permite conectar IDEs populares, servidores de notebook e aplicativos personalizados a clusters do Azure Databricks. Consulte O que é Databricks Connect?.

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

Para a versão Scala deste artigo, consulte Migrar para o Databricks Connect for Scala.

Migre o seu projeto em Python

Para migrar o seu projeto ou ambiente de código Python existente do Databricks Connect for Databricks Runtime 12.2 LTS e inferiores para o Databricks Connect for Databricks Runtime 13.3 LTS e superior:

Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder ao seu cluster do Azure Databricks, se ele ainda não estiver instalado localmente.
Atualize seu ambiente virtual Python para usar a versão correta do Python para corresponder ao seu cluster, se necessário. Para obter instruções, consulte a documentação do provedor do ambiente virtual.
Com o seu ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:
```
pip3 uninstall pyspark
```
Com seu ambiente virtual ainda ativado, desinstale o Databricks Connect para o Databricks Runtime 12.2 LTS e abaixo:
```
pip3 uninstall databricks-connect
```
Com seu ambiente virtual ainda ativado, instale o Databricks Connect for Databricks Runtime 13.3 LTS e superior:
```
pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
```
Nota

O Databricks recomenda que você anexe a notação "ponto-asterisco" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.
Atualize seu código Python para inicializar a spark variável (que representa uma instanciação da DatabricksSession classe, semelhante ao SparkSession PySpark). Consulte Configuração de computação para Databricks Connect.
Migre as suas APIs RDD para usar APIs DataFrame e migre o SparkContext para usar alternativas.

Definir configurações do Hadoop

No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set, que se aplica a operações SQL e DataFrame. As configurações do Hadoop definidas no sparkContext devem ser definidas na configuração do cluster ou usando um bloco de anotações. Isso ocorre porque as configurações definidas no sparkContext não estão vinculadas a sessões de usuário, mas se aplicam a todo o cluster.

Feedback

Esta página foi útil?

Last updated on 2025-12-13

Partilhar via

Migrar para o Databricks Connect para Python

Migre o seu projeto em Python

Definir configurações do Hadoop

Feedback

Recursos adicionais