Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo descreve como migrar do Databricks Connect for Databricks Runtime 12.2 LTS e inferior para o Databricks Connect for Databricks Runtime 13.3 LTS e superior para Python. O Databricks Connect permite conectar IDEs populares, servidores de notebook e aplicativos personalizados a clusters do Azure Databricks. Consulte O que é Databricks Connect?.
Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.
Para a versão Scala deste artigo, consulte Migrar para o Databricks Connect for Scala.
Migre o seu projeto em Python
Para migrar o seu projeto ou ambiente de código Python existente do Databricks Connect for Databricks Runtime 12.2 LTS e inferiores para o Databricks Connect for Databricks Runtime 13.3 LTS e superior:
Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder ao seu cluster do Azure Databricks, se ele ainda não estiver instalado localmente.
Atualize seu ambiente virtual Python para usar a versão correta do Python para corresponder ao seu cluster, se necessário. Para obter instruções, consulte a documentação do provedor do ambiente virtual.
Com o seu ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:
pip3 uninstall pysparkCom seu ambiente virtual ainda ativado, desinstale o Databricks Connect para o Databricks Runtime 12.2 LTS e abaixo:
pip3 uninstall databricks-connectCom seu ambiente virtual ainda ativado, instale o Databricks Connect for Databricks Runtime 13.3 LTS e superior:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.Nota
O Databricks recomenda que você anexe a notação "ponto-asterisco" para especificar
databricks-connect==X.Y.*em vez dedatabricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.Atualize seu código Python para inicializar a
sparkvariável (que representa uma instanciação daDatabricksSessionclasse, semelhante aoSparkSessionPySpark). Consulte Configuração de computação para Databricks Connect.Migre as suas APIs RDD para usar APIs DataFrame e migre o
SparkContextpara usar alternativas.
Definir configurações do Hadoop
No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set, que se aplica a operações SQL e DataFrame. As configurações do Hadoop definidas no sparkContext devem ser definidas na configuração do cluster ou usando um bloco de anotações. Isso ocorre porque as configurações definidas no sparkContext não estão vinculadas a sessões de usuário, mas se aplicam a todo o cluster.