Compartilhar via


Instalar o Databricks Connect para Python

Observação

Esse artigo aborda o Databricks Connect para Databricks Runtime 13.3 LTS e superior.

Esse artigo descreve como instalar o Databricks Connect para Python. Consulte O que é o Databricks Connect?.

Requisitos

Antes de instalar o Databricks Connect, verifique se o workspace e o ambiente local atendem aos requisitos. Consulte os requisitos de uso do Databricks Connect.

Ativar um ambiente virtual do Python

O Databricks recomenda que você tenha um ambiente virtual Python ativado para cada versão do Python que você usa com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir o uso das versões corretas do Python e do Databricks Connect em conjunto. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte venv ou Poetry.

Instalar o cliente do Databricks Connect

Esta seção descreve como instalar o cliente do Databricks Connect com o venv ou o Poetry.

Observação

Se você já tiver a extensão do Databricks para Visual Studio Code instalada, poderá instalar o Databricks Connect para Databricks Runtime 13.3 LTS e superior usando a extensão. Consulte Depurar o código usando o Databricks Connect na extensão do Databricks para Visual Studio Code.

Instale o cliente do Databricks Connect com venv

  1. Com o ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando uninstall. Isso é necessário porque o pacote databricks-connect está em conflito com o PySpark. Para obter detalhes, confira Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comando show.

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Com o ambiente virtual ainda ativado, instale o cliente do Databricks Connect executando o comando install. Use a opção --upgrade para atualizar qualquer instalação do cliente existente para a versão especificada.

    pip3 install --upgrade "databricks-connect==16.4.*"  # Or X.Y.* to match your cluster version.
    

    Observação

    O Databricks recomenda que você acrescente a notação "dot-asterisk" a ser especificada databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.

Instale o cliente do Databricks Connect com Poesia

  1. Com o ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando remove. Isso é necessário porque o pacote databricks-connect está em conflito com o PySpark. Para obter detalhes, confira Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comando show.

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Com o ambiente virtual ainda ativado, instale o cliente do Databricks Connect executando o comando add.

    poetry add databricks-connect@~16.4  # Or X.Y to match your cluster version.
    

    Observação

    O Databricks recomenda que você use a notação "at-tilde" a ser especificada databricks-connect@~16.4 em vez de databricks-connect==16.4, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.