Partilhar via


Instalar o Databricks Connect para Python

Nota

Este artigo aborda o Databricks Connect for Databricks Runtime 13.3 LTS e superior.

Este artigo descreve como instalar o Databricks Connect for Python. Consulte O que é Databricks Connect?.

Requisitos

Antes de instalar o Databricks Connect, verifique se o espaço de trabalho e o ambiente local atendem aos requisitos. Consulte Requisitos de uso do Databricks Connect.

Ativar um ambiente virtual Python

O Databricks recomenda que você tenha um ambiente virtual Python ativado para cada versão do Python que você usa com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir que você esteja usando as versões corretas do Python e do Databricks Connect juntos. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte venv ou Poetry.

Instalar o cliente Databricks Connect

Esta seção descreve como instalar o cliente Databricks Connect com venv ou Poetry.

Nota

Se você já tiver a extensão Databricks para Visual Studio Code instalada, poderá instalar o Databricks Connect for Databricks Runtime 13.3 LTS e superior usando a extensão. Consulte Depurar código usando Databricks Connect da extensão Databricks do Visual Studio Code.

Instale o cliente Databricks Connect com venv

  1. Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o uninstall comando. Isso é necessário porque o pacote entra em conflito com o databricks-connect PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o show comando.

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o install comando. Use a --upgrade opção para atualizar qualquer instalação de cliente existente para a versão especificada.

    pip3 install --upgrade "databricks-connect==16.4.*"  # Or X.Y.* to match your cluster version.
    

    Nota

    O Databricks recomenda que você anexe a notação "ponto-asterisco" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.

Instale o cliente Databricks Connect com o Poetry

  1. Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o remove comando. Isso é necessário porque o pacote entra em conflito com o databricks-connect PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o show comando.

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o add comando.

    poetry add databricks-connect@~16.4  # Or X.Y to match your cluster version.
    

    Nota

    O Databricks recomenda que você use a notação "at-tilde" para especificar databricks-connect@~16.4 em vez de databricks-connect==16.4, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.