Udostępnij przez


Instalowanie programu Databricks Connect dla języka Python

Uwaga

W tym artykule opisano usługę Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.

W tym artykule opisano sposób instalowania programu Databricks Connect dla języka Python. Zobacz Co to jest usługa Databricks Connect?.

Wymagania

Przed zainstalowaniem programu Databricks Connect upewnij się, że obszar roboczy i środowisko lokalne spełniają wymagania. Zobacz Wymagania dotyczące użycia usługi Databricks Connect.

Aktywowanie środowiska wirtualnego języka Python

Usługa Databricks zdecydowanie zaleca aktywowanie środowiska wirtualnego języka Python dla każdej wersji języka Python używanej z usługą Databricks Connect. Środowiska wirtualne języka Python pomagają upewnić się, że używasz poprawnych wersji języka Python i usługi Databricks Connect razem. Aby uzyskać więcej informacji na temat tych narzędzi i sposobu ich aktywowania, zobacz venv lub Poezja.

Instalowanie klienta usługi Databricks Connect

W tej sekcji opisano sposób instalowania klienta programu Databricks Connect za pomocą oprogramowania venv lub poezji.

Uwaga

Jeśli masz już zainstalowane rozszerzenie Databricks dla programu Visual Studio Code, możesz zainstalować program Databricks Connect dla środowiska Databricks Runtime 13.3 LTS i nowszego przy użyciu rozszerzenia . Zobacz Debugowanie kodu przy użyciu usługi Databricks Connect dla rozszerzenia usługi Databricks dla programu Visual Studio Code.

Instalowanie klienta usługi Databricks Connect za pomocą programu venv

  1. Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark, jeśli jest już zainstalowane, uruchamiając uninstall polecenie . Jest to wymagane, ponieważ databricks-connect pakiet powoduje konflikt z narzędziem PySpark. Aby uzyskać szczegółowe informacje, zobacz Konflikt instalacji PySpark. Aby sprawdzić, czy program PySpark jest już zainstalowany, uruchom show polecenie .

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Po aktywowaniu środowiska wirtualnego zainstaluj klienta programu Databricks Connect, uruchamiając install polecenie . --upgrade Użyj opcji , aby uaktualnić dowolną istniejącą instalację klienta do określonej wersji.

    pip3 install --upgrade "databricks-connect==16.4.*"  # Or X.Y.* to match your cluster version.
    

    Uwaga

    Usługa Databricks zaleca dołączenie notacji "kropka-gwiazdka", aby określić databricks-connect==X.Y.* zamiast databricks-connect=X.Y, aby upewnić się, że zainstalowano najnowszy pakiet. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.

Instalowanie klienta usługi Databricks Connect za pomocą poezji

  1. Po aktywowaniu środowiska wirtualnego odinstaluj narzędzie PySpark, jeśli jest już zainstalowane, uruchamiając remove polecenie . Jest to wymagane, ponieważ databricks-connect pakiet powoduje konflikt z narzędziem PySpark. Aby uzyskać szczegółowe informacje, zobacz Konflikt instalacji PySpark. Aby sprawdzić, czy program PySpark jest już zainstalowany, uruchom show polecenie .

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Po aktywowaniu środowiska wirtualnego zainstaluj klienta programu Databricks Connect, uruchamiając add polecenie .

    poetry add databricks-connect@~16.4  # Or X.Y to match your cluster version.
    

    Uwaga

    Usługa Databricks zaleca użycie notacji "at-tilde", aby określić databricks-connect@~16.4 zamiast databricks-connect==16.4, aby upewnić się, że najnowszy pakiet jest zainstalowany. Chociaż nie jest to wymagane, pomaga upewnić się, że możesz używać najnowszych obsługiwanych funkcji dla tego klastra.