Udostępnij przez


Samouczek: uruchamianie kodu z środowiska IntelliJ IDEA w przypadku obliczeń klasycznych

W tym samouczku pokazano, jak rozpocząć pracę z programem Databricks Connect dla języka Scala przy użyciu środowiska IntelliJ IDEA i wtyczki Scala.

W tym samouczku utworzysz projekt w środowisku IntelliJ IDEA, zainstalujesz program Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego, a następnie uruchomisz prosty kod na komputerze w obszarze roboczym Databricks z poziomu środowiska IntelliJ IDEA.

Wskazówka

Aby dowiedzieć się, jak za pomocą pakietów zasobów usługi Databricks utworzyć projekt Scala, który uruchamia kod w bezserwerowych obliczeniach, zobacz Tworzenie pliku JAR języka Scala przy użyciu pakietów zasobów usługi Databricks.

Wymagania

Aby ukończyć ten samouczek, musisz spełnić następujące wymagania:

  • Obszar roboczy, środowisko lokalne i obliczenia spełniają wymagania dotyczące programu Databricks Connect dla języka Scala. Zobacz Wymagania dotyczące użycia usługi Databricks Connect.

  • Musisz mieć dostępny identyfikator klastra. Aby uzyskać identyfikator klastra, w obszarze roboczym kliknij Obliczenia na pasku bocznym, a następnie kliknij nazwę swojego klastra. Na pasku adresu przeglądarki internetowej skopiuj ciąg znaków między clusters i configuration w adresie URL.

  • Masz zainstalowany zestaw Java Development Kit (JDK) na komputerze deweloperskim. Aby uzyskać informacje o wersji do zainstalowania, zobacz macierz obsługi wersji.

    Uwaga / Notatka

    Jeśli nie masz zainstalowanego zestawu JDK lub masz wiele instalacji zestawu JDK na komputerze deweloperskim, możesz zainstalować lub wybrać określony zestaw JDK w dalszej części kroku 1. Wybranie instalacji zestawu JDK poniżej lub nowszej wersji zestawu JDK w klastrze może spowodować nieoczekiwane wyniki lub kod może w ogóle nie działać.

  • Masz zainstalowany program IntelliJ IDEA. Ten samouczek został przetestowany przy użyciu środowiska IntelliJ IDEA Community Edition 2023.3.6. Jeśli używasz innej wersji lub wydania środowiska IntelliJ IDEA, poniższe instrukcje mogą się różnić.

  • Masz zainstalowaną wtyczkę Scala dla środowiska IntelliJ IDEA.

Krok 1. Konfigurowanie uwierzytelniania usługi Azure Databricks

W tym samouczku używane jest uwierzytelnianie użytkownika do maszyny (U2M) usługi Azure Databricks oraz profil konfiguracji usługi Azure Databricks do uwierzytelniania i autoryzacji w obszarze roboczym usługi Azure Databricks. Aby zamiast tego użyć innego typu uwierzytelniania, zobacz Konfigurowanie właściwości połączenia.

Konfigurowanie uwierzytelniania OAuth U2M wymaga wiersza polecenia usługi Databricks, jak poniżej:

  1. Zainstaluj interfejs wiersza polecenia usługi Databricks:

    Linux, macOS

    Użyj Homebrew, aby zainstalować Databricks CLI, uruchamiając następujące dwa polecenia:

    brew tap databricks/tap
    brew install databricks
    

    Windows

    Do zainstalowania interfejsu wiersza polecenia usługi Databricks można użyć zestawu narzędzi winget, Chocolatey lub Podsystem Windows dla systemu Linux (WSL). Jeśli nie możesz użyć winget, Chocolatey lub WSL, należy pominąć tę procedurę i użyć wiersza polecenia lub programu PowerShell, aby zainstalować Databricks CLI ze źródła.

    Uwaga / Notatka

    Instalowanie Databricks CLI za pomocą platformy Chocolatey jest eksperymentalne.

    Aby użyć winget do zainstalowania interfejsu wiersza polecenia usługi Databricks, uruchom następujące dwa polecenia, a następnie uruchom ponownie Wiersz Polecenia.

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    Aby zainstalować Databricks CLI za pomocą narzędzia Chocolatey, uruchom następujące polecenie.

    choco install databricks-cli
    

    Aby użyć programu WSL do zainstalowania CLI Databricks:

    1. Zainstaluj curl i zip poprzez WSL. Aby uzyskać więcej informacji, zobacz dokumentację systemu operacyjnego.

    2. Użyj programu WSL, aby zainstalować interfejs wiersza polecenia usługi Databricks, uruchamiając następujące polecenie:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. Upewnij się, że interfejs wiersza polecenia usługi Databricks jest zainstalowany, uruchamiając następujące polecenie, które wyświetla bieżącą wersję zainstalowanego interfejsu wiersza polecenia usługi Databricks. Ta wersja powinna mieć wartość 0.205.0 lub nowszą:

    databricks -v
    

Zainicjuj uwierzytelnianie OAuth U2M w następujący sposób:

  1. Użyj Databricks CLI, aby lokalnie zainicjować zarządzanie tokenami OAuth, uruchamiając następujące polecenie dla każdego docelowego obszaru roboczego.

    W poniższym poleceniu zastąp ciąg <workspace-url> adresem URL usługi Azure Databricks dla obszaru roboczego, na przykład https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. Interfejs wiersza polecenia usługi Databricks poprosi Cię o zapisanie wprowadzonych informacji jako profil konfiguracji usługi Azure Databricks. Naciśnij Enter , aby zaakceptować sugerowaną nazwę profilu lub wprowadź nazwę nowego lub istniejącego profilu. Każdy istniejący profil o tej samej nazwie zostanie zastąpiony wprowadzonymi informacjami. Profile umożliwiają szybkie przełączanie kontekstu uwierzytelniania między wieloma obszarami roboczymi.

    Aby uzyskać listę wszystkich istniejących profilów, w osobnym terminalu lub wierszu polecenia użyj interfejsu wiersza polecenia usługi Databricks, aby uruchomić polecenie databricks auth profiles. Aby wyświetlić istniejące ustawienia określonego profilu, uruchom polecenie databricks auth env --profile <profile-name>.

  3. W przeglądarce internetowej wykonaj instrukcje na ekranie, aby zalogować się do obszaru roboczego usługi Azure Databricks.

  4. Na liście dostępnych klastrów wyświetlanych w terminalu lub wierszu polecenia użyj strzałek w górę i w dół, aby wybrać docelowy klaster usługi Azure Databricks w obszarze roboczym, a następnie naciśnij Enter. Możesz również wpisać dowolną część nazwy wyświetlanej klastra, aby filtrować listę dostępnych klastrów.

  5. Aby wyświetlić bieżącą wartość tokenu OAuth profilu i zbliżający się znacznik czasu wygaśnięcia tokenu, uruchom jedno z następujących poleceń:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Jeśli masz wiele profilów o tej samej wartości --host, może być konieczne jednoczesne określenie opcji --host i -p, aby pomóc interfejsowi CLI usługi Databricks w znalezieniu prawidłowych informacji pasujących do tokenu OAuth.

Krok 2. Tworzenie projektu

  1. Uruchom środowisko IntelliJ IDEA.

  2. W menu głównym kliknij pozycję Plik > Nowy > Projekt.

  3. Nadaj projektowi znaczącą nazwę.

  4. Dla lokalizacji i, kliknij ikonę folderu, a następnie postępuj zgodnie z instrukcjami wyświetlanymi na ekranie, aby określić ścieżkę do nowego projektu Scala.

  5. W obszarze Język kliknij Scala.

  6. W obszarze System budowania kliknij pozycję sbt.

  7. Z listy rozwijanej zestaw JDK wybierz istniejącą instalację zestawu JDK na maszynie dewelopera zgodnej z wersją zestawu JDK w klastrze lub wybierz pozycję Pobierz zestaw JDK i postępuj zgodnie z instrukcjami wyświetlanymi na ekranie, aby pobrać zestaw JDK zgodny z wersją zestawu JDK w klastrze. Zobacz Wymagania.

    Uwaga / Notatka

    Wybranie instalacji zestawu JDK, która znajduje się powyżej lub poniżej wersji zestawu JDK w klastrze, może spowodować nieoczekiwane wyniki lub kod może w ogóle nie działać.

  8. Z listy rozwijanej sbt wybierz najnowszą wersję.

  9. Z listy rozwijanej Scala wybierz wersję języka Scala zgodną z wersją języka Scala w klastrze. Zobacz Wymagania.

    Uwaga / Notatka

    Wybranie wersji języka Scala poniżej lub nowszej wersji języka Scala w klastrze może spowodować nieoczekiwane wyniki lub kod może w ogóle nie działać.

  10. Upewnij się, że pole Pobierz źródła obok pozycji Scala jest zaznaczone.

  11. W polu Prefiks pakietu wprowadź wartość prefiksu pakietu dla źródeł projektu, na przykład org.example.application.

  12. Upewnij się, że pole Dodaj przykładowy kod jest zaznaczone.

  13. Kliknij pozycję Utwórz.

Tworzenie projektu IntelliJ IDEA

Krok 3. Dodawanie pakietu Databricks Connect

  1. Po otwarciu nowego projektu Scala w oknie narzędzia Project (Wyświetl > narzędzie > Windows Project), otwórz plik o nazwie build.sbt, w katalogu project-name> target.

  2. Dodaj następujący kod na końcu build.sbt pliku, który deklaruje zależność projektu od określonej wersji biblioteki Databricks Connect dla języka Scala zgodnej z wersją środowiska Databricks Runtime klastra:

    libraryDependencies += "com.databricks" %% "databricks-connect" % "17.0.+"
    

    Zastąp 17.0 wersją biblioteki Databricks Connect zgodną z wersją środowiska Databricks Runtime w klastrze. Na przykład usługa Databricks Connect 16.4.+ pasuje do środowiska Databricks Runtime 16.4 LTS. Numery wersji biblioteki usługi Databricks Connect można znaleźć w centralnym repozytorium Maven.

    Uwaga / Notatka

    Podczas kompilowania za pomocą usługi Databricks Connect nie dołączaj artefaktów platformy Apache Spark, takich jak org.apache.spark:spark-core w projekcie. Zamiast tego skompiluj bezpośrednio program Databricks Connect.

  3. Kliknij ikonę powiadomienia Załaduj zmiany sbt, aby zaktualizować projekt Scala, uwzględniając nową lokalizację biblioteki i zależności.

    Instalowanie pakietu Databricks Connect

  4. Poczekaj, aż wskaźnik postępu sbt w dolnej części środowiska IDE zniknie. Proces ładowania sbt może potrwać kilka minut.

Krok 4. Dodawanie kodu

  1. W oknie narzędzia Project otwórz plik o nazwie Main.scala, w project-name> src > main > scala.

  2. Zastąp istniejący kod w pliku następującym kodem, a następnie zapisz plik w zależności od nazwy profilu konfiguracji.

    Jeśli profil konfiguracji z kroku 1 nosi nazwę DEFAULT, zastąp dowolny istniejący kod w pliku następującym kodem, a następnie zapisz plik:

    package org.example.application
    
    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession
    
    object Main {
      def main(args: Array[String]): Unit = {
        val spark = DatabricksSession.builder().remote().getOrCreate()
        val df = spark.read.table("samples.nyctaxi.trips")
        df.limit(5).show()
      }
    }
    

    Jeśli profil konfiguracji z kroku 1 nie ma nazwy DEFAULT, zastąp dowolny istniejący kod w pliku poniższym kodem. Zastąp symbol zastępczy <profile-name> nazwą profilu konfiguracji z kroku 1, a następnie zapisz plik:

    package org.example.application
    
    import com.databricks.connect.DatabricksSession
    import com.databricks.sdk.core.DatabricksConfig
    import org.apache.spark.sql.SparkSession
    
    object Main {
      def main(args: Array[String]): Unit = {
        val config = new DatabricksConfig().setProfile("<profile-name>")
        val spark = DatabricksSession.builder().sdkConfig(config).getOrCreate()
        val df = spark.read.table("samples.nyctaxi.trips")
        df.limit(5).show()
      }
    }
    

Krok 5. Konfigurowanie opcji maszyny wirtualnej

  1. Zaimportuj bieżący katalog do swojego IntelliJ, gdzie znajduje się build.sbt.

  2. Wybierz Java 17 w środowisku IntelliJ. Przejdź do Plik>Struktura Projektu>SDKs.

  3. Otwórz src/main/scala/com/examples/Main.scala.

  4. Przejdź do konfiguracji main, aby dodać opcje maszyny wirtualnej:

    Edytuj główną

    Dodawanie opcji maszyny wirtualnej

  5. Dodaj następujące elementy do opcji maszyny wirtualnej:

    --add-opens=java.base/java.nio=ALL-UNNAMED
    

Wskazówka

Alternatywnie lub jeśli używasz programu Visual Studio Code, dodaj następujące polecenie do pliku kompilacji sbt:

fork := true
javaOptions += "--add-opens=java.base/java.nio=ALL-UNNAMED"

Następnie uruchom aplikację z poziomu terminalu:

sbt run

Krok 6. Uruchamianie kodu

  1. Uruchom klaster docelowy w zdalnym obszarze roboczym usługi Azure Databricks.
  2. Po uruchomieniu klastra, w menu głównym kliknij Uruchom > 'Main'.
  3. W oknie narzędzia Uruchom (Widok > Okna Narzędzi > Uruchom), na karcie Main (Główne) wyświetlone zostaną pierwsze pięć wierszy samples.nyctaxi.trips tabeli.

Krok 7. Debugowanie kodu

  1. Gdy klaster docelowy jest wciąż uruchomiony, w poprzednim kodzie kliknij w margen obok df.limit(5).show(), aby ustawić punkt przerwania.

  2. W menu głównym kliknij Uruchom > "Debugowanie 'Main'". W oknie narzędziowym Debug (Widok > Okna narzędzi > Debug), na karcie Konsola, kliknij ikonę kalkulatora (Oceń wyrażenie).

  3. Wprowadź wyrażenie df.schema.

  4. Kliknij przycisk Oceń , aby wyświetlić schemat ramki danych.

  5. Na pasku bocznym okna narzędzia debugowania kliknij ikonę zielonej strzałki (wznów program). Pierwsze 5 wierszy samples.nyctaxi.trips tabeli jest wyświetlanych w okienku Konsola .

    Debugowanie projektu IntelliJ IDEA