Udostępnij przez


Databricks Runtime 7.0 (EoS)

Uwaga

Obsługa tej wersji środowiska Databricks Runtime została zakończona. Aby uzyskać datę zakończenia pomocy technicznej, zobacz Historia zakończenia pomocy technicznej. Wszystkie obsługiwane wersje środowiska Databricks Runtime można znaleźć w temacie Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime).

Usługa Databricks wydała tę wersję w czerwcu 2020 r.

Poniższe informacje o wersji zawierają informacje o środowisku Databricks Runtime 7.0 obsługiwanym przez platformę Apache Spark 3.0.

Nowe funkcje

Środowisko Databricks Runtime 7.0 zawiera następujące nowe funkcje:

  • Scala 2.12

    Środowisko Databricks Runtime 7.0 uaktualnia język Scala z wersji 2.11.12 do 2.12.10. Lista zmian między Scala 2.12 i 2.11 jest w notatkach o wydaniu Scala 2.12.0.

  • Automatyczne ładowanie (publiczna wersja zapoznawcza) wydane w środowisku Databricks Runtime 6.4 zostało ulepszone w środowisku Databricks Runtime 7.0

    Automatyczne ładowanie zapewnia wydajniejszy sposób przetwarzania nowych plików danych przyrostowo podczas procesu ETL w magazynie obiektów blob w chmurze. Jest to poprawa przesyłania strumieniowego ze strukturą opartą na plikach, która identyfikuje nowe pliki, wielokrotnie wyświetlając katalog w chmurze i śledząc pliki, które zostały zaobserwowane, i może być bardzo nieefektywna w miarę wzrostu katalogu. Auto Loader jest również wygodniejszy i skuteczniejszy niż strumieniowanie oparte na powiadomieniach plikowych, które wymaga ręcznego skonfigurowania usług powiadomień plikowych w chmurze i nie pozwala na uzupełnianie istniejących plików. Aby uzyskać szczegółowe informacje, zobacz Co to jest automatyczne ładowanie?.

    W środowisku Databricks Runtime 7.0 nie trzeba już żądać niestandardowego obrazu środowiska Databricks Runtime w celu korzystania z modułu automatycznego ładującego.

  • COPY INTO (Publiczna wersja zapoznawcza), która umożliwia ładowanie danych do usługi Delta Lake przy użyciu ponownych prób idempotentnych, została ulepszona w środowisku Databricks Runtime 7.0

    Wydane jako publiczna wersja zapoznawcza w środowisku Databricks Runtime 6.4 polecenie COPY INTO SQL umożliwia ładowanie danych do usługi Delta Lake przy użyciu ponownych prób idempotentnych. Aby załadować dane do usługi Delta Lake dzisiaj, musisz użyć interfejsów API ramki danych platformy Apache Spark. Jeśli podczas ładowania występują błędy, należy je skutecznie obsługiwać. Nowe COPY INTO polecenie udostępnia znany interfejs deklaratywny do ładowania danych w języku SQL. Polecenie śledzi wcześniej załadowane pliki i bezpiecznie uruchamia je ponownie w przypadku awarii. Aby uzyskać szczegółowe informacje, zobacz COPY INTO.

Ulepszenia

  • Łącznik usługi Azure Synapse (dawniej SQL Data Warehouse) obsługuje instrukcję COPY .

    Główną zaletą COPY jest to, że użytkownicy z niższymi uprawnieniami mogą zapisywać dane w usłudze Azure Synapse bez konieczności posiadania rygorystycznych CONTROL uprawnień w usłudze Azure Synapse.

  • Polecenie %matplotlib inline magic nie jest już wymagane do wyświetlania obiektów Matplolib wbudowanych w komórkach notesu. Są one zawsze wyświetlane w tekście domyślnie.

  • Liczby biblioteki Matplolib są teraz renderowane za pomocą transparent=Falseelementu , dzięki czemu tła określone przez użytkownika nie zostaną utracone. To zachowanie można zastąpić, ustawiając konfigurację spark.databricks.workspace.matplotlib.transparent trueplatformy Spark.

  • W przypadku uruchamiania zadań produkcyjnych struktur przesyłania strumieniowego w klastrach trybie wysokiej współbieżności, ponowne uruchomienie zadania czasami się nie udaje, ponieważ wcześniej uruchomione zadanie nie zostało prawidłowo zakończone. Środowisko Databricks Runtime 6.3 wprowadziło możliwość ustawienia konfiguracji SQL spark.sql.streaming.stopActiveRunOnRestart true w klastrze, aby upewnić się, że poprzednie uruchomienie zostanie zatrzymane. Ta konfiguracja jest domyślnie ustawiana w środowisku Databricks Runtime 7.0.

Główne zmiany w bibliotece

Pakiety języka Python

Uaktualniono główne pakiety języka Python:

  • boto3 1.9.162 -> 1.12.0
  • matplotlib 3.0.3 —> 3.1.3
  • numpy 1.16.2 —> 1.18.1
  • pandas 0.24.2 —> 1.0.1
  • 19.0.3 -> 20.0.2
  • pyarrow 0.13.0 -> 0.15.1
  • psycopg2 2.7.6 -> 2.8.4
  • scikit-learn 0.20.3 —> 0.22.1
  • scipy 1.2.1 -> 1.4.1
  • seaborn 0.9.0 -> 0.10.0

Usunięte pakiety języka Python:

  • boto (użyj boto3)
  • pycurl

Uwaga

Środowisko języka Python w środowisku Databricks Runtime 7.0 korzysta z języka Python 3.7, który różni się od zainstalowanego systemu Ubuntu Python: /usr/bin/python i /usr/bin/python2 jest połączony z językiem Python 2.7 i /usr/bin/python3 jest połączony z językiem Python 3.6.

Pakiety języka R

Dodano pakiety języka R:

  • miotła
  • wysoki
  • isoband
  • knitr (narzędzie do generowania dynamicznych raportów w R)
  • Markdown
  • modeler
  • przykład powtarzalny
  • rmarkdown (narzędzie do tworzenia dokumentów w R)
  • rvest
  • selektor
  • tidyverse
  • tinytex
  • xfun

Usunięte pakiety języka R:

  • abind
  • bitops
  • samochód
  • dane samochodu
  • DoMC
  • Gbm
  • H2O
  • mniejszy
  • lme4
  • mapproj
  • Mapy
  • maptools
  • MatrixModels
  • minqa
  • mvtnorm
  • nloptr
  • openxlsxx
  • pbkrtest
  • pkgKitten
  • quantreg
  • R.methodsS3
  • R.oo
  • R.utils
  • RcppEigen
  • RCurl
  • Rio
  • Sp
  • Rozrzednia
  • statmod
  • zamek

Biblioteki Java i Scala

  • Wersja programu Apache Hive używana do obsługi funkcji zdefiniowanych przez użytkownika programu Hive i uaktualnianych do wersji 2.3 programu Hive SerDes.
  • Wcześniej pliki jar usługi Azure Storage i Key Vault zostały spakowane w ramach środowiska Databricks Runtime, co uniemożliwia korzystanie z różnych wersji tych bibliotek dołączonych do klastrów. Klasy w obszarze com.microsoft.azure.storage i com.microsoft.azure.keyvault nie znajdują się już na ścieżce klasy w środowisku Databricks Runtime. Jeśli zależysz od jednej z tych ścieżek klas, musisz teraz dołączyć zestaw SDK usługi Azure Storage lub zestaw SDK usługi Azure Key Vault do klastrów.

Zmiany zachowania

W tej sekcji wymieniono zmiany zachowania środowiska Databricks Runtime 6.6 do środowiska Databricks Runtime 7.0. Należy pamiętać o tych obciążeniach podczas migrowania obciążeń z niższych wersji środowiska Databricks Runtime do środowiska Databricks Runtime 7.0 lub nowszego.

Zmiany zachowania platformy Spark

Ponieważ środowisko Databricks Runtime 7.0 jest pierwszym środowiskiem Databricks Runtime opartym na platformie Spark 3.0, istnieje wiele zmian, o których należy pamiętać podczas migrowania obciążeń z środowiska Databricks Runtime 5.5 LTS lub 6.x, które są tworzone na platformie Spark 2.4. Te zmiany są wymienione w sekcji "Zmiany zachowania" każdego obszaru funkcjonalnego w sekcji Apache Spark tego artykułu z informacjami o wersji:

Inne zmiany zachowania

  • Uaktualnienie do wersji Scala 2.12 obejmuje następujące zmiany:

    • Serializacja komórek pakietu jest obsługiwana inaczej. Poniższy przykład ilustruje zmianę zachowania i sposób jego obsługi.

      Uruchomienie zgodnie foo.bar.MyObjectInPackageCell.run() z definicją w poniższej komórce pakietu spowoduje wyzwolenie błędu java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$

      package foo.bar
      
      case class MyIntStruct(int: Int)
      
      import org.apache.spark.sql.SparkSession
      import org.apache.spark.sql.functions._
      import org.apache.spark.sql.Column
      
      object MyObjectInPackageCell extends Serializable {
      
        // Because SparkSession cannot be created in Spark executors,
        // the following line triggers the error
        // Could not initialize class foo.bar.MyObjectInPackageCell$
        val spark = SparkSession.builder.getOrCreate()
      
        def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))
      
        val theUDF = udf(foo)
      
        val df = {
          val myUDFInstance = theUDF(col("id"))
          spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
        }
      
        def run(): Unit = {
          df.collect().foreach(println)
        }
      }
      

      Aby obejść ten błąd, można opakowować MyObjectInPackageCell wewnątrz klasy możliwej do serializacji.

    • Niektóre przypadki użycia DataStreamWriter.foreachBatch będą wymagać aktualizacji kodu źródłowego. Ta zmiana wynika z faktu, że język Scala 2.12 ma automatyczną konwersję z wyrażeń lambda na typy SAM i może powodować niejednoznaczność.

      Na przykład następujący kod Scala nie może skompilować:

      streams
        .writeStream
        .foreachBatch { (df, id) => myFunc(df, id) }
      

      Aby naprawić błąd kompilacji, przejdź foreachBatch { (df, id) => myFunc(df, id) } do foreachBatch(myFunc _) interfejsu API Języka Java lub użyj go jawnie: foreachBatch(new VoidFunction2 ...).

  • Ponieważ wersja apache Hive używana do obsługi funkcji zdefiniowanych przez użytkownika programu Hive i SerDes hive została uaktualniona do wersji 2.3, wymagane są dwie zmiany:
    • Interfejs programu Hive SerDe jest zastępowany przez klasę AbstractSerDeabstrakcyjną . W przypadku dowolnej niestandardowej implementacji programu Hive SerDe migracja do AbstractSerDe programu jest wymagana.
    • Ustawienie spark.sql.hive.metastore.jars na builtin oznacza, że klient magazynu metadanych Hive 2.3 będzie używany do uzyskiwania dostępu do magazynów metadanych dla środowiska Databricks Runtime 7.0. Jeśli chcesz uzyskać dostęp do zewnętrznych magazynów metadanych opartych na technologii Hive 1.2, ustaw spark.sql.hive.metastore.jars na folder zawierający pliki jar programu Hive 1.2.

Wycofywanie i usuwanie

  • Indeks pomijania danych został przestarzały w środowisku Databricks Runtime 4.3 i został usunięty w środowisku Databricks Runtime 7.0. Zalecamy zamiast tego używanie tabel delty, które oferują ulepszone możliwości pomijania danych.
  • W środowisku Databricks Runtime 7.0 podstawowa wersja platformy Apache Spark używa języka Scala 2.12. Ponieważ biblioteki skompilowane w środowisku Scala 2.11 mogą wyłączyć klastry Środowiska Databricks Runtime 7.0 w nieoczekiwany sposób, klastry z uruchomionym środowiskiem Databricks Runtime 7.0 lub nowszym nie instalują bibliotek skonfigurowanych do zainstalowania we wszystkich klastrach. Karta Biblioteki klastra Jeśli jednak masz klaster, który został utworzony we wcześniejszej wersji środowiska Databricks Runtime przed wydaniem platformy usługi Azure Databricks w wersji 3.20 do obszaru roboczego, a teraz edytujesz ten klaster, aby używać środowiska Databricks Runtime 7.0, wszystkie biblioteki skonfigurowane do zainstalowania we wszystkich klastrach zostaną zainstalowane w tym klastrze. W takim przypadku wszystkie niezgodne elementy JAR w zainstalowanych bibliotekach mogą spowodować wyłączenie klastra. Obejściem jest sklonowanie klastra lub utworzenie nowego klastra.

Apache Spark

Środowisko Databricks Runtime 7.0 obejmuje platformę Apache Spark 3.0.

W tej sekcji:

Core, Spark SQL, Przesyłanie strumieniowe ze strukturą

Najważniejsze informacje

  • (Projekt wodoru) Harmonogram obsługujący akcelerator (SPARK-24615)
  • Wykonywanie zapytań adaptacyjnych (SPARK-31412)
  • Oczyszczanie partycji dynamicznej (SPARK-11150)
  • Przeprojektowany interfejs API UDF biblioteki pandas z wskazówkami typu (SPARK-28264)
  • Interfejs użytkownika przesyłania strumieniowego ze strukturą (SPARK-29543)
  • Interfejs API wtyczki katalogu (SPARK-31121)
  • Lepsza zgodność ze standardem ANSI SQL

Ulepszenia wydajności

Ulepszenia rozszerzalności

  • Interfejs API wtyczki katalogu (SPARK-31121)
  • Refaktoryzacja interfejsu API źródła danych w wersji 2 (SPARK-25390)
  • Obsługa magazynu metadanych Hive 3.0 i 3.1 (SPARK-27970),(SPARK-24360)
  • Rozszerzanie interfejsu wtyczki Spark na sterownik (SPARK-29396)
  • Rozszerzanie systemu metryk platformy Spark przy użyciu metryk zdefiniowanych przez użytkownika przy użyciu wtyczek funkcji wykonawczej (SPARK-28091)
  • Interfejsy API dla deweloperów na potrzeby rozszerzonej obsługi przetwarzania kolumnowego (SPARK-27396)
  • Wbudowana migracja źródła przy użyciu wersji DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
  • Zezwól na FunctionInjection w SparkExtensions (SPARK-25560)
  • Umożliwia zarejestrowanie agregatora jako UDAF (SPARK-27296)

Ulepszenia łącznika

  • Oczyszczanie kolumn za pomocą wyrażeń nieokreślonych (SPARK-29768)
  • Obsługa spark.sql.statistics.fallBackToHdfs w tabelach źródeł danych (SPARK-25474)
  • Zezwalaj na oczyszczanie partycji za pomocą filtrów podzapytania w źródle plików (SPARK-26893)
  • Unikaj wypychania podzapytań w filtrach źródła danych (SPARK-25482)
  • Cykliczne ładowanie danych ze źródeł plików (SPARK-27990)
  • Parquet/ORC
    • Wypychanie predykatów rozłącznych (SPARK-27699)
    • Uogólnij zagnieżdżone oczyszczanie kolumn (SPARK-25603) i domyślnie włączone (SPARK-29805)
    • Tylko Parquet
      • Wypychanie predykatu Parquet dla zagnieżdżonych pól (SPARK-17636)
    • Tylko ORC
  • CSV
    • Obsługa wypychania filtrów w źródle danych CSV (SPARK-30323)
  • Hive SerDe
    • Brak wnioskowania schematu podczas odczytywania tabeli serde programu Hive z natywnym źródłem danych (SPARK-27119)
    • Polecenia CTAS programu Hive powinny używać źródła danych, jeśli jest konwertowany (SPARK-25271)
    • Użyj natywnego źródła danych, aby zoptymalizować wstawianie partycjonowanej tabeli Hive (SPARK-28573)
  • Apache Kafka
    • Dodano obsługę nagłówków platformy Kafka (SPARK-23539)
    • Dodawanie obsługi tokenu delegowania platformy Kafka (SPARK-25501)
    • Wprowadzenie nowej opcji do źródła platformy Kafka: przesunięcie według znacznika czasu (rozpoczęcie/zakończenie) (SPARK-26848)
    • Obsługa minPartitions opcji źródła wsadowego platformy Kafka i źródła przesyłania strumieniowego w wersji 1 (SPARK-30656)
    • Uaktualnianie platformy Kafka do wersji 2.4.1 (SPARK-31126)
  • Nowe wbudowane źródła danych
    • Nowe wbudowane źródła danych plików binarnych (SPARK-25348)
    • Nowe źródła danych bez operacji wsadowych (SPARK-26550) i ujście przesyłania strumieniowego bez operacji (SPARK-26649)

Ulepszenia funkcji

Ulepszenia zgodności sql

  • Przełącz się do kalendarza proleptycznego gregoriańskiego (SPARK-26651)
  • Zbuduj własną definicję wzorca daty/godziny platformy Spark (SPARK-31408)
  • Wprowadzenie polityki przypisywania magazynu ANSI dla wstawiania tabeli (SPARK-28495)
  • Domyślnie, postępuj zgodnie z regułą przypisania magazynu ANSI podczas wstawiania tabeli (SPARK-28885)
  • Dodawanie kodu SQLConf spark.sql.ansi.enabled (SPARK-28989)
  • Obsługa klauzuli filtru ANSI SQL dla wyrażenia agregowanego (SPARK-27986)
  • Obsługa funkcji ANSI SQL OVERLAY (SPARK-28077)
  • Obsługa zagnieżdżonych komentarzy w nawiasach ANSI (SPARK-28880)
  • Zgłaszanie wyjątku w przepełnieniu dla liczb całkowitych (SPARK-26218)
  • Sprawdzanie przepełnienia pod kątem operacji arytmetycznych interwału (SPARK-30341)
  • Zgłaszanie wyjątku w przypadku rzutowania nieprawidłowego ciągu na typ liczbowy (SPARK-30292)
  • Pomnożyj interwał i podziel zachowanie przepełnienia zgodnie z innymi operacjami (SPARK-30919)
  • Dodawanie aliasów typu ANSI dla znaków i dziesiętnych (SPARK-29941)
  • Analizator SQL definiuje zastrzeżone słowa kluczowe zgodne ze standardem ANSI (SPARK-26215)
  • Zabraniaj zastrzeżonych słów kluczowych jako identyfikatorów, gdy tryb ANSI jest włączony (SPARK-26976)
  • Obsługa składni ANSI SQL LIKE ... ESCAPE (SPARK-28083)
  • Obsługa składni ansi SQL Boolean-Predykate (SPARK-27924)
  • Lepsza obsługa skorelowanego przetwarzania podzapytania (SPARK-18455)

Ulepszenia monitorowania i debugowania

  • Nowy interfejs użytkownika przesyłania strumieniowego ze strukturą (SPARK-29543)
  • SHS: zezwalaj na przerzucanie dzienników zdarzeń na potrzeby uruchamiania aplikacji przesyłania strumieniowego (SPARK-28594)
  • Dodawanie interfejsu API, który umożliwia użytkownikowi definiowanie i obserwowanie dowolnych metryk w zapytaniach wsadowych i przesyłanych strumieniowo (SPARK-29345)
  • Instrumentacja do śledzenia czasu planowania poszczególnych zapytań (SPARK-26129)
  • Umieść podstawowe metryki mieszania w operatorze programu SQL Exchange (SPARK-26139)
  • Instrukcja SQL jest wyświetlana na karcie SQL zamiast wywołania (SPARK-27045)
  • Dodawanie etykietki narzędzia do interfejsu SparkUI (SPARK-29449)
  • Zwiększanie współbieżnej wydajności serwera historii (SPARK-29043)
  • EXPLAIN FORMATTED polecenie (SPARK-27395)
  • Obsługa dumpingu planów obcięte i wygenerowanego kodu do pliku (SPARK-26023)
  • Ulepszanie struktury opisywania w celu opisania danych wyjściowych zapytania (SPARK-26982)
  • Dodaj SHOW VIEWS polecenie (SPARK-31113)
  • Ulepszanie komunikatów o błędach analizatora SQL (SPARK-27901)
  • Natywna obsługa monitorowania rozwiązania Prometheus (SPARK-29429)

Ulepszenia programu PySpark

  • Przeprojektowano funkcje zdefiniowane przez użytkownika biblioteki pandas z wskazówkami typu (SPARK-28264)
  • Potok UDF biblioteki Pandas (SPARK-26412)
  • Obsługa klasy StructType jako argumentów i zwracanych typów dla funkcji UDF biblioteki Scalar Pandas (SPARK-27240 )
  • Obsługa współgrupy ramek danych za pośrednictwem zdefiniowanych przez użytkownika biblioteki Pandas (SPARK-27463)
  • Dodaj mapInPandas , aby zezwolić na iterator ramek danych (SPARK-28198)
  • Niektóre funkcje SQL powinny również przyjmować nazwy kolumn (SPARK-26979)
  • Zwiększenie liczby wyjątków SQL PySpark (SPARK-31849)

Ulepszenia dokumentacji i pokrycia testów

  • Tworzenie odwołania SQL (SPARK-28588)
  • Tworzenie podręcznika użytkownika dla interfejsu WebUI (SPARK-28372)
  • Tworzenie strony dokumentacji konfiguracji SQL (SPARK-30510)
  • Dodawanie informacji o wersji dla konfiguracji platformy Spark (SPARK-30839)
  • Testy regresji portów z bazy danych PostgreSQL (SPARK-27763)
  • Pokrycie testowe thrift-server (SPARK-28608)
  • Testowanie pokrycia zdefiniowanych przez użytkownika (UDF języka Python, funkcji UDF biblioteki pandas, scala UDF) (SPARK-27921)

Inne istotne zmiany

  • Wbudowane uaktualnienie wykonywania programu Hive z wersji 1.2.1 do 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
  • Domyślnie używaj zależności apache Hive 2.3 (SPARK-30034)
  • GA Scala 2.12 i usuń 2.11 (SPARK-26132)
  • Ulepszanie logiki dla funkcji wykonawczych limitu czasu w alokacji dynamicznej (SPARK-20286)
  • Utrwalone na dysku bloki RDD obsługiwane przez usługę mieszania i ignorowane dla alokacji dynamicznej (SPARK-27677)
  • Uzyskiwanie nowych funkcji wykonawczych w celu uniknięcia zawieszenia z powodu blokowania listy (SPARK-22148)
  • Zezwolenie na udostępnianie alokatorów puli pamięci Netty (SPARK-24920)
  • Naprawa zakleszczenia między elementami TaskMemoryManager i UnsafeExternalSorter$SpillableIterator (SPARK-27338)
  • Wprowadzenie AdmissionControl do interfejsów API dla funkcji StructuredStreaming (SPARK-30669)
  • Zwiększenie wydajności strony głównej historii platformy Spark (SPARK-25973)
  • Przyspieszanie i obniżanie agregacji metryk w odbiorniku SQL (SPARK-29562)
  • Unikaj sieci, gdy bloki mieszania są pobierane z tego samego hosta (SPARK-27651)
  • Ulepszanie listy plików (DistributedFileSystemSPARK-27801)

Zmiany zachowania w przypadku platformy Spark Core, Spark SQL i przesyłania strumieniowego ze strukturą

Poniższe przewodniki migracji zawierają listę zmian zachowania między platformą Apache Spark 2.4 i 3.0. Te zmiany mogą wymagać aktualizacji zadań, które były uruchomione w niższych wersjach środowiska Databricks Runtime:

Następujące zmiany zachowania nie zostały omówione w tych przewodnikach migracji:

  • W usłudze Spark 3.0 przestarzała klasa org.apache.spark.sql.streaming.ProcessingTime została usunięta. Użycie w zamian parametru org.apache.spark.sql.streaming.Trigger.ProcessingTime. Podobnie, org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger został usunięty na rzecz Trigger.Continuous, i org.apache.spark.sql.execution.streaming.OneTimeTrigger został ukryty na rzecz Trigger.Once. (SPARK-28199)
  • W środowisku Databricks Runtime 7.0 podczas odczytywania tabeli Hive SerDe domyślnie platforma Spark nie zezwala na odczytywanie plików w podkatalogu, który nie jest partycją tabeli. Aby ją włączyć, ustaw konfigurację spark.databricks.io.hive.scanNonpartitionedDirectory.enabled jako true. Nie ma to wpływu na natywne czytniki tabel i czytniki plików platformy Spark.

MLlib

Najważniejsze informacje

  • Dodano obsługę wielu kolumn do narzędzia Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) i PySpark QuantileDiscretizer (SPARK-22796)
  • Obsługa transformacji funkcji opartej na drzewie (SPARK-13677)
  • Dodano dwóch nowych ewaluatorów MultilabelClassificationEvaluator (SPARK-16692) i RankingEvaluator (SPARK-28045)
  • Dodano obsługę wag próbek w module DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-9612) 24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) i GaussianMixture (SPARK-30102)
  • Dodano interfejs API języka R dla klasy PowerIterationClustering (SPARK-19827)
  • Dodano odbiornik Spark ML do śledzenia stanu potoku uczenia maszynowego (SPARK-23674)
  • Dopasowanie do zestawu walidacyjnego zostało dodane do Gradientowych Drzew Wzmacnianych w Pythonie (SPARK-24333)
  • Dodano transformator RobustScaler (SPARK-28399)
  • Dodano klasyfikator i regresję maszyn factorization (SPARK-29224)
  • Gaussian Naive Bayes (SPARK-16872) i Add Naive Bayes (SPARK-29942) zostały dodane
  • Parzystość funkcji uczenia maszynowego między językami Scala i Python (SPARK-28958)
  • predictRaw jest upubliczniony we wszystkich modelach klasyfikacji. funkcja predictProbability jest publicznie udostępniana we wszystkich modelach klasyfikacji z wyjątkiem LinearSVCModel (SPARK-30358)

Zmiany zachowania dla biblioteki MLlib

W poniższym przewodniku migracji wymieniono zmiany zachowania między platformą Apache Spark 2.4 i 3.0. Te zmiany mogą wymagać aktualizacji zadań, które były uruchomione w niższych wersjach środowiska Databricks Runtime:

Następujące zmiany zachowania nie zostały omówione w przewodniku migracji:

  • Na platformie Spark 3.0 regresja logistyczna w Pyspark zwróci teraz (poprawnie) wartość LogisticRegressionSummary, a nie podklasę BinaryLogisticRegressionSummary. Dodatkowe metody uwidocznione przez BinaryLogisticRegressionSummary program nie będą działać w tym przypadku. (SPARK-31681)
  • W przypadku platformy Spark 3.0 pyspark.ml.param.shared.Has* kombinacje nie zapewniają już żadnych set*(self, value) metod ustawiania, należy użyć odpowiednich self.set(self.*, value) metod. Aby uzyskać szczegółowe informacje, zobacz SPARK-29093. (SPARK-29093)

SparkR

  • Optymalizacja strzałek w współdziałaniu platformy SparkR (SPARK-26759)
  • Ulepszenia wydajności za pomocą wektoryzowanego języka R gapply(), dapply(), createDataFrame, collect()
  • "Chętne wykonywanie" dla powłoki języka R, IDE (SPARK-24572)
  • R API dla Klasteryzacji Iteracji Potęgowej (SPARK-19827)

Zmiany zachowania w usłudze SparkR

W poniższym przewodniku migracji wymieniono zmiany zachowania między platformą Apache Spark 2.4 i 3.0. Te zmiany mogą wymagać aktualizacji zadań, które były uruchomione w niższych wersjach środowiska Databricks Runtime:

Przestarzałe elementy

Znane problemy

  • Analizowanie dnia roku przy użyciu litery wzorca "D" zwraca nieprawidłowy wynik, jeśli brakuje pola roku. Może się to zdarzyć w funkcjach SQL, takich jak to_timestamp, które analizuje ciąg daty/godziny na wartości daty/godziny przy użyciu ciągu wzorca. (SPARK-31939)
  • Łączenie/okno/agregacja wewnątrz podzapytań może prowadzić do błędnych wyników, jeśli klucze mają wartości -0.0 i 0.0. (SPARK-31958)
  • Zapytanie okna może nieoczekiwanie zakończyć się niejednoznacznym błędem samosprzężenia. (SPARK-31956)
  • Zapytania przesyłane strumieniowo za pomocą dropDuplicates operatora mogą nie być możliwe do ponownego uruchomienia przy użyciu punktu kontrolnego napisanego przez platformę Spark 2.x. (SPARK-31990)

Aktualizacje konserwacyjne

Zobacz Aktualizacje konserwacji środowiska Databricks Runtime 7.0.

Środowisko systemu

  • System operacyjny: Ubuntu 18.04.4 LTS
  • Java: 1.8.0_252
  • Scala: 2.12.10
  • Python: 3.7.5
  • R: R w wersji 3.6.3 (2020-02-29)
  • Delta Lake 0.7.0

Zainstalowane biblioteki języka Python

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
asn1crypto 1.3.0 Wezwanie zwrotne 0.1.0 boto3 1.12.0
botocore 1.15.0 certyfikat 2020.4.5 cffi 1.14.0
chardet 3.0.4 kryptografia 2.8 rowerzysta 0.10.0
Cython 0.29.15 dekorator 4.4.1 docutils 0.15.2
punkty wejścia 0,3 IDNA 2.8 ipykernel 5.1.4
ipython 7.12.0 ipython-genutils 0.2.0 Jedi 0.14.1
jmespath 0.9.4 joblib 0.14.1 jupyter-client 5.3.4
jupyter-core 4.6.1 kiwisolver 1.1.0 matplotlib 3.1.3
numpy 1.18.1 Pandas 1.0.1 parso 0.5.2
Patsy 0.5.1 pexpect 4.8.0 pickleshare (jeśli to nazwa własna, nie trzeba tłumaczyć) 0.7.5
pip (menedżer pakietów Pythona) 20.0.2 zestaw narzędzi prompt 3.0.3 psycopg2 2.8.4
ptyprocess 0.6.0 pyarrow 0.15.1 pycparser 2.19
Pygments 2.5.2 PyGObject 3.26.1 pyOpenSSL 19.1.0
pyparsing – biblioteka do przetwarzania tekstu w Pythonie 2.4.6 PySocks 1.7.1 python-apt 1.6.5+ubuntu0.3
python-dateutil (biblioteka Pythona do zarządzania datami) 2.8.1 pytz (biblioteka Pythona do obliczeń stref czasowych) 2019.3 pyzmq 18.1.1
żądania 2.22.0 s3transfer 0.3.3 scikit-learn 0.22.1
scipy (biblioteka naukowa dla Pythona) 1.4.1 urodzony na morzu 0.10.0 setuptools 45.2.0
Sześć 1.14.0 ssh-import-id (narzędzie do importowania kluczy SSH) 5.7 statsmodels - biblioteka do modelowania statystycznego 0.11.0
tornado 6.0.3 traitlety 4.3.3 nienadzorowane uaktualnienia 0.1
urllib3 1.25.8 virtualenv 16.7.10 szerokość(wcwidth) 0.1.8
wheel 0.34.2

Zainstalowane biblioteki języka R

Biblioteki języka R są instalowane z migawki usługi Microsoft CRAN w wersji 2020-04-22.

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
askpass 1.1 potwierdzić to 0.2.1 backports (backports) 1.1.6
baza 3.6.3 base64enc 0.1-3 BH 1.72.0-3
bitowe 1.1-15.2 bit-64 0.9-7 blob 1.2.1
rozruch 1.3-25 warzyć 1.0-6 miotła 0.5.6
obiekt wywołujący 3.4.3 karetka 6.0-86 cellranger 1.1.0
Chroń 2.3-55 klasa 7.3-17 CLI 2.0.2
clipr 0.7.0 klaster 2.1.0 codetools 0.2-16
przestrzeń kolorów 1.4-1 commonmark 1,7 kompilator 3.6.3
konfig 0,3 cover 3.5.0 kredka 1.3.4
Crosstalk 1.1.0.1 lok 4.3 tabela danych 1.12.8
usługi Power BI 3.6.3 DBI 1.1.0 dbplyr 1.4.3
Desc 1.2.0 devtools 2.3.0 skrót 0.6.25
dplyr 0.8.5 DT 0,13 wielokropek 0.3.0
ocenić 0,14 fani 0.4.1 kolory 2.0.3
szybka mapa 1.0.1 dla kotów 0.5.0 foreach 1.5.0
zagraniczny 0.8-76 kuźnia 0.2.0 Fs 1.4.1
typy ogólne 0.0.2 ggplot2 3.3.0 Gh 1.1.0
git2r 0.26.1 glmnet 3.0-2 globalna 0.12.5
klej 1.4.0 Gower 0.2.1 grafika 3.6.3
grDevices 3.6.3 siatka 3.6.3 gridExtra 2.3
gsubfn 0,7 gtabela 0.3.0 przystań 2.2.0
wysoki 0,8 Hms 0.5.3 htmltools – narzędzie do tworzenia stron internetowych 0.4.0
widżety HTML 1.5.1 httpuv 1.5.2 httr 1.4.1
hwriter 1.3.2 hwriterPlus 1.0-3 ini 0.3.1
ipred 0.9-9 isoband 0.2.1 Iteratory 1.0.12
jsonlite 1.6.1 KernSmooth 2.23-17 knitr (narzędzie do generowania dynamicznych raportów w R) 1.28
Etykietowania 0,3 później 1.0.0 krata 0.20-41
lawa 1.6.7 opóźnienie 0.2.2 cykl życia 0.2.0
lubridate 1.7.8 magrittr 1.5 Markdown 1.1
MASA 7.3-51.6 Macierz 1.2-18 zapamiętywanie 1.1.0
metody 3.6.3 mgcv 1.8-31 mim 0,9
Metryki modelu 1.2.2.2 modeler 0.1.6 munsell 0.5.0
nlme 3.1-147 sieć neuronowa (nnet) 7.3-14 numDeriv 2016.8-1.1
openssl 1.4.1 równoległy 3.6.3 filar 1.4.3
pkgbuild 1.0.6 pkgconfig 2.0.3 pkgload 1.0.2
plogr 0.2.0 plyr 1.8.6 pochwała 1.0.0
prettyunits 1.1.1 Proc 1.16.2 Procesx 3.4.2
prodlim 2019.11.13 Postęp 1.2.2 Obietnice 1.1.0
Proto 1.0.0 PS 1.3.2 mruczenie 0.3.4
r2d3 0.2.3 R6 2.4.1 "randomForest" 4.6-14
rappdirs 0.3.1 rcmdcheck 1.3.3 RColorBrewer 1.1-2
Rcpp 1.0.4.6 czytnik 1.3.1 readxl (biblioteka do odczytu plików Excel) 1.3.1
przepisy 0.1.10 rewanż 1.0.1 rewanż2 2.1.1
Piloty 2.1.1 przykład powtarzalny 0.3.0 zmień kształt2 1.4.4
Rex 1.2.0 rjson 0.2.20 rlang 0.4.5
rmarkdown (narzędzie do tworzenia dokumentów w R) 2.1 RODBC 1.3-16 roxygen2 7.1.0
rpart 4.1-15 rprojroot 1.3-2 Rserve 1.8-6
RSQLite 2.2.0 rstudioapi 0,11 rversions (rversions) 2.0.1
rvest 0.3.5 waga 1.1.0 selektor 0.4-2
Informacje o sesji 1.1.1 kształt 1.4.4 błyszczący 1.4.0.2
sourcetools 0.1.7 sparklyr 1.2.0 SparkR 3.0.0
przestrzenny 7.3-11 Splajnów 3.6.3 sqldf 0.4-11
KWADRAT 2020.2 Statystyki 3.6.3 statystyki4 3.6.3
łańcuchy 1.4.6 stringr 1.4.0 przetrwanie 3.1-12
sys 3.3 tcltk 3.6.3 NauczanieDemos 2.10
testthat 2.3.2 tibble 3.0.1 tidyr 1.0.2
tidyselect 1.0.0 tidyverse 1.3.0 czasData 3043.102
tinytex 0,22 narzędzia 3.6.3 użyj tego 1.6.0
utf8 1.1.4 narzędzia 3.6.3 vctrs 0.2.4
viridisLite 0.3.0 wąs 0,4 Withr 2.2.0
xfun 0,13 xml2 1.3.1 xopen 1.0.0
Xtable 1.8-4 yaml 2.2.1

Zainstalowane biblioteki Java i Scala (wersja klastra Scala 2.12)

Identyfikator grupy Identyfikator artefaktu Wersja
antlr antlr 2.7.7
com.amazonaws Klient Amazon Kinesis 1.12.0
com.amazonaws aws-java-sdk-automatyczne-skalowanie 1.11.655
com.amazonaws aws-java-sdk-cloudformation 1.11.655
com.amazonaws aws-java-sdk-cloudfront 1.11.655
com.amazonaws aws-java-sdk-cloudhsm (zestaw narzędzi Java dla usługi CloudHSM) 1.11.655
com.amazonaws aws-java-sdk-cloudsearch 1.11.655
com.amazonaws aws-java-sdk-cloudtrail 1.11.655
com.amazonaws aws-java-sdk-cloudwatch 1.11.655
com.amazonaws aws-java-sdk-cloudwatchmetrics 1.11.655
com.amazonaws aws-java-sdk-codedeploy (biblioteka do zarządzania wdrażaniem kodu w AWS) 1.11.655
com.amazonaws aws-java-sdk-cognitoidentity 1.11.655
com.amazonaws aws-java-sdk-cognitosync 1.11.655
com.amazonaws aws-java-sdk-config (konfiguracja aws-java-sdk) 1.11.655
com.amazonaws aws-java-sdk-core 1.11.655
com.amazonaws aws-java-sdk-datapipeline 1.11.655
com.amazonaws aws-java-sdk-directconnect (pakiet narzędzi programistycznych dla Java do współpracy z AWS Direct Connect) 1.11.655
com.amazonaws aws-java-sdk-directory 1.11.655
com.amazonaws aws-java-sdk-dynamodb 1.11.655
com.amazonaws aws-java-sdk-ec2 1.11.655
com.amazonaws aws-java-sdk-ecs 1.11.655
com.amazonaws aws-java-sdk-efs 1.11.655
com.amazonaws aws-java-sdk-elasticache 1.11.655
com.amazonaws aws-java-sdk-elasticbeanstalk 1.11.655
com.amazonaws aws-java-sdk-elasticloadbalancing 1.11.655
com.amazonaws aws-java-sdk-elastictranscoder 1.11.655
com.amazonaws aws-java-sdk-emr (biblioteka SDK Java dla usługi Amazon EMR) 1.11.655
com.amazonaws AWS Java SDK dla Glacier 1.11.655
com.amazonaws aws-java-sdk-iam 1.11.655
com.amazonaws AWS-Java-SDK-ImportExport 1.11.655
com.amazonaws AWS SDK dla Javy - Kinesis 1.11.655
com.amazonaws aws-java-sdk-kms 1.11.655
com.amazonaws aws-java-sdk-lambda 1.11.655
com.amazonaws aws-java-sdk-logs 1.11.655
com.amazonaws aws-java-sdk-uczenie-maszynowe 1.11.655
com.amazonaws aws-java-sdk-opsworks 1.11.655
com.amazonaws aws-java-sdk-rds (pakiet programistyczny Java dla AWS RDS) 1.11.655
com.amazonaws aws-java-sdk-redshift 1.11.655
com.amazonaws aws-java-sdk-route53 1.11.655
com.amazonaws aws-java-sdk-s3 1.11.655
com.amazonaws aws-java-sdk-ses 1.11.655
com.amazonaws aws-java-sdk-simpledb 1.11.655
com.amazonaws aws-java-sdk-simpleworkflow 1.11.655
com.amazonaws aws-java-sdk-sns 1.11.655
com.amazonaws aws-java-sdk-sqs 1.11.655
com.amazonaws aws-java-sdk-ssm 1.11.655
com.amazonaws aws-java-sdk-storagegateway 1.11.655
com.amazonaws aws-java-sdk-sts (pakiet programistyczny Java dla AWS STS) 1.11.655
com.amazonaws wsparcie dla aws-java-sdk 1.11.655
com.amazonaws aws-java-sdk-biblioteka-biblioteka 1.11.22
com.amazonaws aws-java-sdk-workspaces 1.11.655
com.amazonaws jmespath-java 1.11.655
com.chuusai shapeless_2.12 2.3.3
com.clearspring.analytics odtwarzać strumieniowo 2.9.6
com.databricks Rserve 1.8-3
com.databricks jets3t 0.7.1-0
com.databricks.scalapb compilerplugin_2.12 0.4.15-10
com.databricks.scalapb scalapb-runtime_2.12 0.4.15-10
com.esotericsoftware kryo-cieniowane 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml kolega z klasy 1.3.4
com.fasterxml.jackson.core adnotacje jackson 2.10.0
com.fasterxml.jackson.core jackson-core 2.10.0
com.fasterxml.jackson.core jackson-databind 2.10.0
com.fasterxml.jackson.dataformat Jackson-format-danych-CBOR 2.10.0
com.fasterxml.jackson.datatype jackson-datatype-joda 2.10.0
com.fasterxml.jackson.module jackson-module-paranamer 2.10.0
com.fasterxml.jackson.module jackson-module-scala_2.12 2.10.0
com.github.ben-manes.kofeina kofeina 2.3.4
com.github.fommil jniloader 1.1
com.github.fommil.netlib rdzeń 1.1.2
com.github.fommil.netlib natywne_odniesienie-java 1.1
com.github.fommil.netlib native_ref-java-natives 1.1
com.github.fommil.netlib native_system java 1.1
com.github.fommil.netlib system natywny-java-natives 1.1
com.github.fommil.netlib netlib-native_ref-linux-x86_64-natives 1.1
com.github.fommil.netlib "netlib-native_system-linux-x86_64-natives" 1.1
com.github.joshelser dropwizard-metrics-hadoop-metrics2-reporter 0.1.2
com.github.luben zstd-jni 1.4.4-3
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.2.4
com.google.flatbuffers flatbuffers-java 1.9.0
com.google.guava guawa 15,0
com.google.protobuf protobuf-java 2.6.1
com.h2database h2 1.4.195
com.helger profiler 1.1.1
com.jcraft jsch 0.1.50
com.jolbox bonecp 0.8.0.WYDANIE
com.microsoft.azure azure-data-lake-store-sdk (SDK do przechowywania danych Azure Data Lake) 2.2.8
com.microsoft.sqlserver mssql-jdbc 8.2.1.jre8
com.ning compress-lzf (biblioteka do kompresji danych) 1.0.3
com.sun.mail javax.mail 1.5.2
com.tdunning JSON 1.8
com.thoughtworks.paranamer paranamer 2.8
com.trueaccord.lenses soczewki_2.12 0.4.12
com.twitter chill-java 0.9.5
com.twitter chill_2.12 0.9.5
com.twitter util-app_2.12 7.1.0
com.twitter util-core_2.12 7.1.0
com.twitter util-function_2.12 7.1.0
com.twitter util-jvm_2.12 7.1.0
com.twitter util-lint_2.12 7.1.0
com.twitter util-registry_2.12 7.1.0
com.twitter util-stats_2.12 7.1.0
com.typesafe konfig 1.2.1
com.typesafe.scala-logging scala-logging_2.12 3.7.2
com.univocity parsery jednowołciowości 2.8.3
com.zaxxer HikariCP 3.1.0
commons-beanutils commons-beanutils 1.9.4
commons-cli commons-cli 1.2
commons-codec commons-codec 1.10
Zbiory Commons Zbiory Commons 3.2.2
commons-configuration commons-configuration 1.6
commons-dbcp commons-dbcp 1.4
commons-digester commons-digester 1.8
wspólne przesyłanie plików wspólne przesyłanie plików 1.3.3
commons-httpclient commons-httpclient 3.1
commons-io commons-io 2,4
commons-lang commons-lang 2.6
commons-logging commons-logging 1.1.3
commons-net commons-net 3.1
commons-pool commons-pool 1.5.4
info.ganglia.gmetric4j gmetric4j 1.0.10
io.airlift kompresor powietrza 0.10
io.dropwizard.metrics metryki —rdzeń 4.1.1
io.dropwizard.metrics metrics-graphite 4.1.1
io.dropwizard.metrics wskaźniki-kontrole zdrowia 4.1.1
io.dropwizard.metrics metrics-jetty9 4.1.1
io.dropwizard.metrics metrics-jmx 4.1.1
io.dropwizard.metrics metryki w formacie JSON 4.1.1
io.dropwizard.metrics metryki-JVM 4.1.1
io.dropwizard.metrics serwlety metrics-servlets 4.1.1
io.netty netty-all 4.1.47.Final
jakarta.adnotacja jakarta.annotation-api 1.3.5
\ jakarta.validation jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
javax.activation aktywacja 1.1.1
javax.el javax.el-api 2.2.4
javax.jdo jdo-api 3.0.1
javax.servlet javax.servlet-api 3.1.0
javax.servlet.jsp jsp-api 2.1
javax.transaction jta 1.1
javax.transaction interfejs programistyczny transakcji 1.1
javax.xml.bind jaxb-api 2.2.2
javax.xml.stream stax-api 1.0-2
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.10.5
log4j apache-log4j-extras 1.2.17
log4j log4j 1.2.17
net.razorvine pirolit 4:30
net.sf.jpam jpam 1.1
net.sf.opencsv opencsv 2.3
net.sf.supercsv super-csv 2.2.0
net.snowflake SDK do pobierania danych Snowflake 0.9.6
net.snowflake snowflake-jdbc 3.12.0
net.snowflake spark-snowflake_2.12 2.5.9-spark_2.4
net.sourceforge.f2j arpack_combined_all 0.1
org.acplt.remotetea remotetea-oncrpc (niedostępne w lokalnym języku) 1.1.2
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.7.1
org.antlr Szablon łańcucha 3.2.1
org.apache.ant tat 1.9.2
org.apache.ant ant-jsch 1.9.2
org.apache.ant program uruchamiający Ant 1.9.2
org.apache.arrow format strzałki 0.15.1
org.apache.arrow strzałka w pamięci 0.15.1
org.apache.arrow wektor strzałki 0.15.1
org.apache.avro avro 1.8.2
org.apache.avro avro-ipc 1.8.2
org.apache.avro avro-mapred-hadoop2 1.8.2
org.apache.commons commons-compress 1.8.1
org.apache.commons commons-crypto 1.0.0
org.apache.commons commons-lang3 3.9
org.apache.commons commons-math3 3.4.1
org.apache.commons tekst wspólny 1.6
org.apache.curator kurator-klient 2.7.1
org.apache.curator struktura kuratora 2.7.1
org.apache.curator przepisy kuratora 2.7.1
org.apache.derby Derby 10.12.1.1
org.apache.directory.api api-asn1-api 1.0.0-M20
org.apache.directory.api api-util 1.0.0-M20
org.apache.directory.server apacheds-i18n 2.0.0-M15
org.apache.directory.server apacheds-kerberos-codec 2.0.0-M15
org.apache.hadoop adnotacje hadoop 2.7.4
org.apache.hadoop hadoop-auth 2.7.4
org.apache.hadoop hadoop-klient 2.7.4
org.apache.hadoop hadoop-common 2.7.4
org.apache.hadoop Hadoop-HDFS (Hadoop Distributed File System) 2.7.4
org.apache.hadoop Klient aplikacji Hadoop MapReduce 2.7.4
org.apache.hadoop hadoop-mapreduce-client-common 2.7.4
org.apache.hadoop hadoop-mapreduce-client-core 2.7.4
org.apache.hadoop hadoop-mapreduce-client-jobclient 2.7.4
org.apache.hadoop hadoop-mapreduce-client-shuffle (moduł mieszający klienta w Hadoop MapReduce) 2.7.4
org.apache.hadoop hadoop-yarn-api 2.7.4
org.apache.hadoop hadoop-yarn-client (klient Hadoop YARN) 2.7.4
org.apache.hadoop hadoop-yarn-common 2.7.4
org.apache.hadoop hadoop-yarn-server-common (Wspólne komponenty serwera Hadoop YARN) 2.7.4
org.apache.hive hive-beeline (narzędzie do interakcji z bazą danych Hive) 2.3.7
org.apache.hive hive-cli 2.3.7
org.apache.hive hive-common 2.3.7
org.apache.hive hive-exec-core 2.3.7
org.apache.hive hive-jdbc 2.3.7
org.apache.hive Klient hive-llap 2.3.7
org.apache.hive hive-llap-common 2.3.7
org.apache.hive magazyn metadanych Hive 2.3.7
org.apache.hive hive-serde 2.3.7
org.apache.hive podkładki hive 2.3.7
org.apache.hive hive-storage-api (interfejs do przechowywania danych hive) 2.7.1
org.apache.hive hive-vector-code-gen 2.3.7
org.apache.hive.shims hive-shims-0.23 2.3.7
org.apache.hive.shims hive-shims-common 2.3.7
org.apache.hive.shims harmonogram osłon/imitacji ula 2.3.7
org.apache.htrace htrace-core 3.1.0 inkubacja
org.apache.httpcomponents httpclient 4.5.6
org.apache.httpcomponents httpcore 4.4.12
org.apache.ivy bluszcz 2.4.0
org.apache.orc orc-core 1.5.10
org.apache.orc orc-mapreduce 1.5.10
org.apache.orc podkładki orc-shim 1.5.10
org.apache.parquet kolumna typu parquet 1.10.1.2-databricks4
org.apache.parquet parquet-wspólny 1.10.1.2-databricks4
org.apache.parquet kodowanie parquet 1.10.1.2-databricks4
org.apache.parquet format parquet 2.4.0
org.apache.parquet Parquet-Hadoop (framework do analizy danych) 1.10.1.2-databricks4
org.apache.parquet parquet-jackson 1.10.1.2-databricks4
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.velocity szybkość pracy 1.5
org.apache.xbean xbean-asm7-cieniowany 4.15
org.apache.yetus adnotacje odbiorców 0.5.0
org.apache.zookeeper - system do zarządzania konfiguracją i synchronizacją dla aplikacji rozproszonych. opiekun zoo 3.4.14
org.codehaus.jackson jackson-core-asl 1.9.13
org.codehaus.jackson jackson-jaxrs 1.9.13
org.codehaus.jackson jackson-mapujący-ASL 1.9.13
org.codehaus.jackson jackson-xc 1.9.13
org.codehaus.janino commons-kompilator 3.0.16
org.codehaus.janino Janino 3.0.16
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleus javax.jdo 3.2.0-m3
org.eclipse.jetty jetty-client 9.4.18.v20190429
org.eclipse.jetty jetty-kontynuacja 9.4.18.v20190429
org.eclipse.jetty jetty-http 9.4.18.v20190429
org.eclipse.jetty jetty-io 9.4.18.v20190429
org.eclipse.jetty jetty-jndi 9.4.18.v20190429
org.eclipse.jetty Jetty-plus 9.4.18.v20190429
org.eclipse.jetty serwer pośredniczący Jetty 9.4.18.v20190429
org.eclipse.jetty moduł bezpieczeństwa Jetty 9.4.18.v20190429
org.eclipse.jetty serwer aplikacji Jetty 9.4.18.v20190429
org.eclipse.jetty jetty-servlet 9.4.18.v20190429
org.eclipse.jetty jetty-servlets 9.4.18.v20190429
org.eclipse.jetty jetty-util 9.4.18.v20190429
org.eclipse.jetty Jetty-aplikacja internetowa 9.4.18.v20190429
org.eclipse.jetty jetty-xml 9.4.18.v20190429
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 lokalizator hk2 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-lokalizator-zasobów 1.0.3
org.glassfish.hk2.external aopalliance-zapakowane ponownie 2.6.1
org.glassfish.hk2.external jakarta.inject 2.6.1
org.glassfish.jersey.containers serwlet kontenerowy Jersey 2.30
org.glassfish.jersey.containers jersey-container-servlet-core 2.30
org.glassfish.jersey.core jersey-client 2.30
org.glassfish.jersey.core dzianina-zwykła 2.30
org.glassfish.jersey.core serwer jersey 2.30
org.glassfish.jersey.inject jersey-hk2 2.30
org.glassfish.jersey.media - "jersey-media-jaxb" не wymaga tłumaczenia, gdyż jest to nazwa techniczna, ale dla polskich odbiorców warto dodać opis lub kontynuować bez zmian, jeżeli nazwa już jako taka przyjęła się w lokalnym użyciu. 2.30
org.hibernate.validator moduł sprawdzania poprawności hibernacji 6.1.0 Final
org.javassist javassist 3.25.0-GA
org.jboss.logging jboss-logging (narzędzie do rejestrowania zdarzeń w JBoss) 3.3.2.Final
org.jdbi jdbi 2.63.1
org.joda joda-convert 1,7
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.6.6
org.json4s json4s-core_2.12 3.6.6
org.json4s json4s-jackson_2.12 3.6.6
org.json4s json4s-scalap_2.12 3.6.6
org.lz4 lz4-java 1.7.1
org.mariadb.jdbc mariadb-java-client 2.1.2
org.objenesis objenesis 2.5.1
org.postgresql postgresql 42.1.4
org.roaringbitmap RoaringBitmap 0.7.45
org.roaringbitmap Podkładki 0.7.45
org.rocksdb rocksdbjni 6.2.2
org.rosuda.REngine REngine 2.1.0
org.scala-lang scala-compiler_2.12 2.12.10
org.scala-lang scala-library_2.12 2.12.10
org.scala-lang scala-reflect_2.12 2.12.10
org.scala-lang.modules scala-collection-compat_2.12 2.1.1
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scala-sbt interfejs testowy 1.0
org.scalacheck scalacheck_2.12 1.14.2
org.scalactic scalactic_2.12 3.0.8
org.scalanlp breeze-macros_2.12 1.0
org.scalanlp breeze_2.12 1.0
org.scalatest scalatest_2.12 3.0.8
org.slf4j jcl-over-slf4j 1.7.30
org.slf4j jul-to-slf4j 1.7.30
org.slf4j slf4j-api 1.7.30
org.slf4j slf4j-log4j12 1.7.30
org.spark-project.spark.spark Nieużywane 1.0.0
org.springframework spring-core (podstawowy moduł Spring) 4.1.4.WYDANIE
org.springframework test sprężynowy 4.1.4.WYDANIE
org.threeten trzydostępne dodatkowe 1.5.0
org.tukaani xz 1.5
org.typelevel algebra_2.12 2.0.0-M2
org.typelevel cats-kernel_2.12 2.0.0-M4
org.typelevel machinista_2.12 0.6.8
org.typelevel macro-compat_2.12 1.1.1
org.typelevel spire-macros_2.12 0.17.0-M1
org.typelevel spire-platform_2.12 0.17.0-M1
org.typelevel spire-util_2.12 0.17.0-M1
org.typelevel spire_2.12 0.17.0-M1
org.xerial sqlite-jdbc 3.8.11.2
org.xerial.snappy snappy-java 1.1.7.5
org.yaml snakeyaml 1.24
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5
oprogramowanie.amazon.ion ion-java 1.0.2
Stax stax-api 1.0.1
xmlenc (standard szyfrowania XML) xmlenc (standard szyfrowania XML) 0.52