Databricks Runtime 7.0 (EoS)

Uwaga

Obsługa tej wersji środowiska Databricks Runtime została zakończona. Aby uzyskać datę zakończenia pomocy technicznej, zobacz Historia zakończenia pomocy technicznej. Wszystkie obsługiwane wersje środowiska Databricks Runtime można znaleźć w temacie Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime).

Usługa Databricks wydała tę wersję w czerwcu 2020 r.

Poniższe informacje o wersji zawierają informacje o środowisku Databricks Runtime 7.0 obsługiwanym przez platformę Apache Spark 3.0.

Nowe funkcje

Środowisko Databricks Runtime 7.0 zawiera następujące nowe funkcje:

Scala 2.12

Środowisko Databricks Runtime 7.0 uaktualnia język Scala z wersji 2.11.12 do 2.12.10. Lista zmian między Scala 2.12 i 2.11 jest w notatkach o wydaniu Scala 2.12.0.
Automatyczne ładowanie (publiczna wersja zapoznawcza) wydane w środowisku Databricks Runtime 6.4 zostało ulepszone w środowisku Databricks Runtime 7.0

Automatyczne ładowanie zapewnia wydajniejszy sposób przetwarzania nowych plików danych przyrostowo podczas procesu ETL w magazynie obiektów blob w chmurze. Jest to poprawa przesyłania strumieniowego ze strukturą opartą na plikach, która identyfikuje nowe pliki, wielokrotnie wyświetlając katalog w chmurze i śledząc pliki, które zostały zaobserwowane, i może być bardzo nieefektywna w miarę wzrostu katalogu. Auto Loader jest również wygodniejszy i skuteczniejszy niż strumieniowanie oparte na powiadomieniach plikowych, które wymaga ręcznego skonfigurowania usług powiadomień plikowych w chmurze i nie pozwala na uzupełnianie istniejących plików. Aby uzyskać szczegółowe informacje, zobacz Co to jest automatyczne ładowanie?.

W środowisku Databricks Runtime 7.0 nie trzeba już żądać niestandardowego obrazu środowiska Databricks Runtime w celu korzystania z modułu automatycznego ładującego.
COPY INTO (Publiczna wersja zapoznawcza), która umożliwia ładowanie danych do usługi Delta Lake przy użyciu ponownych prób idempotentnych, została ulepszona w środowisku Databricks Runtime 7.0

Wydane jako publiczna wersja zapoznawcza w środowisku Databricks Runtime 6.4 polecenie COPY INTO SQL umożliwia ładowanie danych do usługi Delta Lake przy użyciu ponownych prób idempotentnych. Aby załadować dane do usługi Delta Lake dzisiaj, musisz użyć interfejsów API ramki danych platformy Apache Spark. Jeśli podczas ładowania występują błędy, należy je skutecznie obsługiwać. Nowe COPY INTO polecenie udostępnia znany interfejs deklaratywny do ładowania danych w języku SQL. Polecenie śledzi wcześniej załadowane pliki i bezpiecznie uruchamia je ponownie w przypadku awarii. Aby uzyskać szczegółowe informacje, zobacz COPY INTO.

Ulepszenia

Łącznik usługi Azure Synapse (dawniej SQL Data Warehouse) obsługuje instrukcję COPY .

Główną zaletą COPY jest to, że użytkownicy z niższymi uprawnieniami mogą zapisywać dane w usłudze Azure Synapse bez konieczności posiadania rygorystycznych CONTROL uprawnień w usłudze Azure Synapse.
Polecenie %matplotlib inline magic nie jest już wymagane do wyświetlania obiektów Matplolib wbudowanych w komórkach notesu. Są one zawsze wyświetlane w tekście domyślnie.
Liczby biblioteki Matplolib są teraz renderowane za pomocą transparent=Falseelementu , dzięki czemu tła określone przez użytkownika nie zostaną utracone. To zachowanie można zastąpić, ustawiając konfigurację spark.databricks.workspace.matplotlib.transparent trueplatformy Spark.
W przypadku uruchamiania zadań produkcyjnych struktur przesyłania strumieniowego w klastrach trybie wysokiej współbieżności, ponowne uruchomienie zadania czasami się nie udaje, ponieważ wcześniej uruchomione zadanie nie zostało prawidłowo zakończone. Środowisko Databricks Runtime 6.3 wprowadziło możliwość ustawienia konfiguracji SQL spark.sql.streaming.stopActiveRunOnRestart true w klastrze, aby upewnić się, że poprzednie uruchomienie zostanie zatrzymane. Ta konfiguracja jest domyślnie ustawiana w środowisku Databricks Runtime 7.0.

Główne zmiany w bibliotece

Pakiety języka Python

Uaktualniono główne pakiety języka Python:

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 —> 3.1.3
numpy 1.16.2 —> 1.18.1
pandas 0.24.2 —> 1.0.1
19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 —> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

Usunięte pakiety języka Python:

boto (użyj boto3)
pycurl

Uwaga

Środowisko języka Python w środowisku Databricks Runtime 7.0 korzysta z języka Python 3.7, który różni się od zainstalowanego systemu Ubuntu Python: /usr/bin/python i /usr/bin/python2 jest połączony z językiem Python 2.7 i /usr/bin/python3 jest połączony z językiem Python 3.6.

Pakiety języka R

Dodano pakiety języka R:

miotła
wysoki
isoband
knitr (narzędzie do generowania dynamicznych raportów w R)
Markdown
modeler
przykład powtarzalny
rmarkdown (narzędzie do tworzenia dokumentów w R)
rvest
selektor
tidyverse
tinytex
xfun

Usunięte pakiety języka R:

abind
bitops
samochód
dane samochodu
DoMC
Gbm
H2O
mniejszy
lme4
mapproj
Mapy
maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsxx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils
RcppEigen
RCurl
Rio
Sp
Rozrzednia
statmod
zamek

Biblioteki Java i Scala

Wersja programu Apache Hive używana do obsługi funkcji zdefiniowanych przez użytkownika programu Hive i uaktualnianych do wersji 2.3 programu Hive SerDes.
Wcześniej pliki jar usługi Azure Storage i Key Vault zostały spakowane w ramach środowiska Databricks Runtime, co uniemożliwia korzystanie z różnych wersji tych bibliotek dołączonych do klastrów. Klasy w obszarze com.microsoft.azure.storage i com.microsoft.azure.keyvault nie znajdują się już na ścieżce klasy w środowisku Databricks Runtime. Jeśli zależysz od jednej z tych ścieżek klas, musisz teraz dołączyć zestaw SDK usługi Azure Storage lub zestaw SDK usługi Azure Key Vault do klastrów.

Zmiany zachowania

W tej sekcji wymieniono zmiany zachowania środowiska Databricks Runtime 6.6 do środowiska Databricks Runtime 7.0. Należy pamiętać o tych obciążeniach podczas migrowania obciążeń z niższych wersji środowiska Databricks Runtime do środowiska Databricks Runtime 7.0 lub nowszego.

Zmiany zachowania platformy Spark

Ponieważ środowisko Databricks Runtime 7.0 jest pierwszym środowiskiem Databricks Runtime opartym na platformie Spark 3.0, istnieje wiele zmian, o których należy pamiętać podczas migrowania obciążeń z środowiska Databricks Runtime 5.5 LTS lub 6.x, które są tworzone na platformie Spark 2.4. Te zmiany są wymienione w sekcji "Zmiany zachowania" każdego obszaru funkcjonalnego w sekcji Apache Spark tego artykułu z informacjami o wersji:

Zmiany zachowania w przypadku platformy Spark Core, Spark SQL i przesyłania strumieniowego ze strukturą
Zmiany zachowania dla biblioteki MLlib
Zmiany zachowania w usłudze SparkR

Inne zmiany zachowania

Uaktualnienie do wersji Scala 2.12 obejmuje następujące zmiany:
- Serializacja komórek pakietu jest obsługiwana inaczej. Poniższy przykład ilustruje zmianę zachowania i sposób jego obsługi.
  
  Uruchomienie zgodnie foo.bar.MyObjectInPackageCell.run() z definicją w poniższej komórce pakietu spowoduje wyzwolenie błędu java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Aby obejść ten błąd, można opakowować MyObjectInPackageCell wewnątrz klasy możliwej do serializacji.
- Niektóre przypadki użycia DataStreamWriter.foreachBatch będą wymagać aktualizacji kodu źródłowego. Ta zmiana wynika z faktu, że język Scala 2.12 ma automatyczną konwersję z wyrażeń lambda na typy SAM i może powodować niejednoznaczność.
  
  Na przykład następujący kod Scala nie może skompilować:
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Aby naprawić błąd kompilacji, przejdź foreachBatch { (df, id) => myFunc(df, id) } do foreachBatch(myFunc _) interfejsu API Języka Java lub użyj go jawnie: foreachBatch(new VoidFunction2 ...).

Ponieważ wersja apache Hive używana do obsługi funkcji zdefiniowanych przez użytkownika programu Hive i SerDes hive została uaktualniona do wersji 2.3, wymagane są dwie zmiany:
- Interfejs programu Hive SerDe jest zastępowany przez klasę AbstractSerDeabstrakcyjną . W przypadku dowolnej niestandardowej implementacji programu Hive SerDe migracja do AbstractSerDe programu jest wymagana.
- Ustawienie spark.sql.hive.metastore.jars na builtin oznacza, że klient magazynu metadanych Hive 2.3 będzie używany do uzyskiwania dostępu do magazynów metadanych dla środowiska Databricks Runtime 7.0. Jeśli chcesz uzyskać dostęp do zewnętrznych magazynów metadanych opartych na technologii Hive 1.2, ustaw spark.sql.hive.metastore.jars na folder zawierający pliki jar programu Hive 1.2.

Wycofywanie i usuwanie

Indeks pomijania danych został przestarzały w środowisku Databricks Runtime 4.3 i został usunięty w środowisku Databricks Runtime 7.0. Zalecamy zamiast tego używanie tabel delty, które oferują ulepszone możliwości pomijania danych.
W środowisku Databricks Runtime 7.0 podstawowa wersja platformy Apache Spark używa języka Scala 2.12. Ponieważ biblioteki skompilowane w środowisku Scala 2.11 mogą wyłączyć klastry Środowiska Databricks Runtime 7.0 w nieoczekiwany sposób, klastry z uruchomionym środowiskiem Databricks Runtime 7.0 lub nowszym nie instalują bibliotek skonfigurowanych do zainstalowania we wszystkich klastrach. Karta Biblioteki klastra Jeśli jednak masz klaster, który został utworzony we wcześniejszej wersji środowiska Databricks Runtime przed wydaniem platformy usługi Azure Databricks w wersji 3.20 do obszaru roboczego, a teraz edytujesz ten klaster, aby używać środowiska Databricks Runtime 7.0, wszystkie biblioteki skonfigurowane do zainstalowania we wszystkich klastrach zostaną zainstalowane w tym klastrze. W takim przypadku wszystkie niezgodne elementy JAR w zainstalowanych bibliotekach mogą spowodować wyłączenie klastra. Obejściem jest sklonowanie klastra lub utworzenie nowego klastra.

Apache Spark

Środowisko Databricks Runtime 7.0 obejmuje platformę Apache Spark 3.0.

W tej sekcji:

Core, Spark SQL, Przesyłanie strumieniowe ze strukturą
MLlib
SparkR
Wycofywanie
Znane problemy

Core, Spark SQL, Przesyłanie strumieniowe ze strukturą

Najważniejsze informacje

(Projekt wodoru) Harmonogram obsługujący akcelerator (SPARK-24615)
Wykonywanie zapytań adaptacyjnych (SPARK-31412)
Oczyszczanie partycji dynamicznej (SPARK-11150)
Przeprojektowany interfejs API UDF biblioteki pandas z wskazówkami typu (SPARK-28264)
Interfejs użytkownika przesyłania strumieniowego ze strukturą (SPARK-29543)
Interfejs API wtyczki katalogu (SPARK-31121)
Lepsza zgodność ze standardem ANSI SQL

Ulepszenia wydajności

Wykonywanie zapytań adaptacyjnych (SPARK-31412)
- Podstawowa struktura (SPARK-23128)
- Korekta liczby partycji po przetasowaniu (SPARK-28177)
- Dynamiczne ponowne użycie podzapytania (SPARK-28753)
- Czytnik mieszania lokalnego (SPARK-28560)
- Optymalizacja sprzężenia niesymetrycznego (SPARK-29544)
- Optymalizacja odczytu ciągłych bloków tasowania (SPARK-9853)
Oczyszczanie partycji dynamicznej (SPARK-11150)
Inne reguły optymalizatora
- Ponowne użycie regułyPodsubquery (SPARK-27279)
- Reguła PushDownLeftSemiAntiJoin (SPARK-19712)
- Reguła PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Reguła ReplaceNullWithFalse (SPARK-25860)
- Reguła Eliminuj sortowanie bez ograniczeń w podzapytaniu łączenia/agregacji (SPARK-29343)
- Reguła PruneHiveTablePartitions (SPARK-15616)
- Oczyszczanie niepotrzebnych zagnieżdżonych pól z Generate (SPARK-27707)
- RewriteNonCorrelatedExists (SPARK-29800)
Minimalizuj koszty synchronizacji pamięci podręcznej tabel (SPARK-26917), (SPARK-26617), (SPARK-26548)
Podziel kod agregacji na małe funkcje (SPARK-21870)
Dodaj wsadowość w poleceniach INSERT i ALTER TABLE ADD PARTITION (SPARK-29938)

Ulepszenia rozszerzalności

Interfejs API wtyczki katalogu (SPARK-31121)
Refaktoryzacja interfejsu API źródła danych w wersji 2 (SPARK-25390)
Obsługa magazynu metadanych Hive 3.0 i 3.1 (SPARK-27970),(SPARK-24360)
Rozszerzanie interfejsu wtyczki Spark na sterownik (SPARK-29396)
Rozszerzanie systemu metryk platformy Spark przy użyciu metryk zdefiniowanych przez użytkownika przy użyciu wtyczek funkcji wykonawczej (SPARK-28091)
Interfejsy API dla deweloperów na potrzeby rozszerzonej obsługi przetwarzania kolumnowego (SPARK-27396)
Wbudowana migracja źródła przy użyciu wersji DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
Zezwól na FunctionInjection w SparkExtensions (SPARK-25560)
Umożliwia zarejestrowanie agregatora jako UDAF (SPARK-27296)

Ulepszenia łącznika

Oczyszczanie kolumn za pomocą wyrażeń nieokreślonych (SPARK-29768)
Obsługa spark.sql.statistics.fallBackToHdfs w tabelach źródeł danych (SPARK-25474)
Zezwalaj na oczyszczanie partycji za pomocą filtrów podzapytania w źródle plików (SPARK-26893)
Unikaj wypychania podzapytań w filtrach źródła danych (SPARK-25482)
Cykliczne ładowanie danych ze źródeł plików (SPARK-27990)
Parquet/ORC
- Wypychanie predykatów rozłącznych (SPARK-27699)
- Uogólnij zagnieżdżone oczyszczanie kolumn (SPARK-25603) i domyślnie włączone (SPARK-29805)
- Tylko Parquet
  - Wypychanie predykatu Parquet dla zagnieżdżonych pól (SPARK-17636)
- Tylko ORC
  - Obsługa schematu scalania dla ORC (SPARK-11412)
  - Zagnieżdżone oczyszczanie schematu dla ORC (SPARK-27034)
  - Zmniejszenie złożoności konwersji predykatu dla ORC (SPARK-27105, SPARK-28108)
  - Uaktualnianie usługi Apache ORC do wersji 1.5.9 (SPARK-30695)
CSV
- Obsługa wypychania filtrów w źródle danych CSV (SPARK-30323)
Hive SerDe
- Brak wnioskowania schematu podczas odczytywania tabeli serde programu Hive z natywnym źródłem danych (SPARK-27119)
- Polecenia CTAS programu Hive powinny używać źródła danych, jeśli jest konwertowany (SPARK-25271)
- Użyj natywnego źródła danych, aby zoptymalizować wstawianie partycjonowanej tabeli Hive (SPARK-28573)
Apache Kafka
- Dodano obsługę nagłówków platformy Kafka (SPARK-23539)
- Dodawanie obsługi tokenu delegowania platformy Kafka (SPARK-25501)
- Wprowadzenie nowej opcji do źródła platformy Kafka: przesunięcie według znacznika czasu (rozpoczęcie/zakończenie) (SPARK-26848)
- Obsługa minPartitions opcji źródła wsadowego platformy Kafka i źródła przesyłania strumieniowego w wersji 1 (SPARK-30656)
- Uaktualnianie platformy Kafka do wersji 2.4.1 (SPARK-31126)
Nowe wbudowane źródła danych
- Nowe wbudowane źródła danych plików binarnych (SPARK-25348)
- Nowe źródła danych bez operacji wsadowych (SPARK-26550) i ujście przesyłania strumieniowego bez operacji (SPARK-26649)

Ulepszenia funkcji

[Wodór] Harmonogram obsługujący akcelerator (SPARK-24615)
Wprowadź pełny zestaw wskazówek sprzężenia (SPARK-27225)
Dodawanie PARTITION BY wskazówki dotyczącej zapytań SQL (SPARK-28746)
Obsługa metadanych na serwerze Thrift (SPARK-28426)
Dodawanie funkcji wyższego zamówienia do interfejsu API scala (SPARK-27297)
Obsługa prostego zbierania wszystkich w kontekście zadania bariery (SPARK-30667)
Funkcje zdefiniowane przez użytkownika programu Hive obsługują typ UDT (SPARK-28158)
Obsługa operatorów DELETE/UPDATE/MERGE w Katalizatorze (SPARK-28351, SPARK-28892, SPARK-28893)
Implementowanie elementu DataFrame.tail (SPARK-30185)
Nowe wbudowane funkcje
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- jakikolwiek, każdy, niektóre (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- wersja (SPARK-29554)
- xxhash64 (SPARK-27099)
Ulepszenia istniejących wbudowanych funkcji
- Wbudowane funkcje/ulepszenia operacji daty/godziny (SPARK-31415)
- Tryb obsługi FAILFAST dla from_json (SPARK-25243)
- array_sort dodaje nowy parametr komparatora (SPARK-29020)
- Filtr może teraz przyjmować indeks jako dane wejściowe, a także element (SPARK-28962)

Ulepszenia zgodności sql

Przełącz się do kalendarza proleptycznego gregoriańskiego (SPARK-26651)
Zbuduj własną definicję wzorca daty/godziny platformy Spark (SPARK-31408)
Wprowadzenie polityki przypisywania magazynu ANSI dla wstawiania tabeli (SPARK-28495)
Domyślnie, postępuj zgodnie z regułą przypisania magazynu ANSI podczas wstawiania tabeli (SPARK-28885)
Dodawanie kodu SQLConf spark.sql.ansi.enabled (SPARK-28989)
Obsługa klauzuli filtru ANSI SQL dla wyrażenia agregowanego (SPARK-27986)
Obsługa funkcji ANSI SQL OVERLAY (SPARK-28077)
Obsługa zagnieżdżonych komentarzy w nawiasach ANSI (SPARK-28880)
Zgłaszanie wyjątku w przepełnieniu dla liczb całkowitych (SPARK-26218)
Sprawdzanie przepełnienia pod kątem operacji arytmetycznych interwału (SPARK-30341)
Zgłaszanie wyjątku w przypadku rzutowania nieprawidłowego ciągu na typ liczbowy (SPARK-30292)
Pomnożyj interwał i podziel zachowanie przepełnienia zgodnie z innymi operacjami (SPARK-30919)
Dodawanie aliasów typu ANSI dla znaków i dziesiętnych (SPARK-29941)
Analizator SQL definiuje zastrzeżone słowa kluczowe zgodne ze standardem ANSI (SPARK-26215)
Zabraniaj zastrzeżonych słów kluczowych jako identyfikatorów, gdy tryb ANSI jest włączony (SPARK-26976)
Obsługa składni ANSI SQL LIKE ... ESCAPE (SPARK-28083)
Obsługa składni ansi SQL Boolean-Predykate (SPARK-27924)
Lepsza obsługa skorelowanego przetwarzania podzapytania (SPARK-18455)

Ulepszenia monitorowania i debugowania

Nowy interfejs użytkownika przesyłania strumieniowego ze strukturą (SPARK-29543)
SHS: zezwalaj na przerzucanie dzienników zdarzeń na potrzeby uruchamiania aplikacji przesyłania strumieniowego (SPARK-28594)
Dodawanie interfejsu API, który umożliwia użytkownikowi definiowanie i obserwowanie dowolnych metryk w zapytaniach wsadowych i przesyłanych strumieniowo (SPARK-29345)
Instrumentacja do śledzenia czasu planowania poszczególnych zapytań (SPARK-26129)
Umieść podstawowe metryki mieszania w operatorze programu SQL Exchange (SPARK-26139)
Instrukcja SQL jest wyświetlana na karcie SQL zamiast wywołania (SPARK-27045)
Dodawanie etykietki narzędzia do interfejsu SparkUI (SPARK-29449)
Zwiększanie współbieżnej wydajności serwera historii (SPARK-29043)
EXPLAIN FORMATTED polecenie (SPARK-27395)
Obsługa dumpingu planów obcięte i wygenerowanego kodu do pliku (SPARK-26023)
Ulepszanie struktury opisywania w celu opisania danych wyjściowych zapytania (SPARK-26982)
Dodaj SHOW VIEWS polecenie (SPARK-31113)
Ulepszanie komunikatów o błędach analizatora SQL (SPARK-27901)
Natywna obsługa monitorowania rozwiązania Prometheus (SPARK-29429)

Ulepszenia programu PySpark

Przeprojektowano funkcje zdefiniowane przez użytkownika biblioteki pandas z wskazówkami typu (SPARK-28264)
Potok UDF biblioteki Pandas (SPARK-26412)
Obsługa klasy StructType jako argumentów i zwracanych typów dla funkcji UDF biblioteki Scalar Pandas (SPARK-27240 )
Obsługa współgrupy ramek danych za pośrednictwem zdefiniowanych przez użytkownika biblioteki Pandas (SPARK-27463)
Dodaj mapInPandas , aby zezwolić na iterator ramek danych (SPARK-28198)
Niektóre funkcje SQL powinny również przyjmować nazwy kolumn (SPARK-26979)
Zwiększenie liczby wyjątków SQL PySpark (SPARK-31849)

Ulepszenia dokumentacji i pokrycia testów

Tworzenie odwołania SQL (SPARK-28588)
Tworzenie podręcznika użytkownika dla interfejsu WebUI (SPARK-28372)
Tworzenie strony dokumentacji konfiguracji SQL (SPARK-30510)
Dodawanie informacji o wersji dla konfiguracji platformy Spark (SPARK-30839)
Testy regresji portów z bazy danych PostgreSQL (SPARK-27763)
Pokrycie testowe thrift-server (SPARK-28608)
Testowanie pokrycia zdefiniowanych przez użytkownika (UDF języka Python, funkcji UDF biblioteki pandas, scala UDF) (SPARK-27921)

Inne istotne zmiany

Wbudowane uaktualnienie wykonywania programu Hive z wersji 1.2.1 do 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Domyślnie używaj zależności apache Hive 2.3 (SPARK-30034)
GA Scala 2.12 i usuń 2.11 (SPARK-26132)
Ulepszanie logiki dla funkcji wykonawczych limitu czasu w alokacji dynamicznej (SPARK-20286)
Utrwalone na dysku bloki RDD obsługiwane przez usługę mieszania i ignorowane dla alokacji dynamicznej (SPARK-27677)
Uzyskiwanie nowych funkcji wykonawczych w celu uniknięcia zawieszenia z powodu blokowania listy (SPARK-22148)
Zezwolenie na udostępnianie alokatorów puli pamięci Netty (SPARK-24920)
Naprawa zakleszczenia między elementami TaskMemoryManager i UnsafeExternalSorter$SpillableIterator (SPARK-27338)
Wprowadzenie AdmissionControl do interfejsów API dla funkcji StructuredStreaming (SPARK-30669)
Zwiększenie wydajności strony głównej historii platformy Spark (SPARK-25973)
Przyspieszanie i obniżanie agregacji metryk w odbiorniku SQL (SPARK-29562)
Unikaj sieci, gdy bloki mieszania są pobierane z tego samego hosta (SPARK-27651)
Ulepszanie listy plików (DistributedFileSystemSPARK-27801)

Zmiany zachowania w przypadku platformy Spark Core, Spark SQL i przesyłania strumieniowego ze strukturą

Poniższe przewodniki migracji zawierają listę zmian zachowania między platformą Apache Spark 2.4 i 3.0. Te zmiany mogą wymagać aktualizacji zadań, które były uruchomione w niższych wersjach środowiska Databricks Runtime:

Następujące zmiany zachowania nie zostały omówione w tych przewodnikach migracji:

W usłudze Spark 3.0 przestarzała klasa org.apache.spark.sql.streaming.ProcessingTime została usunięta. Użycie w zamian parametru org.apache.spark.sql.streaming.Trigger.ProcessingTime. Podobnie, org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger został usunięty na rzecz Trigger.Continuous, i org.apache.spark.sql.execution.streaming.OneTimeTrigger został ukryty na rzecz Trigger.Once. (SPARK-28199)
W środowisku Databricks Runtime 7.0 podczas odczytywania tabeli Hive SerDe domyślnie platforma Spark nie zezwala na odczytywanie plików w podkatalogu, który nie jest partycją tabeli. Aby ją włączyć, ustaw konfigurację spark.databricks.io.hive.scanNonpartitionedDirectory.enabled jako true. Nie ma to wpływu na natywne czytniki tabel i czytniki plików platformy Spark.

MLlib

Najważniejsze informacje

Dodano obsługę wielu kolumn do narzędzia Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) i PySpark QuantileDiscretizer (SPARK-22796)
Obsługa transformacji funkcji opartej na drzewie (SPARK-13677)
Dodano dwóch nowych ewaluatorów MultilabelClassificationEvaluator (SPARK-16692) i RankingEvaluator (SPARK-28045)
Dodano obsługę wag próbek w module DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-9612) 24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) i GaussianMixture (SPARK-30102)
Dodano interfejs API języka R dla klasy PowerIterationClustering (SPARK-19827)
Dodano odbiornik Spark ML do śledzenia stanu potoku uczenia maszynowego (SPARK-23674)
Dopasowanie do zestawu walidacyjnego zostało dodane do Gradientowych Drzew Wzmacnianych w Pythonie (SPARK-24333)
Dodano transformator RobustScaler (SPARK-28399)
Dodano klasyfikator i regresję maszyn factorization (SPARK-29224)
Gaussian Naive Bayes (SPARK-16872) i Add Naive Bayes (SPARK-29942) zostały dodane
Parzystość funkcji uczenia maszynowego między językami Scala i Python (SPARK-28958)
predictRaw jest upubliczniony we wszystkich modelach klasyfikacji. funkcja predictProbability jest publicznie udostępniana we wszystkich modelach klasyfikacji z wyjątkiem LinearSVCModel (SPARK-30358)

Zmiany zachowania dla biblioteki MLlib

W poniższym przewodniku migracji wymieniono zmiany zachowania między platformą Apache Spark 2.4 i 3.0. Te zmiany mogą wymagać aktualizacji zadań, które były uruchomione w niższych wersjach środowiska Databricks Runtime:

Przewodnik migracji: MLlib (Uczenie maszynowe)

Następujące zmiany zachowania nie zostały omówione w przewodniku migracji:

Na platformie Spark 3.0 regresja logistyczna w Pyspark zwróci teraz (poprawnie) wartość LogisticRegressionSummary, a nie podklasę BinaryLogisticRegressionSummary. Dodatkowe metody uwidocznione przez BinaryLogisticRegressionSummary program nie będą działać w tym przypadku. (SPARK-31681)
W przypadku platformy Spark 3.0 pyspark.ml.param.shared.Has* kombinacje nie zapewniają już żadnych set*(self, value) metod ustawiania, należy użyć odpowiednich self.set(self.*, value) metod. Aby uzyskać szczegółowe informacje, zobacz SPARK-29093. (SPARK-29093)

SparkR

Optymalizacja strzałek w współdziałaniu platformy SparkR (SPARK-26759)
Ulepszenia wydajności za pomocą wektoryzowanego języka R gapply(), dapply(), createDataFrame, collect()
"Chętne wykonywanie" dla powłoki języka R, IDE (SPARK-24572)
R API dla Klasteryzacji Iteracji Potęgowej (SPARK-19827)

Zmiany zachowania w usłudze SparkR

Przewodnik migracji: SparkR (R na platformie Spark)

Przestarzałe elementy

Przestarzała obsługa języka Python 2 (SPARK-27884)
Wycofaj obsługę języka R < 3.4 (SPARK-26014)

Znane problemy

Analizowanie dnia roku przy użyciu litery wzorca "D" zwraca nieprawidłowy wynik, jeśli brakuje pola roku. Może się to zdarzyć w funkcjach SQL, takich jak to_timestamp, które analizuje ciąg daty/godziny na wartości daty/godziny przy użyciu ciągu wzorca. (SPARK-31939)
Łączenie/okno/agregacja wewnątrz podzapytań może prowadzić do błędnych wyników, jeśli klucze mają wartości -0.0 i 0.0. (SPARK-31958)
Zapytanie okna może nieoczekiwanie zakończyć się niejednoznacznym błędem samosprzężenia. (SPARK-31956)
Zapytania przesyłane strumieniowo za pomocą dropDuplicates operatora mogą nie być możliwe do ponownego uruchomienia przy użyciu punktu kontrolnego napisanego przez platformę Spark 2.x. (SPARK-31990)

Aktualizacje konserwacyjne

Zobacz Aktualizacje konserwacji środowiska Databricks Runtime 7.0.

Środowisko systemu

System operacyjny: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: R w wersji 3.6.3 (2020-02-29)
Delta Lake 0.7.0

Zainstalowane biblioteki języka Python

Biblioteka	Wersja	Biblioteka	Wersja	Biblioteka	Wersja
asn1crypto	1.3.0	Wezwanie zwrotne	0.1.0	boto3	1.12.0
botocore	1.15.0	certyfikat	2020.4.5	cffi	1.14.0
chardet	3.0.4	kryptografia	2.8	rowerzysta	0.10.0
Cython	0.29.15	dekorator	4.4.1	docutils	0.15.2
punkty wejścia	0,3	IDNA	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	Jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	jupyter-client	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	3.1.3
numpy	1.18.1	Pandas	1.0.1	parso	0.5.2
Patsy	0.5.1	pexpect	4.8.0	pickleshare (jeśli to nazwa własna, nie trzeba tłumaczyć)	0.7.5
pip (menedżer pakietów Pythona)	20.0.2	zestaw narzędzi prompt	3.0.3	psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2.19
Pygments	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing – biblioteka do przetwarzania tekstu w Pythonie	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
python-dateutil (biblioteka Pythona do zarządzania datami)	2.8.1	pytz (biblioteka Pythona do obliczeń stref czasowych)	2019.3	pyzmq	18.1.1
żądania	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
scipy (biblioteka naukowa dla Pythona)	1.4.1	urodzony na morzu	0.10.0	setuptools	45.2.0
Sześć	1.14.0	ssh-import-id (narzędzie do importowania kluczy SSH)	5.7	statsmodels - biblioteka do modelowania statystycznego	0.11.0
tornado	6.0.3	traitlety	4.3.3	nienadzorowane uaktualnienia	0.1
urllib3	1.25.8	virtualenv	16.7.10	szerokość(wcwidth)	0.1.8
wheel	0.34.2

Zainstalowane biblioteki języka R

Biblioteki języka R są instalowane z migawki usługi Microsoft CRAN w wersji 2020-04-22.

Biblioteka	Wersja	Biblioteka	Wersja	Biblioteka	Wersja
askpass	1.1	potwierdzić to	0.2.1	backports (backports)	1.1.6
baza	3.6.3	base64enc	0.1-3	BH	1.72.0-3
bitowe	1.1-15.2	bit-64	0.9-7	blob	1.2.1
rozruch	1.3-25	warzyć	1.0-6	miotła	0.5.6
obiekt wywołujący	3.4.3	karetka	6.0-86	cellranger	1.1.0
Chroń	2.3-55	klasa	7.3-17	CLI	2.0.2
clipr	0.7.0	klaster	2.1.0	codetools	0.2-16
przestrzeń kolorów	1.4-1	commonmark	1,7	kompilator	3.6.3
konfig	0,3	cover	3.5.0	kredka	1.3.4
Crosstalk	1.1.0.1	lok	4.3	tabela danych	1.12.8
usługi Power BI	3.6.3	DBI	1.1.0	dbplyr	1.4.3
Desc	1.2.0	devtools	2.3.0	skrót	0.6.25
dplyr	0.8.5	DT	0,13	wielokropek	0.3.0
ocenić	0,14	fani	0.4.1	kolory	2.0.3
szybka mapa	1.0.1	dla kotów	0.5.0	foreach	1.5.0
zagraniczny	0.8-76	kuźnia	0.2.0	Fs	1.4.1
typy ogólne	0.0.2	ggplot2	3.3.0	Gh	1.1.0
git2r	0.26.1	glmnet	3.0-2	globalna	0.12.5
klej	1.4.0	Gower	0.2.1	grafika	3.6.3
grDevices	3.6.3	siatka	3.6.3	gridExtra	2.3
gsubfn	0,7	gtabela	0.3.0	przystań	2.2.0
wysoki	0,8	Hms	0.5.3	htmltools – narzędzie do tworzenia stron internetowych	0.4.0
widżety HTML	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	ini	0.3.1
ipred	0.9-9	isoband	0.2.1	Iteratory	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	knitr (narzędzie do generowania dynamicznych raportów w R)	1.28
Etykietowania	0,3	później	1.0.0	krata	0.20-41
lawa	1.6.7	opóźnienie	0.2.2	cykl życia	0.2.0
lubridate	1.7.8	magrittr	1.5	Markdown	1.1
MASA	7.3-51.6	Macierz	1.2-18	zapamiętywanie	1.1.0
metody	3.6.3	mgcv	1.8-31	mim	0,9
Metryki modelu	1.2.2.2	modeler	0.1.6	munsell	0.5.0
nlme	3.1-147	sieć neuronowa (nnet)	7.3-14	numDeriv	2016.8-1.1
openssl	1.4.1	równoległy	3.6.3	filar	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	pochwała	1.0.0
prettyunits	1.1.1	Proc	1.16.2	Procesx	3.4.2
prodlim	2019.11.13	Postęp	1.2.2	Obietnice	1.1.0
Proto	1.0.0	PS	1.3.2	mruczenie	0.3.4
r2d3	0.2.3	R6	2.4.1	"randomForest"	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	czytnik	1.3.1	readxl (biblioteka do odczytu plików Excel)	1.3.1
przepisy	0.1.10	rewanż	1.0.1	rewanż2	2.1.1
Piloty	2.1.1	przykład powtarzalny	0.3.0	zmień kształt2	1.4.4
Rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown (narzędzie do tworzenia dokumentów w R)	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0,11	rversions (rversions)	2.0.1
rvest	0.3.5	waga	1.1.0	selektor	0.4-2
Informacje o sesji	1.1.1	kształt	1.4.4	błyszczący	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
przestrzenny	7.3-11	Splajnów	3.6.3	sqldf	0.4-11
KWADRAT	2020.2	Statystyki	3.6.3	statystyki4	3.6.3
łańcuchy	1.4.6	stringr	1.4.0	przetrwanie	3.1-12
sys	3.3	tcltk	3.6.3	NauczanieDemos	2.10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
tidyselect	1.0.0	tidyverse	1.3.0	czasData	3043.102
tinytex	0,22	narzędzia	3.6.3	użyj tego	1.6.0
utf8	1.1.4	narzędzia	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	wąs	0,4	Withr	2.2.0
xfun	0,13	xml2	1.3.1	xopen	1.0.0
Xtable	1.8-4	yaml	2.2.1

Zainstalowane biblioteki Java i Scala (wersja klastra Scala 2.12)

Identyfikator grupy	Identyfikator artefaktu	Wersja
antlr	antlr	2.7.7
com.amazonaws	Klient Amazon Kinesis	1.12.0
com.amazonaws	aws-java-sdk-automatyczne-skalowanie	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm (zestaw narzędzi Java dla usługi CloudHSM)	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy (biblioteka do zarządzania wdrażaniem kodu w AWS)	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config (konfiguracja aws-java-sdk)	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect (pakiet narzędzi programistycznych dla Java do współpracy z AWS Direct Connect)	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr (biblioteka SDK Java dla usługi Amazon EMR)	1.11.655
com.amazonaws	AWS Java SDK dla Glacier	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	AWS-Java-SDK-ImportExport	1.11.655
com.amazonaws	AWS SDK dla Javy - Kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-uczenie-maszynowe	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds (pakiet programistyczny Java dla AWS RDS)	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts (pakiet programistyczny Java dla AWS STS)	1.11.655
com.amazonaws	wsparcie dla aws-java-sdk	1.11.655
com.amazonaws	aws-java-sdk-biblioteka-biblioteka	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	odtwarzać strumieniowo	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-cieniowane	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	kolega z klasy	1.3.4
com.fasterxml.jackson.core	adnotacje jackson	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	Jackson-format-danych-CBOR	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.kofeina	kofeina	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	rdzeń	1.1.2
com.github.fommil.netlib	natywne_odniesienie-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system java	1.1
com.github.fommil.netlib	system natywny-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	"netlib-native_system-linux-x86_64-natives"	1.1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guawa	15,0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.WYDANIE
com.microsoft.azure	azure-data-lake-store-sdk (SDK do przechowywania danych Azure Data Lake)	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf (biblioteka do kompresji danych)	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	JSON	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	soczewki_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	konfig	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	parsery jednowołciowości	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.10
Zbiory Commons	Zbiory Commons	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
wspólne przesyłanie plików	wspólne przesyłanie plików	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2,4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	kompresor powietrza	0.10
io.dropwizard.metrics	metryki —rdzeń	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	wskaźniki-kontrole zdrowia	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metryki w formacie JSON	4.1.1
io.dropwizard.metrics	metryki-JVM	4.1.1
io.dropwizard.metrics	serwlety metrics-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.adnotacja	jakarta.annotation-api	1.3.5
\ jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	aktywacja	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.transaction	interfejs programistyczny transakcji	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	pirolit	4:30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	SDK do pobierania danych Snowflake	0.9.6
net.snowflake	snowflake-jdbc	3.12.0
net.snowflake	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0.1
org.acplt.remotetea	remotetea-oncrpc (niedostępne w lokalnym języku)	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	Szablon łańcucha	3.2.1
org.apache.ant	tat	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	program uruchamiający Ant	1.9.2
org.apache.arrow	format strzałki	0.15.1
org.apache.arrow	strzałka w pamięci	0.15.1
org.apache.arrow	wektor strzałki	0.15.1
org.apache.avro	avro	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	tekst wspólny	1.6
org.apache.curator	kurator-klient	2.7.1
org.apache.curator	struktura kuratora	2.7.1
org.apache.curator	przepisy kuratora	2.7.1
org.apache.derby	Derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	adnotacje hadoop	2.7.4
org.apache.hadoop	hadoop-auth	2.7.4
org.apache.hadoop	hadoop-klient	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	Hadoop-HDFS (Hadoop Distributed File System)	2.7.4
org.apache.hadoop	Klient aplikacji Hadoop MapReduce	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle (moduł mieszający klienta w Hadoop MapReduce)	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client (klient Hadoop YARN)	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common (Wspólne komponenty serwera Hadoop YARN)	2.7.4
org.apache.hive	hive-beeline (narzędzie do interakcji z bazą danych Hive)	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	Klient hive-llap	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	magazyn metadanych Hive	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	podkładki hive	2.3.7
org.apache.hive	hive-storage-api (interfejs do przechowywania danych hive)	2.7.1
org.apache.hive	hive-vector-code-gen	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common	2.3.7
org.apache.hive.shims	harmonogram osłon/imitacji ula	2.3.7
org.apache.htrace	htrace-core	3.1.0 inkubacja
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	bluszcz	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	podkładki orc-shim	1.5.10
org.apache.parquet	kolumna typu parquet	1.10.1.2-databricks4
org.apache.parquet	parquet-wspólny	1.10.1.2-databricks4
org.apache.parquet	kodowanie parquet	1.10.1.2-databricks4
org.apache.parquet	format parquet	2.4.0
org.apache.parquet	Parquet-Hadoop (framework do analizy danych)	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	szybkość pracy	1.5
org.apache.xbean	xbean-asm7-cieniowany	4.15
org.apache.yetus	adnotacje odbiorców	0.5.0
org.apache.zookeeper - system do zarządzania konfiguracją i synchronizacją dla aplikacji rozproszonych.	opiekun zoo	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapujący-ASL	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-kompilator	3.0.16
org.codehaus.janino	Janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-kontynuacja	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	Jetty-plus	9.4.18.v20190429
org.eclipse.jetty	serwer pośredniczący Jetty	9.4.18.v20190429
org.eclipse.jetty	moduł bezpieczeństwa Jetty	9.4.18.v20190429
org.eclipse.jetty	serwer aplikacji Jetty	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	jetty-util	9.4.18.v20190429
org.eclipse.jetty	Jetty-aplikacja internetowa	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	lokalizator hk2	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-lokalizator-zasobów	1.0.3
org.glassfish.hk2.external	aopalliance-zapakowane ponownie	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	serwlet kontenerowy Jersey	2.30
org.glassfish.jersey.containers	jersey-container-servlet-core	2.30
org.glassfish.jersey.core	jersey-client	2.30
org.glassfish.jersey.core	dzianina-zwykła	2.30
org.glassfish.jersey.core	serwer jersey	2.30
org.glassfish.jersey.inject	jersey-hk2	2.30
org.glassfish.jersey.media	- "jersey-media-jaxb" не wymaga tłumaczenia, gdyż jest to nazwa techniczna, ale dla polskich odbiorców warto dodać opis lub kontynuować bez zmian, jeżeli nazwa już jako taka przyjęła się w lokalnym użyciu.	2.30
org.hibernate.validator	moduł sprawdzania poprawności hibernacji	6.1.0 Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging (narzędzie do rejestrowania zdarzeń w JBoss)	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1,7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	Podkładki	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	interfejs testowy	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark.spark	Nieużywane	1.0.0
org.springframework	spring-core (podstawowy moduł Spring)	4.1.4.WYDANIE
org.springframework	test sprężynowy	4.1.4.WYDANIE
org.threeten	trzydostępne dodatkowe	1.5.0
org.tukaani	xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinista_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
oprogramowanie.amazon.ion	ion-java	1.0.2
Stax	stax-api	1.0.1
xmlenc (standard szyfrowania XML)	xmlenc (standard szyfrowania XML)	0.52

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-05-10

Udostępnij przez

Databricks Runtime 7.0 (EoS)

Nowe funkcje

Ulepszenia

Główne zmiany w bibliotece

Pakiety języka Python

Pakiety języka R

Biblioteki Java i Scala

Zmiany zachowania

Zmiany zachowania platformy Spark

Inne zmiany zachowania

Wycofywanie i usuwanie

Apache Spark

W tej sekcji:

Core, Spark SQL, Przesyłanie strumieniowe ze strukturą

Najważniejsze informacje

Ulepszenia wydajności

Ulepszenia rozszerzalności

Ulepszenia łącznika

Ulepszenia funkcji

Ulepszenia zgodności sql

Ulepszenia monitorowania i debugowania

Ulepszenia programu PySpark

Ulepszenia dokumentacji i pokrycia testów

Inne istotne zmiany

Zmiany zachowania w przypadku platformy Spark Core, Spark SQL i przesyłania strumieniowego ze strukturą

MLlib

Najważniejsze informacje

Zmiany zachowania dla biblioteki MLlib

SparkR

Zmiany zachowania w usłudze SparkR

Przestarzałe elementy

Znane problemy

Aktualizacje konserwacyjne

Środowisko systemu

Zainstalowane biblioteki języka Python

Zainstalowane biblioteki języka R

Zainstalowane biblioteki Java i Scala (wersja klastra Scala 2.12)

Sprzężenie zwrotne

Dodatkowe źródła