Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Hinweis
Die Unterstützung für diese Databricks-Runtime-Version wurde beendet. Den End-of-Support-Termin finden Sie im Verlauf des Supportendes. Alle unterstützten Versionen von Databricks Runtime finden Sie unter Versionshinweise, Versionen und Kompatibilität von Databricks Runtime.
Diese Version wurde von Databricks im Juni 2020 veröffentlicht.
Die folgenden Versionshinweise enthalten Informationen zu Databricks Runtime 7.0, unterstützt von Apache Spark 3.0.
Neue Funktionen
Databricks Runtime 7.0 enthält die folgenden neuen Features.
Scala: 2.12
Databricks Runtime 7.0 aktualisiert Scala von 2.11.12 auf 2.12.10. Die Änderungsliste zwischen Scala 2.12 und 2.11 finden Sie in den Versionshinweisen zu Scala 2.12.0.
Autoloader (Public Preview), veröffentlicht in Databricks Runtime 6.4, wurde in Databricks Runtime 7.0 verbessert.
Mit Autoloader können Sie neue Datendateien inkrementell verarbeiten, sobald sie in der ETL-Phase in einem Blobspeicher in der Cloud eintreffen. Dies ist eine Verbesserung gegenüber dem dateibasierten strukturierten Streaming, bei dem neue Dateien durch wiederholte Auflistung des Cloudverzeichnisses und Nachverfolgung der gesichteten Dateien identifiziert werden, was sehr ineffizient sein kann, wenn das Verzeichnis größer wird. Das automatische Laden ist auch praktischer und effektiver als dateibenachrichtigungsbasiertes strukturiertes Streaming, das erfordert, dass Sie Dateibenachrichtigungsdienste manuell in der Cloud konfigurieren und vorhandene Dateien nicht wieder ausfüllen können. Weitere Informationen finden Sie unter "Automatisches Laden".
In Databricks Runtime 7.0 müssen Sie kein benutzerdefiniertes Databricks Runtime-Image mehr anfordern, um auto loader verwenden zu können.
COPY INTO(Public Preview) ermöglicht es Ihnen, Daten mit idempotenten Wiederholungsversuchen in Delta Lake zu laden, wurde in Databricks Runtime 7.0 verbessert.Der in Databricks Runtime 6.4 als Public Preview veröffentlichte Befehl
COPY INTOSQL ermöglicht ihnen das Laden von Daten in Delta Lake mit idempotenten erneuten Versuchen. Um Daten in Delta Lake zu laden, müssen Sie derzeit Apache Spark-DataFrame-APIs verwenden. Wenn es bei Ladevorgängen zu Fehlern kommt, müssen Sie diese effektiv behandeln. Der neue BefehlCOPY INTObietet eine vertraute deklarative Schnittstelle zum Laden von Daten in SQL. Mit dem Befehl werden bereits geladene Dateien nachverfolgt, und Sie können ihn bei Fehlern problemlos erneut ausführen. Weitere Informationen finden Sie unterCOPY INTO.
Verbesserungen
Azure Synapse-Connector (früher SQL Data Warehouse) unterstützt die
COPY-Anweisung.Der Hauptvorteil von
COPYist, dass Benutzer mit niedrigeren Berechtigungen Daten in Azure Synapse schreiben können, ohne strengeCONTROL-Berechtigungen für Azure Synapse.Der
%matplotlib inlineMagic-Befehl ist nicht mehr erforderlich, um Matplolib-Objekte inline in Notebookzellen anzuzeigen. Sie werden standardmäßig immer inline angezeigt.Matplolib-Zahlen werden jetzt mit
transparent=Falsegerendert, damit vom Benutzer angegebene Hintergründe nicht verloren gehen. Dieses Verhalten kann durch die Einstellung der Spark-Konfigurationspark.databricks.workspace.matplotlib.transparent trueaußer Kraft gesetzt werden.Beim Ausführen von Produktionsjobs für strukturiertes Streaming auf Clustern im High Concurrency-Modus kann gelegentlich ein Neustart eines Jobs fehlschlagen, da der zuvor laufende Job nicht korrekt beendet wurde. Databricks Runtime 6.3 wurde die Möglichkeit eingeführt, die SQL-Konfiguration
spark.sql.streaming.stopActiveRunOnRestart truein Ihrem Cluster so zu konfigurieren, dass die vorherige Ausführung beendet wird. Diese Konfiguration wird standardmäßig in Databricks Runtime 7.0 festgelegt.
Wichtige Bibliotheksänderungen
Python-Pakete
Wichtige Python-Pakete, die ein Upgrade erhalten haben
- boto3 1.9.162 -> 1.12.0
- matplotlib 3.0.3 -> 3.1.3
- numpy 1.16.2 -> 1.18.1
- Pandas 0.24.2 -> 1.0.1
- Pip 19.0.3 -> 20.0.2
- Pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 -> 2.8.4
- scikit-learn 0.20.3 -> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seegeboren 0.9.0 -> 0.10.0
Entfernte Python-Pakete:
- boto (boto3 verwenden)
- pycurl
Hinweis
Die Python-Umgebung in Databricks Runtime 7.0 verwendet Python 3.7, das sich von dem auf dem Ubuntu-System installierten Python unterscheidet: /usr/bin/python und /usr/bin/python2 sind mit Python 2.7 verknüpft und /usr/bin/python3 ist mit Python 3.6 verknüpft.
R-Pakete
R-Pakete hinzugefügt:
- Besen
- Highr
- Isobande
- Knitr
- Abschlag
- Modellierer
- reproduzierbares Beispiel
- RMarkdown
- RVEST
- Auswahl
- aufräumen
- tinytex
- xfun
Entfernte R-Pakete:
- abind
- Bitops
- Auto
- Fahrzeugdaten
- doMC
- Gbm
- H2O
- kleiner
- lme4
- mapproj
- Karten
- Kartentools
- MatrixModels
- minqa
- mvtnorm
- nloptr
- openxlsx
- Pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils
- RcppEigen
- RCurl
- Rio
- sp
- SparseM
- statmod
- schwirren
Java- und Scala-Bibliotheken
- Version für die Verarbeitung von benutzerdefinierten Hive-Funktionen und Hive SerDes wurde auf 2.3 aktualisiert.
- Zuvor Azure Storage und Key Vault JAR-Dateien als Teil von Databricks Runtime gepackt, wodurch Sie daran gehindert wurden, verschiedene Versionen dieser Bibliotheken zu verwenden, die an Cluster angefügt sind. Klassen unter
com.microsoft.azure.storageundcom.microsoft.azure.keyvaultbefinden sich nicht mehr im Klassenpfad in Databricks Runtime. Wenn Sie von einem dieser Klassenpfade abhängig sind, müssen Sie nun Azure Storage SDK oder Azure Key Vault SDK an Ihre Cluster anfügen.
Verhaltensänderungen
In diesem Abschnitt werden Verhaltensänderungen von Databricks Runtime 6.6 in Databricks Runtime 7.0 aufgeführt. Sie sollten diese berücksichtigen, wenn Sie Workloads von niedrigeren Databricks Runtime Releases zu Databricks Runtime 7.0 und höher migrieren.
Spark-Verhaltensänderungen
Da Databricks Runtime 7.0 das erste Databricks Runtime ist, das auf Spark 3.0 basiert, sollten Sie viele Änderungen beachten, wenn Sie Workloads von Databricks Runtime 5.5 LTS oder 6.x migrieren, die auf Spark 2.4 basieren. Diese Änderungen sind im Abschnitt „Verhaltensänderungen“ jedes Funktionsbereichs im Abschnitt Apache Spark dieses Artikels aufgeführt:
- Verhaltensänderungen für Spark Core, Spark SQL und Strukturiertes Streaming
- Verhaltensänderungen für MLlib
- Verhaltensänderungen für SparkR
Andere Verhaltensänderungen
Das Upgrade auf Scala 2.12 umfasst die folgenden Änderungen:
Die Serialisierung von Paketzellen wird anders verarbeitet. Das folgende Beispiel veranschaulicht die Verhaltensänderung und deren Handhabung.
Die Ausführung von
foo.bar.MyObjectInPackageCell.run(), wie in der folgenden Paketzelle definiert, löst den Fehlerjava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$aus.package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }Um diesen Fehler zu umgehen, können Sie
MyObjectInPackageCellin eine serialisierbare Klasse einschließen.In bestimmten Fällen, in denen
DataStreamWriter.foreachBatchverwendet wird, ist eine Aktualisierung des Quellcodes erforderlich. Diese Änderung ist auf die Tatsache zurückzuführen, dass Scala 2.12 eine automatische Konvertierung von Lambda-Ausdrücken in SAM-Typen durchführt, was zu Mehrdeutigkeiten führen kann.Der folgende Scala-Code kann z. B. nicht kompiliert werden:
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }Um den Kompilierungsfehler zu beheben, ändern Sie
foreachBatch { (df, id) => myFunc(df, id) }inforeachBatch(myFunc _), oder verwenden Sie explizit die Java-API:foreachBatch(new VoidFunction2 ...).
- Da die Apache Hive-Version für die Behandlung benutzerdefinierter Hive-Funktionen und Hive SerDes auf 2.3 aktualisiert wird, sind zwei Änderungen erforderlich:
- Die Schnittstelle von
SerDeHive wird durch eine abstrakte KlasseAbstractSerDeersetzt. Für jede benutzerdefinierte Hive-SerDe-Implementierung ist eine Migration zuAbstractSerDeerforderlich. - Die Festlegung von
spark.sql.hive.metastore.jarsaufbuiltinbedeutet, dass der Hive 2.3-Metastore-Client für den Zugriff auf Metastores für Databricks Runtime 7.0 verwendet wird. Wenn Sie auf Hive 1.2-basierte externe Metastores zugreifen müssen, legen Siespark.sql.hive.metastore.jarsauf den Ordner fest, der Hive 1.2-JARs enthält.
- Die Schnittstelle von
Veraltete und entfernte Funktionen
- DATASKIPPING INDEX wurde in Databricks Runtime 4.3 als veraltet eingestuft und in Databricks Runtime 7.0 entfernt. Es wird empfohlen, stattdessen Delta-Tabellen zu verwenden, die verbesserte Funktionen zum Überspringen von Daten bieten.
- In Databricks Runtime 7.0 verwendet die zugrunde liegende Version Apache Spark Scala 2.12. Da mit Scala 2.11 kompilierte Bibliotheken Databricks Runtime 7.0-Cluster auf unerwartete Weise deaktivieren können, installieren Cluster, in denen Databricks Runtime 7.0 und höher ausgeführt wird, keine Bibliotheken, die zur Installation in allen Clustern konfiguriert wurden. Die Registerkarte „Bibliotheken“ für eine Clusters zeigt den Status
Skippedund eine Meldung an, in der die Änderungen bezüglich der Handhabung von Bibliotheken erläutert werden. Wenn Sie jedoch über einen Cluster verfügen, der mit einer Vorgängerversion von Databricks Runtime erstellt wurde, bevor Version 3.20 der Azure Databricks-Plattform für Ihren Arbeitsbereich veröffentlicht wurde, und Sie diesen Cluster jetzt bearbeiten, um Databricks Runtime 7.0 zu verwenden, werden alle Bibliotheken, die für die Installation in allen Clustern konfiguriert wurden, auf diesem Cluster installiert. In diesem Fall können inkompatible JARs in den installierten Bibliotheken dazu führen, dass der Cluster deaktiviert wird. Die Problemumgehung besteht darin, entweder den Cluster zu klonen oder einen neuen Cluster zu erstellen.
Apache Spark
Databricks Runtime 7.0 enthält Apache Spark 3.0.
Inhalt dieses Abschnitts:
Core, Spark SQL, Strukturiertes Streaming
Höhepunkte
- (Projekt Wasserstoff) Accelerator-aware Scheduler (SPARK-24615)
- Ausführung von adaptiven Abfragen (SPARK-31412)
- Dynamische Partitionsbereinigung (SPARK-11150)
- Neu gestaltete Pandas-UDF-API mit Typhinweisen (SPARK-28264)
- Benutzeroberfläche für strukturierten Stream (SPARK-29543)
- Katalog-Plug-In-API (SPARK-31121)
- Bessere ANSI-SQL-Kompatibilität
Leistungsverbesserungen
- Ausführung von adaptiven Abfragen (SPARK-31412)
- Basic-Framework (SPARK-23128)
- Anpassung der Partitionsnummer nach dem Mischen (SPARK-28177)
- Dynamische Wiederverwendung von Unterabfragen (SPARK-28753)
- Lokaler Shuffle-Reader (SPARK-28560)
- Datenschiefe: Optimierung der Verknüpfung (SPARK-29544)
- Optimieren des Lesens zusammenhängender Shuffle-Blöcke (SPARK-9853)
- Dynamische Partitionsbereinigung (SPARK-11150)
- Andere Optimiererregeln
- Regel ReuseSubquery (SPARK-27279)
- Regel PushDownLeftSemiAntiJoin (SPARK-19712)
- Regel PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Regel ReplaceNullWithFalse (SPARK-25860)
- Regel Beseitigen von Sortierungen ohne Beschränkung in der Unterabfrage von Join/Aggregation (SPARK-29343)
- Regel PruneHiveTablePartitions (SPARK-15616)
- Löschen unnötiger geschachtelter Felder aus Generate (SPARK-27707)
- Regel RewriteNonCorrelatedExists (SPARK-29800)
- Minimieren der Kosten für die Tabellencachesynchronisierung (SPARK-26917), (SPARK-26617), (SPARK-26548)
- Aufteilen von Aggregationscode in kleine Funktionen (SPARK-21870)
- Hinzufügen der Batchverarbeitung in INSERT und im ALTER TABLE-ADD-Befehl PARTITION (SPARK-29938)
Erweiterungen für die Erweiterbarkeit
- Katalog-Plug-In-API (SPARK-31121)
- Refactoring der V2-API der Datenquelle (SPARK-25390)
- Hive 3.0- und 3.1-Metastoreunterstützung (SPARK-27970), (SPARK-24360)
- Erweitern der Spark-Plug-In-Schnittstelle auf den Treiber (SPARK-29396)
- Erweitern des Spark-Metriksystems mit benutzerdefinierten Metriken mithilfe von Executor-Plug-Ins (SPARK-28091)
- Entwickler-APIs für die erweiterte Unterstützung der spaltenbasierten Verarbeitung (SPARK-27396)
- Integrierte Quellmigration mit DSV2: Parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- FunctionInjection in SparkExtensions zulassen (SPARK-25560)
- Ermöglicht die Registrierung des Aggregators als UDAF (SPARK-27296)
Connectorerweiterungen
- Spaltenbereinigung durch nicht deterministische Ausdrücke (SPARK-29768)
- Unterstützung von
spark.sql.statistics.fallBackToHdfsin Datenquellentabellen (SPARK-25474) - Partitionsbereinigung mit Unterabfragefiltern für Dateiquelle zulassen (SPARK-26893)
- Vermeiden der Weitergabe von Unterabfragen in Datenquellenfiltern (SPARK-25482)
- Rekursives Laden von Daten aus Dateiquellen (SPARK-27990)
- Parquet, Orc
- Pushdown disjunktiver Prädikate (SPARK-27699)
- Verallgemeinern der Bereinigung geschachtelter Spalten (SPARK-25603) und standardmäßig aktiviert (SPARK-29805)
- Gilt nur für Parquet.
- Parquet-Prädikat-Pushdown für geschachtelte Felder (SPARK-17636)
- Nur ORC
- Unterstützung des Mergeschemas für ORC (SPARK-11412)
- Geschachtelte Schemabereinigung für ORC (SPARK-27034)
- Reduzierung der Komplexität der Prädikatkonvertierung für ORC (SPARK-27105, SPARK-28108)
- Upgrade von Apache ORC auf 1.5.9 (SPARK-30695)
- CSV
- Unterstützung für Filterpushdown in Avro-Datenquelle (SPARK-30323)
- hive-serde
- Kein Schemarückschluss beim Lesen der Hive-Serde-Tabelle mit nativer Datenquelle (SPARK-27119)
- Hive CTAS-Befehle sollten eine Datenquelle verwenden, wenn sie konvertierbar ist (SPARK-25271).
- Verwenden einer nativen Datenquelle zum Optimieren des Einfügens einer partitionierten Hive-Tabelle (SPARK-28573)
- Apache Kafka
- Unterstützung für Kafka-Header hinzugefügt (SPARK-23539)
- Hinzufügen von Unterstützung für Kafka-Delegierungstoken (SPARK-25501)
- Neue Option für Kafka-Quelle einführen: Offset durch Zeitstempel (Start/Ende) (SPARK-26848)
- Unterstützung der
minPartitions-Option in der Kafka-Batchquelle und der Streamingquelle v1 (SPARK-30656) - Upgrade von Kafka auf 2.4.1 (SPARK-31126)
- Neue integrierte Datenquellen
- Neue integrierte Binärdateidatenquellen (SPARK-25348)
- Neue No-Op-Batchdatenquellen (SPARK-26550) und No-Op-Streamingsenke (SPARK-26649)
Featureverbesserungen
- [Wasserstoff] Accelerator-aware Scheduler (SPARK-24615)
- Einführung in einen vollständigen Satz von Joinhinweisen (SPARK-27225)
- Hinzufügen eines
PARTITION BY-Hinweises SQL Abfragen (SPARK-28746) - Metadatenbehandlung in Thrift Server (SPARK-28426)
- Hinzufügen von Funktionen höherer Ordnung zur Scala-API (SPARK-27297)
- Unterstützung von simple all gather im Barrierenaufgabe-Kontext (SPARK-30667)
- Hive-UDFs unterstützen den UDT-Typ (SPARK-28158).
- Unterstützt DELETE/UPDATE/MERGE Operatoren in Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
- Implementieren von DataFrame.tail (SPARK-30185)
- Neue integrierte Funktionen
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- irgendein, jeder, einige (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- Extrakt (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- Version (SPARK-29554)
- xxhash64 (SPARK-27099)
- Verbesserungen an vorhandenen integrierten Funktionen
- Integrierte Verbesserung von Datum/Uhrzeit-Funktionen/Vorgängen (SPARK-31415)
- Unterstützungsmodus
FAILFASTfürfrom_json(SPARK-25243) -
array_sortfügt einen neuen Vergleichsparameter hinzu (SPARK-29020) - Filter kann jetzt den Index als Eingabe sowie das Element verwenden (SPARK-28962)
Verbesserungen bei der SQL-Kompatibilität
- Wechseln zum protischen gregorianischen Kalender (SPARK-26651)
- Erstellen der eigenen Datetime-Musterdefinition von Spark (SPARK-31408)
- ANSI-Richtlinie zur Speicherzuweisung beim Einfügen von Tabellen einführen (SPARK-28495)
- Standardmäßiges Befolgen der ANSI-Speicherzuweisungsregel beim Einfügen von Tabellen (SPARK-28885)
- Hinzufügen einer SQLConf-Instanz
spark.sql.ansi.enabled(SPARK-28989) - Unterstützung der ANSI SQL Filterklausel für Aggregatausdruck (SPARK-27986)
- Unterstützung der ANSI SQL
OVERLAY-Funktion (SPARK-28077) - Unterstützung geschachtelter ANSI-Kommentare in Klammern (SPARK-28880)
- Ausnahme bei Überlauf für ganze Zahlen auslösen (SPARK-26218)
- Überlaufüberprüfung für arithmetische Intervalloperationen (SPARK-30341)
- Ausnahme auslösen, wenn eine ungültige Zeichenfolge in einen numerischen Typ konvertiert wird (SPARK-30292)
- Das Überlaufverhalten beim Multiplizieren und Dividieren soll konsistent mit anderen Vorgängen gemacht werden (SPARK-30919).
- Hinzufügen von ANSI-Typaliasen für char und decimal (SPARK-29941)
- SQL Parser definiert ANSI-konforme reservierte Schlüsselwörter (SPARK-26215).
- Reservierte Schlüsselwörter als Bezeichner verbieten, wenn der ANSI-Modus aktiviert ist (SPARK-26976)
- Unterstützung der ANSI SQL
LIKE ... ESCAPE-Syntax (SPARK-28083) - Unterstützung der ANSI SQL Boolean-Predicate Syntax (SPARK-27924)
- Bessere Unterstützung für die Verarbeitung korrelierter Unterabfragen (SPARK-18455)
Verbesserungen der Überwachung und Debugbarkeit
- Benutzeroberfläche für neuen strukturierten Stream (SPARK-29543)
- SHS: Ermöglicht das Rollback von Ereignisprotokollen für ausgeführte Streaming-Apps (SPARK-28594).
- Hinzufügen einer API, mit der ein Benutzer beliebige Metriken für Batch- und Streamingabfragen definieren und beobachten kann (SPARK-29345)
- Instrumentierung für die Nachverfolgung der Planungszeit pro Abfrage (SPARK-26129)
- Legen Sie die grundlegenden Shufflemetriken im SQL Exchange-Operator ab (SPARK-26139).
- SQL-Anweisung wird auf SQL Registerkarte anstelle von Callsite (SPARK-27045) angezeigt.
- Hinzufügen einer QuickInfo zu SparkUI (SPARK-29449)
- Verbessern der gleichzeitigen Leistung des Verlaufsservers (SPARK-29043)
-
EXPLAIN FORMATTEDBefehl (SPARK-27395) - Unterstützung von gekürzten Plänen und generiertem Code in einer Datei (SPARK-26023)
- Verbessern des Beschreibungsframework zum Beschreiben der Ausgabe einer Abfrage (SPARK-26982)
- Befehl
SHOW VIEWShinzufügen (SPARK-31113) - Verbessern der Fehlermeldungen des SQL Parsers (SPARK-27901)
- Native Unterstützung der Prometheus-Überwachung (SPARK-29429)
PySpark-Erweiterungen
- Pandas-UDFs mit neuer Gestaltung und Typhinweisen (SPARK-28264)
- Pandas-UDF-Pipeline (SPARK-26412)
- Unterstützung von StructType als Argumente und Rückgabetypen für die benutzerdefinierte Skalar-Pandas-Funktion (SPARK-27240 )
- Unterstützung von Dataframe-Cogroup über die benutzerdefinierte Pandas-Funktion (SPARK-27463)
-
mapInPandashinzufügen, um einen Iterator von DataFrames zu ermöglichen (SPARK-28198) - Bestimmte SQL-Funktionen sollten auch Spaltennamen übernehmen (SPARK-26979).
- PySpark-SQL-Ausnahmen pythonischer machen (SPARK-31849)
Verbesserungen der Dokumentation und Testabdeckung
- Erstellen einer SQL-Referenz (SPARK-28588)
- Erstellen eines Benutzerhandbuchs für WebUI (SPARK-28372)
- Erstellen einer Seite für SQL-Konfigurationsdokumentation (SPARK-30510)
- Hinzufügen von Versionsinformationen für die Spark-Konfiguration (SPARK-30839)
- Portregressionstests von PostgreSQL (SPARK-27763)
- Thrift-Server-Testabdeckung (SPARK-28608)
- Testabdeckung von benutzerdefinierten Funktionen (UDF) (Python UDF, Pandas UDF, Scala UDF) (SPARK-27921)
Weitere wichtige Änderungen
- Integriertes Hive-Ausführungsupgrade von 1.2.1 auf 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Standardmäßig Apache Hive 2.3-Abhängigkeit verwenden (SPARK-30034)
- GA Scala 2.12 und Entfernen von 2.11 (SPARK-26132)
- Verbessern der Logik für Timeout-Executors bei der dynamischen Zuordnung (SPARK-20286)
- Datenträger-persistente RDD-Blöcke, die vom Shuffle-Dienst bereitgestellt und für die dynamische Zuordnung ignoriert werden (SPARK-27677)
- Abrufen neuer Executors, um einen Stillstand aufgrund von Sperrlisten zu vermeiden (SPARK-22148)
- Freigabe des Speicherpool-Allocators von Netty zulassen (SPARK-24920)
- Beheben eines Deadlocks zwischen
TaskMemoryManagerundUnsafeExternalSorter$SpillableIterator(SPARK-27338) - Einführung von
AdmissionControlAPIs für StructuredStreaming (SPARK-30669) - Verbesserung der Leistung der Spark-Verlaufshauptseite (SPARK-25973)
- Beschleunigung und Verschlankung der Metrik-Aggregation in SQL-Listener (SPARK-29562)
- Vermeiden Sie das Netzwerk, wenn Shuffleblöcke vom gleichen Host abgerufen werden (SPARK-27651).
- Verbessern der Dateiliste für
DistributedFileSystem(SPARK-27801)
Verhaltensänderungen für Spark Core, Spark SQL und Strukturiertes Streaming
In den folgenden Migrationsleitfäden werden Verhaltensänderungen zwischen Apache Spark 2.4 und 3.0 aufgeführt. Diese Änderungen erfordern möglicherweise Updates für Aufträge, die Sie in niedrigeren Databricks Runtime Versionen ausgeführt haben:
- Migrationshandbuch: Spark Core
- Migrationsleitfaden: SQL, Datasets und DataFrame
- Migrationshandbuch: Strukturiertes Streaming
- Migrationshandbuch: PySpark (Python unter Spark)
Die folgenden Verhaltensänderungen werden in diesen Migrationsleitfäden nicht behandelt:
- In Spark 3.0 wurde die veraltete Klasse
org.apache.spark.sql.streaming.ProcessingTimeentfernt. Verwenden Sie stattdessenorg.apache.spark.sql.streaming.Trigger.ProcessingTime. Ebenso wurdeorg.apache.spark.sql.execution.streaming.continuous.ContinuousTriggerzugunsten vonTrigger.Continuousentfernt undorg.apache.spark.sql.execution.streaming.OneTimeTriggerwurde zugunsten vonTrigger.Onceausgeblendet. (SPARK-28199) - In Databricks Runtime 7.0 untersagt Spark beim Lesen einer Hive-SerDe-Tabelle standardmäßig das Lesen von Dateien unterhalb eines Unterverzeichnisses, das keine Tabellenpartition ist. Legen Sie zur Aktivierung die Konfiguration
spark.databricks.io.hive.scanNonpartitionedDirectory.enabledauftruefest. Dies wirkt sich nicht auf native Spark-Tabellenleser und -Dateileser aus.
MLlib
Höhepunkte
- Unterstützung mehrerer Spalten wurde zu Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) und PySpark QuantileDiscretizer (SPARK-22796) hinzugefügt.
- Unterstützung der strukturbasierten Featuretransformation (SPARK-13677)
- Zwei neue Evaluatoren MultilabelClassificationEvaluator (SPARK-16692) und RankingEvaluator (SPARK-28045) wurden hinzugefügt.
- Unterstützung für Stichprobengewichtungen wurde in DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-9612) hinzugefügt.24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) und GaussianMixture (SPARK-30102) hinzugefügt.
- R-API für PowerIterationClustering wurde hinzugefügt (SPARK-19827)
- Spark ML Listener für die Nachverfolgung ML Pipelinestatus hinzugefügt (SPARK-23674)
- Anpassung an Validierungssatz wurde zu Gradient Boosted Trees in Python hinzugefügt (SPARK-24333)
- RobustScaler-Transformator wurde hinzugefügt (SPARK-28399)
- Klassifizierung und Regressor für Factorization Machines wurden hinzugefügt (SPARK-29224)
- Gaussian Naive Bayes (SPARK-16872) und Complement Naive Bayes (SPARK-29942) wurden hinzugefügt.
- ML Funktionsparität zwischen Scala und Python (SPARK-28958)
- predictRaw wird in allen Klassifizierungsmodellen öffentlich gemacht. predictProbability wird in allen Klassifizierungsmodellen mit Ausnahme von LinearSVCModel (SPARK-30358) veröffentlicht.
Verhaltensänderungen für MLlib
In den folgenden Migrationsleitfäden werden Verhaltensänderungen zwischen Apache Spark 2.4 und 3.0 aufgeführt. Diese Änderungen erfordern möglicherweise Updates für Aufträge, die Sie in niedrigeren Databricks Runtime Versionen ausgeführt haben:
Die folgenden Verhaltensänderungen werden in diesem Migrationsleitfaden nicht behandelt:
- In Spark 3.0 gibt eine logistische Regression mit mehreren Klassen in Pyspark jetzt (ordnungsgemäß)
LogisticRegressionSummaryund nicht die UnterklasseBinaryLogisticRegressionSummaryzurück. Die zusätzlichen Methoden, die überBinaryLogisticRegressionSummaryverfügbar gemacht werden, würden in diesem Fall ohnehin nicht funktionieren. (SPARK-31681) - In Spark 3.0 stellen
pyspark.ml.param.shared.Has*-Mixins keineset*(self, value)-Setter-Methoden mehr zur Verfügung, sondern verwenden stattdessen den jeweiligenself.set(self.*, value). Weitere Informationen finden Sie unter SPARK-29093. (SPARK-29093)
SparkR
- Arrow-Optimierung in der SparkR-Interoperabilität (SPARK-26759)
- Leistungsverbesserung über vektorisierte R gapply(), dapply(), createDataFrame, collect()
- „Eager Execution“ für R-Shell, IDE (SPARK-24572)
- R-API für Power Iteration Clustering (SPARK-19827)
Verhaltensänderungen für SparkR
In den folgenden Migrationsleitfäden werden Verhaltensänderungen zwischen Apache Spark 2.4 und 3.0 aufgeführt. Diese Änderungen erfordern möglicherweise Updates für Aufträge, die Sie in niedrigeren Databricks Runtime Versionen ausgeführt haben:
Veraltete Funktionen
- Unterstützung für Python 2 als veraltet kennzeichnen (SPARK-27884)
- Unterstützung für R < 3.4 als veraltet kennzeichnen (SPARK-26014)
Bekannte Probleme
- Der Analysetag des Jahres mithilfe des Musterbuchstabens "D" gibt das falsche Ergebnis zurück, wenn das Feld "Jahr" fehlt. Dies kann in SQL-Funktionen wie
to_timestampauftreten, die datetime-Zeichenfolgen mithilfe einer Musterzeichenfolge in datetime-Werte analysieren. (SPARK-31939) - Join-/Fenster-/Aggregatschlüssel innerhalb von Unterabfragen können zu falschen Ergebnissen führen, wenn die Schlüssel die Werte -0.0 und 0.0 aufweisen. (SPARK-31958)
- Eine Fensterabfrage kann mit einem mehrdeutigen Selbstverknüpfungsfehler unerwartet fehlschlagen. (SPARK-31956)
- Streamingabfragen mit
dropDuplicates-Operator können möglicherweise nicht mit dem von Spark 2.x geschriebenen Prüfpunkt neu gestartet werden. (SPARK-31990)
Wartungsupdates
Weitere Informationen finden Sie unter Databricks Runtime 7.0-Wartungsupdates.
Systemumgebung
- Betriebssystem: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Skala: 2.12.10
- Python: 3.7.5
- R: R-Version 3.6.3 (2020-02-29)
- Delta Lake 0.7.0
Installierte Python-Bibliotheken
| Bibliothek | Version | Bibliothek | Version | Bibliothek | Version |
|---|---|---|---|---|---|
| asn1crypto | 1.3.0 | Backcall | 0.1.0 | Boto3 | 1.12.0 |
| Botocore | 1.15.0 | Zertifizieren | 2020.4.5 | CFFI | 1.14.0 |
| Chardet | 3.0.4 | Kryptographie | 2.8 | Fahrradfahrer | 0.10.0 |
| Cython | 0.29.15 | Dekorateur | 4.4.1 | docutils | 0.15.2 |
| Einstiegspunkte | 0,3 | idna | 2.8 | ipykernel | 5.1.4 |
| ipython | 7.12.0 | ipython-genutils | 0.2.0 | Jedi | 0.14.1 |
| jmespath | 0.9.4 | joblib | 0.14.1 | Jupyter-Client | 5.3.4 |
| jupyter-core | 4.6.1 | kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
| numpy | 1.18.1 | Pandas | 1.0.1 | Parso | 0.5.2 |
| Sündenbock | 0.5.1 | pexpect | 4.8.0 | Pickleshare | 0.7.5 |
| Kern | 20.0.2 | Prompt-Toolkit | 3.0.3 | psycopg2 | 2.8.4 |
| ptyprocess | 0.6.0 | Pyarrow | 0.15.1 | Pycparser | 2.19 |
| Pygments | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
| Pyparsing | 2.4.6 | PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
| Python-dateutil | 2.8.1 | Pytz | 2019.3 | pyzmq | 18.1.1 |
| Anforderungen | 2.22.0 | s3transfer | 0.3.3 | scikit-lernen | 0.22.1 |
| SciPy | 1.4.1 | Seegeboren | 0.10.0 | setuptools | 45.2.0 |
| sechs | 1.14.0 | ssh-import-id | 5.7 | StatistikModelle | 0.11.0 |
| Tornado | 6.0.3 | Traitlets | 4.3.3 | unbeaufsichtigte Aktualisierungen | 0,1 |
| urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth | 0.1.8 |
| Rad | 0.34.2 |
Installierte R-Bibliotheken
R-Bibliotheken werden aus (Microsoft CRAN-Momentaufnahme am 22.04.2020) installiert.
| Bibliothek | Version | Bibliothek | Version | Bibliothek | Version |
|---|---|---|---|---|---|
| Askpass | 1.1 | prüfen, dass | 0.2.1 | Backports | 1.1.6 |
| Basis | 3.6.3 | base64enc | 0.1-3 | Bahrain | 1.72.0-3 |
| Bit | 1.1-15.2 | Bit64 | 0.9-7 | Blob | 1.2.1 |
| Boot | 1.3-25 | brauen | 1.0-6 | Besen | 0.5.6 |
| Callr | 3.4.3 | Caret | 6.0-86 | CellRanger | 1.1.0 |
| Chron | 2.3-55 | Klasse | 7.3-17 | cli | 2.0.2 |
| Schermaschine | 0.7.0 | Gruppe | 2.1.0 | Codetools | 0,2 bis 16 |
| Farbraum | 1.4-1 | Commonmark | 1.7 | Kompilierer | 3.6.3 |
| Konfiguration | 0,3 | Covr | 3.5.0 | Buntstift | 1.3.4 |
| Übersprechen | 1.1.0.1 | Locke | 4.3 | data.table | 1.12.8 |
| Datensätze | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
| Beschreibung | 1.2.0 | devtools | 2.3.0 | verdauen | 0.6.25 |
| dplyr | 0.8.5 | DT | 0,13 | Ellipse | 0.3.0 |
| Evaluieren | 0.14 | Fans | 0.4.1 | Farben | 2.0.3 |
| fastmap | 1.0.1 | Sträflinge | 0.5.0 | Foreach | 1.5.0 |
| Fremd | 0.8-76 | schmieden | 0.2.0 | Fs | 1.4.1 |
| Generika | 0.0.2 | ggplot2 | 3.3.0 | Gh | 1.1.0 |
| git2r | 0.26.1 | glmnet | 3.0-2 | Globale Werte | 0.12.5 |
| Klebstoff | 1.4.0 | Gower | 0.2.1 | Grafiken | 3.6.3 |
| grGeräte | 3.6.3 | Raster | 3.6.3 | gridExtra | 2.3 |
| gsubfn | 0,7 | g-Tabelle | 0.3.0 | Hafen | 2.2.0 |
| Highr | 0,8 | HMS | 0.5.3 | HTML-Werkzeuge | 0.4.0 |
| htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
| Hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
| IPRED | 0.9-9 | Isobande | 0.2.1 | Iteratoren | 1.0.12 |
| jsonlite | 1.6.1 | KernSmooth | 2.23-17 | Knitr | 1.28 |
| Etikettierung | 0,3 | später | 1.0.0 | Gitter | 0.20-41 |
| Lava | 1.6.7 | Lazyeval | 0.2.2 | Lebenszyklus | 0.2.0 |
| Schmiermittel | 1.7.8 | magrittr | 1.5 | Abschlag | 1.1 |
| MASSE | 7.3-51.6 | Matrix | 1.2-18 | Zwischenspeichern | 1.1.0 |
| Methodik | 3.6.3 | mgcv | 1.8-31 | Mime-Kunst | 0.9 |
| ModelMetrics | 1.2.2.2 | Modellierer | 0.1.6 | munsell | 0.5.0 |
| nlme | 3.1-147 | NNET | 7.3-14 | numDeriv | 2016.8 bis 1.1 |
| OpenSSL | 1.4.1 | parallel | 3.6.3 | Säule | 1.4.3 |
| pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
| PLOGR | 0.2.0 | plyr | 1.8.6 | loben | 1.0.0 |
| prettyunits | 1.1.1 | Proc | 1.16.2 | Prozessx | 3.4.2 |
| prodlim | 2019.11.13 | Fortschritt | 1.2.2 | Versprechungen | 1.1.0 |
| Prototyp | 1.0.0 | P.S. | 1.3.2 | schnurren | 0.3.4 |
| r2d3 | 0.2.3 | R6 | 2.4.1 | randomForest (Zufälliger Wald) | 4.6-14 |
| Rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrauer | 1.1-2 |
| Rcpp | 1.0.4.6 | READR | 1.3.1 | readxl (Softwarepaket zum Lesen von Excel-Dateien) | 1.3.1 |
| Rezepte | 0.1.10 | Rückspiel | 1.0.1 | Rückspiel2 | 2.1.1 |
| fernbedienungen | 2.1.1 | reproduzierbares Beispiel | 0.3.0 | Umform2 | 1.4.4 |
| Rex | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
| RMarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
| rpart | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
| RSQLite | 2.2.0 | rstudioapi | 0,11 | rversions | 2.0.1 |
| RVEST | 0.3.5 | Waage | 1.1.0 | Auswahl | 0.4-2 |
| Sitzungsinformationen | 1.1.1 | Gestalt | 1.4.4 | glänzend | 1.4.0.2 |
| sourcetools | 0.1.7 | Sparklyr | 1.2.0 | SparkR | 3.0.0 |
| räumlich | 7.3-11 | Splines | 3.6.3 | sqldf | 0.4-11 |
| SQUAREM | 2020.2 | Statistiken | 3.6.3 | Statistiken4 | 3.6.3 |
| Stringi | 1.4.6 | stringr | 1.4.0 | Überleben | 3.1-12 |
| sys | 3.3 | TCLTK | 3.6.3 | Lehrdemos | 2,10 |
| testthat | 2.3.2 | Tibble | 3.0.1 | Räumter | 1.0.2 |
| aufräumen | 1.0.0 | aufräumen | 1.3.0 | timeDatum | 3043.102 |
| tinytex | 0,22 | Werkzeuge | 3.6.3 | Nutze dies | 1.6.0 |
| utf8 | 1.1.4 | Dienstprogramme und Funktionen | 3.6.3 | VCTRS | 0.2.4 |
| viridisLite | 0.3.0 | Backenbart | 0,4 | Withr | 2.2.0 |
| xfun | 0,13 | xml2 | 1.3.1 | xopen | 1.0.0 |
| xtable | 1.8-4 | YAML-Dateiformat | 2.2.1 |
Installierte Java- und Scala-Bibliotheken (Scala 2.12-Clusterversion)
| Gruppen-ID | Artefakt-ID | Version |
|---|---|---|
| antlr | antlr | 2.7.7 |
| com.amazonaws | Amazon-Kinesis-Client | 1.12.0 |
| com.amazonaws | aws-java-sdk-Autoskalierung | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudsearch (Cloud-Suchdienst) | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
| com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
| com.amazonaws | aws-java-sdk-cognitoidentity | 1.11.655 |
| com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
| com.amazonaws | AWS-Java-SDK-Config | 1.11.655 |
| com.amazonaws | aws-java-sdk-core | 1.11.655 |
| com.amazonaws | aws-java-sdk-datapipeline | 1.11.655 |
| com.amazonaws | aws-java-sdk-directconnect | 1.11.655 |
| com.amazonaws | aws-java-sdk-directory | 1.11.655 |
| com.amazonaws | aws-java-sdk-db | 1.11.655 |
| com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
| com.amazonaws | aws-java-sdk-ecs | 1.11.655 |
| com.amazonaws | aws-java-sdk-efs | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticbeanstalk (Java SDK für Elastic Beanstalk von AWS) | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticloadbalancing (Software Development Kit für Elastic Load Balancing in AWS mit Java) | 1.11.655 |
| com.amazonaws | aws-java-sdk-elastictranscoder (AWS Java SDK für Elastic Transcoder) | 1.11.655 |
| com.amazonaws | aws-java-sdk-emr | 1.11.655 |
| com.amazonaws | aws-java-sdk-glacier | 1.11.655 |
| com.amazonaws | aws-java-sdk-iam | 1.11.655 |
| com.amazonaws | aws-java-sdk-importexport | 1.11.655 |
| com.amazonaws | aws-java-sdk-kinesis | 1.11.655 |
| com.amazonaws | aws-java-sdk-kms | 1.11.655 |
| com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
| com.amazonaws | aws-java-sdk-Protokolle | 1.11.655 |
| com.amazonaws | aws-java-sdk-machinelearning (Maschinelles Lernen) | 1.11.655 |
| com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
| com.amazonaws | aws-java-sdk-rds | 1.11.655 |
| com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
| com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
| com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
| com.amazonaws | aws-java-sdk-ses | 1.11.655 |
| com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
| com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
| com.amazonaws | aws-java-sdk-sns | 1.11.655 |
| com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
| com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
| com.amazonaws | aws-java-sdk-storagegateway | 1.11.655 |
| com.amazonaws | aws-java-sdk-sts | 1.11.655 |
| com.amazonaws | aws-java-sdk-Support (Unterstützung für AWS Java SDK) | 1.11.655 |
| com.amazonaws | AWS-Java-SDK-SWF-Bibliotheken | 1.11.22 |
| com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
| com.amazonaws | jmespath-java | 1.11.655 |
| com.chuusai | shapeless_2.12 | 2.3.3 |
| com.clearspring.analytics | Datenstrom | 2.9.6 |
| com.databricks | Rserve | 1.8-3 |
| com.databricks | Jets3t | 0.7.1-0 |
| com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
| com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
| com.esotericsoftware | Kryo-schattiert | 4.0.2 |
| com.esotericsoftware | Minlog | 1.3.0 |
| com.fasterxml | Klassenkamerad | 1.3.4 |
| com.fasterxml.jackson.core | Jackson-Anmerkungen | 2.10.0 |
| com.fasterxml.jackson.core | jackson-core | 2.10.0 |
| com.fasterxml.jackson.core | Jackson-Datenbindung | 2.10.0 |
| com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
| com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
| com.fasterxml.jackson.module | jackson-module-paranamer | 2.10.0 |
| com.fasterxml.jackson.module | jackson-module-scala_2.12 | 2.10.0 |
| com.github.ben-manes.coffein | Koffein | 2.3.4 |
| com.github.fommil | Jniloader | 1.1 |
| com.github.fommil.netlib | Kern | 1.1.2 |
| com.github.fommil.netlib | native_ref-java | 1.1 |
| com.github.fommil.netlib | native_ref-java-natives | 1.1 |
| com.github.fommil.netlib | native_system-java | 1.1 |
| com.github.fommil.netlib | native_system-java-natives | 1.1 |
| com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
| com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1.1 |
| com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
| com.github.luben | zstd-jni | 1.4.4-3 |
| com.github.wendykierp | JTransforms | 3.1 |
| com.google.code.findbugs | jsr305 | 3.0.0 |
| com.google.code.gson | gson | 2.2.4 |
| com.google.flatbuffers | flatbuffers-java | 1.9.0 |
| com.google.guava | Guave | 15,0 |
| com.google.protobuf | protobuf-java | 2.6.1 |
| com.h2database | h2 | 1.4.195 |
| com.helger | Profiler | 1.1.1 |
| com.jcraft | jsch | 0.1.50 |
| com.jolbox | Bonecp | 0.8.0.RELEASE |
| com.microsoft.azure | Azure Data Lake Store SDK (Software Development Kit für Azure Data Lake Store) | 2.2.8 |
| com.microsoft.sqlserver | mssql-servers | 8.2.1.jre8 |
| com.ning | compress-lzf (Datenkompression mit LZF-Algorithmus) | 1.0.3 |
| com.sun.mail | javax.mail | 1.5.2 |
| com.tduning | json | 1.8 |
| com.thoughtworks.paranamer | Paranamer | 2.8 |
| com.trueaccord.lenses | linsen_2.12 | 0.4.12 |
| com.twitter | chill-java | 0.9.5 |
| com.twitter | chill_2.12 | 0.9.5 |
| com.twitter | util-app_2.12 | 7.1.0 |
| com.twitter | util-core_2.12 | 7.1.0 |
| com.twitter | util-function_2.12 | 7.1.0 |
| com.twitter | util-jvm_2.12 | 7.1.0 |
| com.twitter | util-lint_2.12 | 7.1.0 |
| com.twitter | util-registry_2.12 | 7.1.0 |
| com.twitter | util-stats_2.12 | 7.1.0 |
| com.typesafe | Konfiguration | 1.2.1 |
| com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
| com.univocity | univocity-parsers | 2.8.3 |
| com.zaxxer | HikariCP | 3.1.0 |
| commons-beanutils | commons-beanutils | 1.9.4 |
| commons-cli | commons-cli | 1.2 |
| commons-codec | commons-codec | 1.10 |
| commons-collections | commons-collections | 3.2.2 |
| Commons-Konfiguration | Commons-Konfiguration | 1.6 |
| commons-dbcp | commons-dbcp | 1.4 |
| commons-digester | commons-digester | 1.8 |
| Commons-Dateihochladen | Commons-Dateihochladen | 1.3.3 |
| commons-httpclient | commons-httpclient | 3.1 |
| commons-io | commons-io | 2.4 |
| commons-lang | commons-lang | 2.6 |
| commons-logging | commons-logging | 1.1.3 |
| commons-net | commons-net | 3.1 |
| commons-pool | commons-pool | 1.5.4 |
| info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
| io.airlift | Luftkompressor | 0,10 |
| io.dropwizard.metrics | Metrics-Kernbibliothek | 4.1.1 |
| io.dropwizard.metrics | Metrics-Graphit | 4.1.1 |
| io.dropwizard.metrics | Metrik-Gesundheitschecks | 4.1.1 |
| io.dropwizard.metrics | Metrics-Jetty9 | 4.1.1 |
| io.dropwizard.metrics | Metrics-JMX | 4.1.1 |
| io.dropwizard.metrics | metrics-json | 4.1.1 |
| io.dropwizard.metrics | metrics-jvm | 4.1.1 |
| io.dropwizard.metrics | Metrik-Servlets | 4.1.1 |
| io.netty | nett-all | 4.1.47.Final |
| jakarta.annotation | jakarta.annotation-api | 1.3.5 |
| jakarta.validation | jakarta.validation-api | 2.0.2 |
| jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
| javax.activation | Aktivierung | 1.1.1 |
| javax.el | javax.el-api | 2.2.4 |
| javax.jdo | jdo-api | 3.0.1 |
| javax.servlet | javax.servlet-api | 3.1.0 |
| javax.servlet.jsp | jsp-api | 2.1 |
| javax.transaction | jta | 1.1 |
| javax.transaction | Transaktions-API | 1.1 |
| javax.xml.bind | jaxb-api | 2.2.2 |
| javax.xml.stream | stax-api | 1.0-2 |
| javolution | javolution | 5.5.1 |
| jline | jline | 2.14.6 |
| joda-time | joda-time | 2.10.5 |
| log4j | apache-log4j-extras | 1.2.17 |
| log4j | log4j | 1.2.17 |
| net.razorvine | Pyrolit | 4,30 |
| net.sf.jpam | jpam | 1.1 |
| net.sf.opencsv | opencsv | 2.3 |
| net.sf.supercsv | Super-CSV | 2.2.0 |
| net.Schneeflocke | snowflake-ingest-sdk | 0.9.6 |
| net.Schneeflocke | Snowflake-JDBC | 3.12.0 |
| net.Schneeflocke | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
| net.sourceforge.f2j | arpack_combined_all | 0,1 |
| org.acplt.remotetea | remotetea-oncrpc | 1.1.2 |
| org.antlr | ST4 | 4.0.4 |
| org.antlr | antlr-runtime | 3.5.2 |
| org.antlr | antlr4-runtime | 4.7.1 |
| org.antlr | stringtemplate | 3.2.1 |
| org.apache.ant | Ameise | 1.9.2 |
| org.apache.ant | ant-jsch | 1.9.2 |
| org.apache.ant | Ant-Launcher | 1.9.2 |
| org.apache.arrow | Pfeilformat | 0.15.1 |
| org.apache.arrow | Pfeilspeicher | 0.15.1 |
| org.apache.arrow | Pfeil-Vektor | 0.15.1 |
| org.apache.avro | avro | 1.8.2 |
| org.apache.avro | avro-ipc | 1.8.2 |
| org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
| org.apache.commons | commons-compress | 1.8.1 |
| org.apache.commons | commons-crypto | 1.0.0 |
| org.apache.commons | commons-lang3 | 3.9 |
| org.apache.commons | commons-math3 | 3.4.1 |
| org.apache.commons | Commons-Text | 1.6 |
| org.apache.curator | Kurator-Klient | 2.7.1 |
| org.apache.curator | Kurator-Framework | 2.7.1 |
| org.apache.curator | Rezepte des Kurators | 2.7.1 |
| org.apache.derby | Derby | 10.12.1.1 |
| org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
| org.apache.directory.api | api-util | 1.0.0-M20 |
| org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
| org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
| org.apache.hadoop | Hadoop-Anmerkungen | 2.7.4 |
| org.apache.hadoop | hadoop-auth | 2.7.4 |
| org.apache.hadoop | Hadoop-Client | 2.7.4 |
| org.apache.hadoop | hadoop-common | 2.7.4 |
| org.apache.hadoop | hadoop-hdfs | 2.7.4 |
| org.apache.hadoop | Hadoop-MapReduce-Client-Anwendung | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-core | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-jobclient (MapReduce-Client für Jobverwaltung) | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-server-common | 2.7.4 |
| org.apache.hive | hive-beeline | 2.3.7 |
| org.apache.hive | hive-cli | 2.3.7 |
| org.apache.hive | hive-common | 2.3.7 |
| org.apache.hive | hive-exec-core | 2.3.7 |
| org.apache.hive | hive-silk | 2.3.7 |
| org.apache.hive | hive-llap-Client | 2.3.7 |
| org.apache.hive | hive-llap-common | 2.3.7 |
| org.apache.hive | Hive-Metadatenbank | 2.3.7 |
| org.apache.hive | hive-serde | 2.3.7 |
| org.apache.hive | hive-shims | 2.3.7 |
| org.apache.hive | hive-speicher-api | 2.7.1 |
| org.apache.hive | hive-vector-code-gen | 2.3.7 |
| org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
| org.apache.hive.shims | Hive-Anpassungen-Common | 2.3.7 |
| org.apache.hive.shims | Hive-Shims-Scheduler | 2.3.7 |
| org.apache.htrace | htrace-core | 3.1.0-Inkubieren |
| org.apache.httpcomponents | httpclient | 4.5.6 |
| org.apache.httpcomponents | httpcore | 4.4.12 |
| org.apache.ivy | Efeu | 2.4.0 |
| org.apache.orc | orc-core | 1.5.10 |
| org.apache.orc | orc-mapreduce | 1.5.10 |
| org.apache.orc | Orc-Shims | 1.5.10 |
| org.apache.parkett | Parkettsäule | 1.10.1.2-databricks4 |
| org.apache.parkett | Gebräuchlich | 1.10.1.2-databricks4 |
| org.apache.parkett | Parquet-Kodierung | 1.10.1.2-databricks4 |
| org.apache.parkett | Parquet-Format | 2.4.0 |
| org.apache.parkett | Parkett-Hadoop | 1.10.1.2-databricks4 |
| org.apache.parkett | Parkett-Jackson | 1.10.1.2-databricks4 |
| org.apache.thrift | libfb303 | 0.9.3 |
| org.apache.thrift | libthrift | 0.12.0 |
| org.apache.velocity | Geschwindigkeit | 1.5 |
| org.apache.xbean | xbean-asm7-shaded | 4.15 |
| org.apache.yetus | Benutzergruppenanmerkungen | 0.5.0 |
| org.apache.zookeeper | Tierpfleger | 3.4.14 |
| org.codehaus.jackson | jackson-core-asl | 1.9.13 |
| org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
| org.codehaus.jackson | jackson-mapper-ASL | 1.9.13 |
| org.codehaus.jackson | jackson-xc | 1.9.13 |
| org.codehaus.janino | Commons-Compiler | 3.0.16 |
| org.codehaus.janino | janino | 3.0.16 |
| org.datanucleus | datanucleus-api-jdo | 4.2.4 |
| org.datanucleus | datanucleus-core | 4.1.17 |
| org.datanucleus | datanucleus-rdbms | 4.1.19 |
| org.datanucleus | javax.jdo | 3.2.0-m3 |
| org.eclipse.jetty | Jetty-Client | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-Fortsetzung | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-HTTP | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-io | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-jndi | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-Plus | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-Proxy | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-Sicherheit | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty Server | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-Servlet | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-Servlets | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-Util | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-Webanwendung | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty-xml | 9.4.18.v20190429 |
| org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
| org.glassfish.hk2 | hk2-api | 2.6.1 |
| org.glassfish.hk2 | hk2-Ortungssystem | 2.6.1 |
| org.glassfish.hk2 | hk2-utils | 2.6.1 |
| org.glassfish.hk2 | osgi-resource-locator | 1.0.3 |
| org.glassfish.hk2.external | aopalliance-neu verpackt | 2.6.1 |
| org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
| org.glassfish.jersey.containers | jersey-container-servlet | 2,30 |
| org.glassfish.jersey.containers | jersey-container-servlet-core | 2,30 |
| org.glassfish.jersey.core | Jersey-Client | 2,30 |
| org.glassfish.jersey.core | jersey-common | 2,30 |
| org.glassfish.jersey.core | Jersey-Server | 2,30 |
| org.glassfish.jersey.inject | jersey-hk2 | 2,30 |
| org.glassfish.jersey.media | jersey-media-jaxb | 2,30 |
| org.hibernate.validator | Ruhezustands-Validator | 6.1.0.Final |
| org.javassist | Javassist | 3.25.0-GA |
| org.jboss.logging | jboss-logging | 3.3.2.Final |
| org.jdbi | jdbi | 2.63.1 |
| org.joda | joda-convert | 1.7 |
| org.jodd | jodd-core | 3.5.2 |
| org.json4s | json4s-ast_2.12 | 3.6.6 |
| org.json4s | json4s-core_2.12 | 3.6.6 |
| org.json4s | json4s-jackson_2.12 | 3.6.6 |
| org.json4s | json4s-scalap_2.12 | 3.6.6 |
| org.lz4 | lz4-java | 1.7.1 |
| org.mariadb.aspx | mariadb-java-client | 2.1.2 |
| org.objenesis | Objenese | 2.5.1 |
| org.postgresql | postgresql | 42.1.4 |
| org.roaringbitmap | RoaringBitmap | 0.7.45 |
| org.roaringbitmap | Klemmstücke | 0.7.45 |
| org.rocksdb | rocksdbjni | 6.2.2 |
| org.rosuda.REngine | REngine | 2.1.0 |
| org.scala-lang | scala-compiler_2.12 | 2.12.10 |
| org.scala-lang | scala-library_2.12 | 2.12.10 |
| org.scala-lang | scala-reflect_2.12 | 2.12.10 |
| org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
| org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
| org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
| org.scala-sbt | Testoberfläche | 1,0 |
| org.scalacheck | scalacheck_2.12 | 1.14.2 |
| org.scalactic | scalactic_2.12 | 3.0.8 |
| org.scalanlp | breeze-macros_2.12 | 1,0 |
| org.scalanlp | breeze_2.12 | 1,0 |
| org.scalatest | scalatest_2.12 | 3.0.8 |
| org.slf4j | jcl-over-slf4j | 1.7.30 |
| org.slf4j | jul-to-slf4j | 1.7.30 |
| org.slf4j | slf4j-api | 1.7.30 |
| org.slf4j | slf4j-log4j12 | 1.7.30 |
| org.spark-project.spark | ungenutzt | 1.0.0 |
| org.springframework | Federkern | 4.1.4.RELEASE |
| org.springframework | Frühlingstest | 4.1.4.RELEASE |
| org.threeten | 3ten-extra | 1.5.0 |
| org.tukaani | xz | 1.5 |
| org.typelevel | algebra_2.12 | 2.0.0-M2 |
| org.typelevel | Katzen-kernel_2.12 | 2.0.0-M4 |
| org.typelevel | Maschinist_2.12 | 0.6.8 |
| org.typelevel | macro-compat_2.12 | 1.1.1 |
| org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
| org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
| org.typelevel | spire-util_2.12 | 0.17.0-M1 |
| org.typelevel | spire_2.12 | 0.17.0-M1 |
| org.xerial | sqlite-servers | 3.8.11.2 |
| org.xerial.snappy | snappy-java | 1.1.7.5 |
| org.yaml | Schlangenyaml | 1,24 |
| Oro | Oro | 2.0.8 |
| pl.edu.icm | JLargeArrays | 1.5 |
| software.amazon.ion | ion-java | 1.0.2 |
| Stax | stax-api | 1.0.1 |
| xmlenc | xmlenc | 0,52 |