Mises à jour de maintenance pour Databricks Runtime (archivé)

Cette page archivée répertorie les mises à jour de maintenance publiées pour les versions de Databricks Runtime qui ne sont plus prises en charge. Pour ajouter une mise à jour de maintenance à un cluster existant, redémarrez le cluster.

Importante

Cette documentation a été mise hors service et peut ne pas être mise à jour. Les produits, services ou technologies mentionnés dans ce contenu ont atteint leur fin de support. Consultez les versions et la compatibilité des notes de publication de Databricks Runtime.

Note

Cet article contient des références au terme liste verte, un terme qu’Azure Databricks n’utilise pas. Lorsque le terme sera supprimé du logiciel, nous le supprimerons de cet article.

Versions de Databricks Runtime

Mises à jour de maintenance par version :

Databricks Runtime 16.3
Databricks Runtime 16.1
Databricks Runtime 16.0
Databricks Runtime 15.3
Databricks Runtime 15.2
Databricks Runtime 15.1
Databricks Runtime 15.0
Databricks Runtime 14.2
Databricks Runtime 14.1
Databricks Runtime 14.0
Databricks Runtime 13.1
Databricks Runtime 12.2 LTS
Databricks Runtime 11.3 LTS
Databricks Runtime 10.4 LTS
Databricks Runtime 9.1 LTS
Databricks Runtime 13.0
Databricks Runtime 12.1
Databricks Runtime 12.0
Databricks Runtime 11.2
Databricks Runtime 11.1
Databricks Runtime 11.0
Databricks Runtime 10.5
Databricks Runtime 10.3
Databricks Runtime 10.2
Databricks Runtime 10.1
Databricks Runtime 10.0
Databricks Runtime 9.0
Databricks Runtime 8.4
Databricks Runtime 8.3
Databricks Runtime 8.2
Databricks Runtime 8.1
Databricks Runtime 8.0
Databricks Runtime 7.6
Databricks Runtime 7.5
Databricks Runtime 7.3 LTS
Prise en charge étendue de Databricks Runtime 6.4
Databricks Runtime 5.5 LTS
Databricks Light 2.4 - Support étendu
Databricks Runtime 7.4
Databricks Runtime 7.2
Databricks Runtime 7.1
Databricks Runtime 7.0
Databricks Runtime 6.6
Databricks Runtime 6.5
Databricks Runtime 6.3
Databricks Runtime 6.2
Databricks Runtime 6.1
Databricks Runtime 6.0
Databricks Runtime 5.4 ML
Databricks Runtime 5.4
Databricks Runtime 5.3
Databricks Runtime 5.2
Databricks Runtime 5.1
Databricks Runtime 5.0
Databricks Runtime 4.3
Databricks Runtime 4.2
Databricks Runtime 4.1 ML
Databricks Runtime 4.1
Databricks Runtime 4.0
Databricks Runtime 3.5 LTS
Databricks Runtime 3.4

Pour voir les mises à jour de maintenance sur les versions de Databricks Runtime prises en charge, consultez Mises à jour de maintenance de Databricks Runtime.

Databricks Runtime 16.3

Consultez Databricks Runtime 16.3 (EoS).

16 septembre 2025
- Le connecteur Snowflake utilise désormais la INFORMATION_SCHEMA table au lieu de la SHOW SCHEMAS commande pour répertorier les schémas. Cette modification supprime la limite de 10 000 schémas de l’approche précédente et améliore la prise en charge des bases de données avec un grand nombre de schémas.
- Mises à jour de sécurité du système d’exploitation

9 septembre 2025
- Correction d’un problème qui pouvait entraîner le blocage indéfini du chargeur automatique.
- Correction d’une erreur temporaire dans le chargeur automatique qui peut entraîner l’échec des travaux.
- [SPARK-51821][CORE] Interruption d’appel () sans tenir uninterruptibleLock pour éviter le blocage possible
- [SPARK-49872][CORE] Supprimer la limitation de longueur de chaîne JSON jackson
- Mises à jour de sécurité du système d’exploitation

26 août 2025
- [SPARK-52482][SQL][CORE] Améliorer la gestion des exceptions pour la lecture de certains fichiers zstd endommagés
- [SPARK-53192][CONNECT] Mettent toujours en cache une source de données dans le cache du plan Spark Connect
- Mises à jour de sécurité du système d’exploitation

14 août 2025
- [SPARK-51011][CORE] Ajouter la journalisation pour savoir si une tâche va être interrompue lors de la mort
- Mises à jour de sécurité du système d’exploitation

29 juillet 2025
- Mises à jour de sécurité du système d’exploitation

15 juillet 2025
- Correction d’un problème de perte de données non déterministe lors de l’utilisation de Spark Structured Streaming pour diffuser des données à partir de Pulsar.
- [SPARK-52553][SS] Correction de NumberFormatException lors de la lecture du journal des modifications v1
- Mises à jour de sécurité du système d’exploitation

1 juillet 2025
- Prise en charge de la décompression ZStandard pour les lecteurs de sources de données de fichier (json, csv, xml et texte.)
- [SPARK-52482][SQL][CORE] Prise en charge de la version ZStandard pour le lecteur de la version sources de la version données de la version fichiers
- [SPARK-52312][SQL] Ignorer V2WriteCommand lors de la mise en cache du DataFrame
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL] Right#replacement ne doit pas accéder dynamiquement à SQLConf
- Mises à jour de sécurité du système d’exploitation

17 juin 2025
- Correction de la limitation selon laquelle la fonction table de valeur (TVF) cloud_files_state ne peut pas être utilisée pour lire l’état au niveau du fichier des tables de streaming entre les pipelines.
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference doit conserver l’ID de plan
- Mises à jour de sécurité du système d’exploitation

3 juin 2025
- Bibliothèques Python mises à jour :
  - cryptographie de 41.0.7, 41.0.7, 42.0.5 à 42.0.5
  - empaquetage de 24.0, 24.1 à 24.1
  - platformdirs de 3.10.0, 4.2.2 à 3.10.0
  - pyparsing de la version 3.0.9 et 3.1.1 à la version 3.0.9
  - Ajout de la commande automatique 2.2.2
  - Ajout de backports.tarfile 1.2.0
  - Ajout de importlib_resources 6.4.0
  - Ajout d’inflect 7.3.1
  - Ajout de jaraco.context 5.3.0
  - Ajout de jaraco.functools 4.0.1
  - Ajouté le module jaraco.text 3.12.1
  - Ajout de more-itertools 10.3.0
  - Ajout de pip 24.2
  - Ajout de setuptools 74.0.0
  - Ajout de tomli 2.0.1
  - Ajout de Typeguard version 4.3.0
  - Ajout de wcwidth 0.2.5
  - Ajout de la roue 0.43.0
  - Suppression de la version 1.9.0
  - Suppression de distro-info 1.7+build1
  - Suppression de python-apt 2.7.7+ubuntu4
- [SPARK-52195][PYTHON][SS] Correction du problème de suppression de colonne d’état initiale pour Python TWS
- [SPARK-52159][SQL] Gérer correctement la vérification de l’existence de la table pour les dialectes jdbc
- Mises à jour de sécurité du système d’exploitation

20 mai 2025
- Bibliothèques Java mises à jour :
  - io.delta-sharing-client_2.12 de 1.2.6 à 1.2.7
  - org.apache.avro.avro de 1.11.3 à 1.11.4
  - org.apache.avro.avro-ipc de 1.11.3 à 1.11.4
  - org.apache.avro.avro-mapred de 1.11.3 à 1.11.4
- La session clonée de streaming sera utilisée à l’intérieur de la fonction utilisateur foreachBatch dans les Clusters partagés et Serverless. Cela s’aligne sur le comportement dans les clusters classiques (clusters affectés).
- La session clonée de streaming sera utilisée à l’intérieur de la fonction utilisateur foreachBatch dans les Clusters partagés et Serverless. Cela s’aligne sur le comportement dans les clusters classiques (clusters affectés).
- Avant cette modification, les espaces blancs et les onglets de début dans les chemins d’accès de l’expression variant_get étaient ignorés avec Photon désactivé. Par exemple, select variant_get(parse_json('{"key": "value"}'), '$['key']') ne serait pas efficace dans l’extraction de la valeur de "key". Toutefois, les utilisateurs pourront extraire ces clés maintenant.
- [SPARK-51921][SS][PYTHON] Utilisation du type long pour la durée de vie en millisecondes dans transformWithState
- [SPARK-51935][SQL] Corriger le comportement différé des itérateurs dans df.collect() interprété
- Mises à jour de sécurité du système d’exploitation

22 avril 2025
- Le suivi des schémas delta exposera les erreurs d'évolution de schéma avec DELTA_STREAMING_CANNOT_CONTINUE_PROCESSING_POST_SCHEMA_EVOLUTION pour être cohérent avec d'autres exceptions de changement de schéma non additifs, au lieu de DELTA_STREAMING_CANNOT_CONTINUE_PROCESSING_TYPE_WIDENING.
- [SPARK-51589][SQL] Correction d’un petit bogue qui ne parvient pas à vérifier les fonctions d’agrégation dans |>SELECT
- [SPARK-51645][SQL] Fix CREATE OR REPLACE TABLE ... CLASSEMENT PAR DÉFAUT ... requête
- Annuler « [SPARK-47895][SQL] group by alias doit être idempotent » dans les versions 15.4, 16.0, 16.1, 16.2 et 16.3
- [SPARK-51717][SS][RocksDB] Corriger l’altération de l’incompatibilité SST qui peut se produire pour la deuxième capture instantanée créée pour une nouvelle requête

26 mars 2025
- [SPARK-51624][SQL] Propager les métadonnées de GetStructField dans le type de données CreateNamedStruct.
- [SPARK-51505][SQL] Enregistrer les métriques du nombre de partitions vides dans AQE coalesce
- [SPARK-47895][SQL] group by alias doit être idempotent
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 16.1

Consultez Databricks Runtime 16.1 (EoS).

12 août 2025
- Mises à jour de sécurité du système d’exploitation

29 juillet 2025
- Mises à jour de sécurité du système d’exploitation
15 juillet 2025
- Mises à jour de sécurité du système d’exploitation
1er juillet 2025
- Prise en charge de la décompression ZStandard pour les lecteurs de sources de données de fichier (json, csv, xml et texte.)
- [SPARK-52482][SQL][CORE] Prise en charge de la version ZStandard pour le lecteur de la version sources de la version données de la version fichiers
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL] Right#replacement ne doit pas accéder dynamiquement à SQLConf
- [SPARK-52312][SQL] Ignorer V2WriteCommand lors de la mise en cache du DataFrame
- Mises à jour de sécurité du système d’exploitation
17 juin 2025
- Correction de la limitation selon laquelle la fonction table de valeur (TVF) cloud_files_state ne peut pas être utilisée pour lire l’état au niveau du fichier des tables de streaming entre les pipelines.
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference doit conserver l’ID de plan
- Mises à jour de sécurité du système d’exploitation

3 juin 2025
- Bibliothèques Python mises à jour :
  - cryptographie de 41.0.7, 41.0.7, 42.0.5 à 42.0.5
  - empaquetage de 24.0, 24.1 à 24.1
  - platformdirs de 3.10.0, 4.2.2 à 3.10.0
  - pyparsing de la version 3.0.9 et 3.1.1 à la version 3.0.9
  - Ajout de la commande automatique 2.2.2
  - Ajout de backports.tarfile 1.2.0
  - Ajout de importlib_resources 6.4.0
  - Ajout d’inflect 7.3.1
  - Ajout de jaraco.context 5.3.0
  - Ajout de jaraco.functools 4.0.1
  - Ajouté le module jaraco.text 3.12.1
  - Ajout de more-itertools 10.3.0
  - Ajout de pip 24.2
  - Ajout de setuptools 74.0.0
  - Ajout de tomli 2.0.1
  - Ajout de Typeguard version 4.3.0
  - Ajout de wcwidth 0.2.5
  - Ajout de la roue 0.43.0
  - Suppression de la version 1.9.0
  - Suppression de distro-info 1.7+build1
  - Suppression de python-apt 2.7.7+ubuntu4
- Bibliothèques Java mises à jour :
  - com.github.fommil.netlib.native_ref-java de 1.1, 1.1-natives à 1.1, 1.1
  - com.github.fommil.netlib.native_system-java de 1.1, 1.1-natives à 1.1, 1.1
  - com.github.fommil.netlib.netlib-native_ref-linux-x86_64 de 1.1-natives à 1.1
  - com.github.fommil.netlib.netlib-native_system-linux-x86_64 de 1.1-natives à 1.1
  - io.netty.netty-tcnative-boringssl-static de 2.0.61.Final-db-r16, 2.0.61.Final-db-r16-linux-aarch_64, 2.0.61.Final-db-r16-linux-x86_64, 2.0.61.Final-db-r16-osx-aarch_64, 2.0.61.Final-db-r16-osx-x86_64, 2.0.61.Final-db-r16-windows-x86_64 à 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16
  - io.netty.netty-transport-native-epoll from 4.1.108.Final, 4.1.108.Final-linux-aarch_64, 4.1.108.Final-linux-riscv64, 4.1.108.Final-linux-x86_64 à 4.1.108.Final, 4.1.108.Final, 4.1.1.108.Final, 4.1.108.Final
  - io.netty.netty-transport-native-kqueue de 4.1.108.Final-osx-aarch_64, 4.1.108.Final-osx-x86_64 à 4.1.108.Final, 4.1.108.Final
  - org.apache.orc.orc-core de 1.9.2-shaded-protobuf à 1.9.2
  - Mise à jour de org.apache.orc.orc-mapreduce de la version 1.9.2-shaded-protobuf à la version 1.9.2
  - software.amazon.cryptools.AmazonCorrettoCryptoProvider de 2.4.1-linux-x86_64 à 2.4.1
- [SPARK-52159][SQL] Gérer correctement la vérification de l’existence de la table pour les dialectes jdbc
- Mises à jour de sécurité du système d’exploitation

20 mai 2025
- Bibliothèques Java mises à jour :
  - io.delta-sharing-client_2.12 de 1.2.5 à 1.2.7
  - org.apache.avro.avro de 1.11.3 à 1.11.4
  - org.apache.avro.avro-ipc de 1.11.3 à 1.11.4
  - org.apache.avro.avro-mapred de 1.11.3 à 1.11.4
- La session clonée de streaming sera utilisée à l’intérieur de la fonction utilisateur foreachBatch dans les Clusters partagés et Serverless. Cela s’aligne sur le comportement dans les clusters classiques (clusters affectés).
- Avant cette modification, les espaces blancs et les onglets de début dans les chemins d’accès de l’expression variant_get étaient ignorés avec Photon désactivé. Par exemple, select variant_get(parse_json('{"key": "value"}'), '$['key']') ne serait pas efficace dans l’extraction de la valeur de "key". Toutefois, les utilisateurs pourront extraire ces clés maintenant.
- [SPARK-51935][SQL] Corriger le comportement différé des itérateurs dans df.collect() interprété
- Mises à jour de sécurité du système d’exploitation

22 avril 2025
- Annuler « [SPARK-47895][SQL] group by alias doit être idempotent » dans les versions 15.4, 16.0, 16.1, 16.2 et 16.3
- [SPARK-50682][SQL] L’alias interne doit être canonique
- [SPARK-51717][SS][RocksDB] Corriger l’altération de l’incompatibilité SST qui peut se produire pour la deuxième capture instantanée créée pour une nouvelle requête
- Mises à jour de sécurité du système d’exploitation

9 avril 2025
- Bibliothèques Java mises à jour :
  - Suppression de io.starburst.openjson.openjson 1.8-e.12
  - Suppression de io.starburst.openx.data.json-serde 1.3.9-e.12
  - Suppression de io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-51505][SQL] Enregistrer les métriques du nombre de partitions vides dans AQE coalesce
- [SPARK-51624][SQL] Propager les métadonnées de GetStructField dans le type de données CreateNamedStruct.
- [SPARK-47895][SQL] group by alias doit être idempotent
- Mises à jour de sécurité du système d’exploitation

11 mars 2025
- Databricks Runtime 14.3 LTS et versions ultérieures incluent un correctif pour un problème qui provoquait des incompatibilités binaires avec du code qui a instancié une classe SparkListenerApplicationEnd et qui a été compilé avec Apache Spark. Cette incompatibilité a entraîné la fusion de SPARK-46399 dans Apache Spark. Cette fusion inclut une modification qui a ajouté un argument par défaut au SparkListenerApplicationEnd constructeur. Pour restaurer la compatibilité binaire, ce correctif ajoute un constructeur d’argument unique à la SparkListenerApplicationEnd classe.
- [SPARK-51084][SQL] Affecter la classe d’erreur appropriée pour negativeScaleNotAllowedError
- Rétablir [SPARK-48273][SQL] Corriger la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-51222][SQL] Optimiser ReplaceCurrentLike
- [SPARK-50985][SS] Classifier l’erreur d’incompatibilité des décalages de timestamp Kafka au lieu d’affirmer et de lever une erreur pour le serveur manquant dans KafkaTokenProvider
- [SPARK-50791][SQL] Correction de NPE dans la gestion des erreurs du Magasin d’états
- Mises à jour de sécurité du système d’exploitation

11 février 2025
- Cette version inclut un correctif pour un problème affectant la conversion de certains types de données lors de la sérialisation de colonnes de données XML sauvées. Les types de données affectés sont des dates, des horodatages non NTZ et des décimales lorsqu’ils prefersDecimal sont activés. Pour en savoir plus sur la colonne de données sauvées, consultez Qu’est-ce que la colonne de données sauvée ?.
- [SPARK-50492][SS] Correction de java.util.NoSuchElementException lorsque la colonne d’heure de l’événement est supprimée après dropDuplicatesWithinWatermark
- Mises à jour de sécurité du système d’exploitation

27 novembre 2024
- Cette version inclut un correctif pour un problème pouvant entraîner la suppression de la clé primaire d’une table Delta dans certains cas particuliers liés à la compactage automatique en arrière-plan.
- Cette version inclut un correctif pour un problème affectant la conversion de certains types de données lors de la sérialisation de colonnes de données XML sauvées. Les types de données affectés sont des dates, des horodatages non NTZ et des décimales lorsqu’ils prefersDecimal sont activés. Pour en savoir plus sur la colonne de données sauvées, consultez Qu’est-ce que la colonne de données sauvée ?.
- Avec cette version, la taille du cache utilisée par un disque SSD dans un nœud de calcul Databricks s’étend dynamiquement à la taille initiale du disque SSD et diminue si nécessaire, jusqu’à la spark.databricks.io.cache.maxDiskUsage limite. Consultez Optimisation des performances avec la mise en cache sur Azure Databricks.
- [SPARK-50338][CORE] Rendre les exceptions LazyTry moins détaillées
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 16.0

Consultez Databricks Runtime 16.0 (EoS).

22 avril 2025
- Annuler « [SPARK-47895][SQL] group by alias doit être idempotent » dans les versions 15.4, 16.0, 16.1, 16.2 et 16.3
- Mises à jour de sécurité du système d’exploitation

9 avril 2025
- Bibliothèques Java mises à jour :
  - Suppression de io.starburst.openjson.openjson 1.8-e.12
  - Suppression de io.starburst.openx.data.json-serde 1.3.9-e.12
  - Suppression de io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-47895][SQL] group by alias doit être idempotent
- [SPARK-51624][SQL] Propager les métadonnées de GetStructField dans le type de données CreateNamedStruct.
- Mises à jour de sécurité du système d’exploitation

11 mars 2025
- Databricks Runtime 14.3 et versions ultérieures incluent un correctif pour un problème qui a provoqué des incompatibilités binaires avec du code qui instanciait une SparkListenerApplicationEnd classe et qui a été compilé sur Apache Spark. Cette incompatibilité a entraîné la fusion de SPARK-46399 dans Apache Spark. Cette fusion inclut une modification qui a ajouté un argument par défaut au SparkListenerApplicationEnd constructeur. Pour restaurer la compatibilité binaire, ce correctif ajoute un constructeur d’argument unique à la SparkListenerApplicationEnd classe.
- [SPARK-51084][SQL] Affecter la classe d’erreur appropriée pour negativeScaleNotAllowedError
- [SPARK-51222][SQL] Optimiser ReplaceCurrentLike
- [SPARK-50985][SS] Classifier l’erreur d’incompatibilité des décalages de timestamp Kafka au lieu d’affirmer et de lever une erreur pour le serveur manquant dans KafkaTokenProvider
- [SPARK-50791][SQL] Correction de NPE dans la gestion des erreurs du Magasin d’états
- Mises à jour de sécurité du système d’exploitation

11 février 2025
- Cette version inclut un correctif pour un problème affectant la conversion de certains types de données lors de la sérialisation de colonnes de données XML sauvées. Les types de données affectés sont des dates, des horodatages non NTZ et des décimales lorsqu’ils prefersDecimal sont activés. Pour en savoir plus sur la colonne de données sauvées, consultez Qu’est-ce que la colonne de données sauvée ?.
- [SPARK-50705][SQL] Rendre QueryPlan le verrou libre
- [SPARK-50492][SS] Correction de java.util.NoSuchElementException lorsque la colonne d’heure de l’événement est supprimée après dropDuplicatesWithinWatermark
- Mises à jour de sécurité du système d’exploitation

4 décembre 2024
- L’instruction USE CATALOG prend désormais en charge la clause IDENTIFIER. Avec cette prise en charge, vous pouvez paramétrer le catalogue actuel en fonction d’une variable de chaîne ou d’un marqueur de paramètre.
- Cette version inclut un correctif pour un problème pouvant entraîner la suppression de la clé primaire d’une table Delta dans certains cas particuliers liés à la compactage automatique en arrière-plan.
- Avec cette version, la taille du cache utilisée par un disque SSD dans un nœud de calcul Databricks s’étend dynamiquement à la taille initiale du disque SSD et diminue si nécessaire, jusqu’à la spark.databricks.io.cache.maxDiskUsage limite. Consultez Optimisation des performances avec la mise en cache sur Azure Databricks.
- [SPARK-50322][SQL] Correction de l’identificateur paramétrable dans une sous-requête
- [SPARK-50034][CORE] Correction du mauvais signalement des erreurs fatales en tant qu’exceptions interceptées dans SparkUncaughtExceptionHandler
- [SPARK-47435][SQL] Correction du problème de dépassement de capacité de MySQL UNSIGNED TINYINT
- [SPARK-49757][SQL] Prendre en charge l’expression IDENTIFIER dans l’instruction SETCATALOG
- [SPARK-50426][PYTHON] Éviter la recherche statique de source de données Python lors de l’utilisation de sources de données intégrées ou Java
- [SPARK-50338][CORE] Rendre les exceptions LazyTry moins détaillées
- Mises à jour de sécurité du système d’exploitation
10 décembre 2024
- (Changement majeur) Dans Databricks Runtime 15.4 et versions ultérieures, la gestion des expressions régulières dans Photon a été mise à jour afin de correspondre au comportement de la gestion des expressions régulières dans Apache Spark. Auparavant, les fonctions d’expression régulière exécutées par Photon, telles que split() et regexp_extract(), acceptaient certaines expressions régulières rejetées par l’analyseur Spark. Pour maintenir la cohérence avec Apache Spark, les requêtes Photon échouent désormais pour les expressions régulières que Spark considère non valides. En raison de cette modification, vous pouvez voir des erreurs si votre code Spark inclut des expressions régulières non valides. Par exemple, l’expression split(str_col, '{'), qui contient une accolade sans correspondance et qui a été précédemment acceptée par Photon, échoue désormais. Pour corriger cette expression, vous pouvez échapper au caractère d’accolades : split(str_col, '\\{'). Le comportement de Photon et de Spark diffère également pour certaines correspondances d’expressions régulières avec des caractères non ASCII. Ceci est également mis à jour afin que Photon corresponde au comportement d’Apache Spark.
- Avec cette version, vous pouvez maintenant interroger la fonction vector_search à l’aide de query_text pour l’entrée de texte ou query_vector pour l’incorporation d’entrée.
- Vous pouvez maintenant définir un délai d’expiration pour les requêtes Spark Connect à l’aide de la propriété de configuration Spark spark.databricks.execution.timeout. Pour les notebooks s’exécutant sur le calcul sans serveur, la valeur par défaut est 9000 (secondes). Les travaux exécutés sur le calcul serverless et le calcul avec le mode d’accès standard n’ont pas de délai d’expiration, sauf si cette propriété de configuration est définie. Une exécution qui dure plus longtemps que le délai d’expiration spécifié entraîne une erreur QUERY_EXECUTION_TIMEOUT_EXCEEDED.
- [SPARK-49843][SQL] Correction du commentaire de modification sur les colonnes char/varchar
- [SPARK-49924][SQL] Conserver containsNull après le remplacement de ArrayCompact
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-48780][SQL] Effectuer des erreurs dans le générique NamedParametersSupport pour gérer les fonctions et les procédures
- [SPARK-49876][CONNECT] Se débarrasser des verrous globaux à partir du service Spark Connect
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-49615] Correctif de bogue : Rendre la validation du schéma de colonne ML conforme à la configuration Spark spark.sql.caseSensitive
- [SPARK-48782][SQL] Ajouter la prise en charge de l’exécution de procédures dans les catalogues
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- Rétablir « [SPARK-49002][SQL] Gérer de manière cohérente les emplacements non valides dans WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY »
- [SPARK-50028][CONNECT] Remplacer les verrous globaux dans l’écouteur de serveur Spark Connect par des verrous affinés
- [SPARK-49615] [ML] Rendre la validation du schéma des jeux de données de tous les transformateurs de fonctionnalités ML conforme au paramètre « spark.sql.caseSensitive ».
- [SPARK-50124][SQL] LIMIT/OFFSET doivent conserver l’ordre des données
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 15.3

Consultez Databricks Runtime 15.3 (EoS).

26 novembre 2024
- Avec cette version, vous pouvez maintenant interroger la fonction vector_search à l’aide de query_text pour l’entrée de texte ou query_vector pour l’incorporation d’entrée.
- Mises à jour de sécurité du système d’exploitation
5 novembre 2024
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-49867][SQL] Améliorer le message d’erreur lorsque l’index est hors limites lors de l’appel de GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-46632][SQL] Correction de l’élimination des sous-expressions lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
22 octobre 2024
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-49867][SQL] Améliorer le message d’erreur lorsque l’index est hors limites lors de l’appel de GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-46632][SQL] Correction de l’élimination des sous-expressions lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
10 octobre 2024
- [SPARK-49688][CONNECT] Correction d’un conflit d’accès entre une interruption et un plan d’exécution
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs du schéma lors de l’élagage GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- Mises à jour de sécurité du système d’exploitation
25 septembre 2024
- [SPARK-49492][CONNECT] Réattachement tenté sur ExecutionHolder inactif
- [SPARK-49628][SQL] ConstantFolding devrait copier les expressions avec état avant de les évaluer
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- [SPARK-49458][CONNECT][PYTHON] Fournir l’identifiant de session côté serveur via ReattachExecute
- [SPARK-48719][SQL] Corriger le bogue de calcul de RegrSlope & RegrIntercept lorsque le premier paramètre a la valeur Null
- Mises à jour de sécurité du système d’exploitation
17 septembre 2024
- SPARK-49336[CONNECT] Limitation du niveau d’imbrication lors de la troncation d’un message protobuf
- [SPARK-49526][CONNECT][15.3.5] Prise en charge des chemins d’accès de style Windows dans ArtifactManager
- [SPARK-49366][CONNECT] Traiter le nœud Union comme une feuille dans la résolution de colonne du dataframe
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic de corruption du shuffle
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- Mises à jour de sécurité du système d’exploitation
29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion cohérente des options de lecture des Dataframes booléens
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer correctement les valeurs null.
- [SPARK-48862][PYTHON][CONNECT] Éviter d’appeler _proto_to_string lorsque le niveau INFO n’est pas activé
- [SPARK-49146][SS] Déplacer les erreurs d’assertion liées à l’absence de filigrane dans les requêtes de streaming en mode append vers le cadre d’erreurs.
14 août 2024
- [SPARK-48941][SPARK-48970] Corrections du lecteur/rédacteur ML Backport
- [SPARK-48706][PYTHON] Les fonctions UDF Python dans les fonctions d’ordre supérieur ne doivent pas générer d’erreur interne
- [SPARK-48954] try_mod() remplace try_remainder()
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-49047][PYTHON] [CONNECT] Tronquer le message pour la journalisation
- [SPARK-48740][SQL] Détecter rapidement les erreurs de spécification de fenêtre manquantes
1 août 2024
- [Changement cassant] Dans Databricks Runtime 15.3 et versions ultérieures, l’appel de toute fonction définie par l’utilisateur Python (UDF), la fonction d’agrégation définie par l’utilisateur (UDAF) ou la fonction de table définie par l’utilisateur (UDTF) qui utilise un type de VARIANT comme argument ou valeur de retour lève une exception. Cette modification est apportée pour empêcher les problèmes qui peuvent se produire en raison d’une valeur non valide retournée par l’une de ces fonctions. Pour en savoir plus sur le type VARIANT, consultez pour utiliser les VARIANTs afin de stocker des données semi-structurées.
- Sur le calcul serverless pour les notebooks et les tâches, le mode ANSI SQL est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- La sortie d’une instruction SHOW CREATE TABLE inclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne.
- Sur les ordinateurs configurés en mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumises aux mêmes restrictions que celles documentées pour Structured Streaming. Voir Limitations de la diffusion en continu.
- [SPARK-46957][CORE] Les fichiers shuffle migrés et désactivés devraient pouvoir être nettoyés à partir de l’exécuteur
- [SPARK-48648][PYTHON][CONNECT] Rendre SparkConnectClient.tags correctement threadlocal
- [SPARK-48896][SPARK-48909][SPARK-48883] Corrections apportées au rédacteur ML Spark
- [SPARK-48713][SQL] Ajouter une vérification de plage d’index pour UnsafeRow.pointTo lorsque baseObject est un tableau d’octets
- [SPARK-48834][SQL] Désactiver les entrées/sorties variables pour les fonctions scalaires UDF, UDTF et UDAF Python lors de la compilation des requêtes
- [SPARK-48934][SS] Types de dates et heures Python mal convertis pour définir le délai d’expiration dans applyInPandasWithState
- [SPARK-48705][PYTHON] Utiliser explicitement worker_main lorsqu’il démarre avec pyspark.
- [SPARK-48544][SQL] Réduire la pression mémoire des BitSets TreeNode vides
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant la fin
- [SPARK-49054][SQL] La valeur par défaut de la colonne doit prendre en charge les fonctions current_*.
- [SPARK-48653][PYTHON] Correction des références de classe d’erreur de source de données Python non valides
- [SPARK-48463] Ajouter la prise en charge des colonnes d’entrée imbriquées dans StringIndexer
- [SPARK-48810][CONNECT] L’API session stop() doit être idempotente et ne doit pas échouer si la session est déjà fermée par le serveur
- [SPARK-48873][SQL] Utiliser UnsafeRow dans l’analyseur JSON.
- Mises à jour de sécurité du système d’exploitation
11 juillet 2024
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez .checkpoint() pour conserver l’état d’une table pendant toute la durée de vie d’un DataFrame.
- Le pilote JDBC Snowflake a été mis à jour vers la version 3.16.1.
- Cette version corrige un problème qui empêchait l’onglet Environnement de l’interface utilisateur Spark de s’afficher correctement lors de l’exécution dans Databricks Container Services.
- Pour ignorer les partitions non valides lors de la lecture des données, les sources de données basées sur des fichiers, telles que Parquet, ORC, CSV ou JSON, peuvent définir l’option de source de données ignoreInvalidPartitionPaths sur true. Par exemple : spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)’. Vous pouvez aussi utiliser la configuration SQL spark.sql.files.ignoreInvalidPartitionPaths. Cependant, l’option de source de données a priorité sur la configuration SQL. Par défaut, ce paramètre par défaut est défini sur false.
- [SPARK-48100][SQL] Correction de problèmes liés au saut des champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-47463][SQL] Utiliser V2Predicate pour encapsuler une expression avec un type de retour booléen
- [SPARK-48292][CORE] Rétablir [SPARK-39195][SQL] Spark OutputCommitCoordinator doit interrompre l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48475][PYTHON] Optimiser _get_jvm_function dans PySpark.
- [SPARK-48286] Correction de l’analyse de la colonne avec l’expression par défaut « existe » - Ajout d’un message d’erreur destiné à l’utilisateur
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan aux ensembles de données en streaming
- Rétablir «[SPARK-47406][SQL] Gérer TIMESTAMP et DATETIME dans MYSQLDialect »
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- [SPARK-48503][14.3-15.3][SQL] Corrigez les sous-requêtes scalaires non valides avec regroupement sur des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48445][SQL] Ne pas intégrer les UDF (fonctions définies par l’utilisateur) avec des composants enfants coûteux
- [SPARK-48252][SQL] Mise à jour de CommonExpressionRef si nécessaire
- [SPARK-48273][master][SQL] Corriger la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48566][PYTHON] Correction d’un bug où les indices de partition sont incorrects lorsque UDTF analyze() utilise à la fois select et partitionColumns
- [SPARK-48556][SQL] Corriger un message d’erreur incorrect pointant vers UNSUPPORTED_GROUPING_EXPRESSION
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 15.2

Consultez Databricks Runtime 15.2 (EoS).

26 novembre 2024
- Mises à jour de sécurité du système d’exploitation
5 novembre 2024
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-46632][SQL] Correction de l’élimination des sous-expressions lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
22 octobre 2024
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-46632][SQL] Correction de l’élimination des sous-expressions lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
10 octobre 2024
- [BACKPORT] [SPARK-49474][SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs du schéma lors de l’élagage GetArrayStructFields
- [SPARK-49688][CONNECT] Correction d’un conflit d’accès entre une interruption et un plan d’exécution
- Mises à jour de sécurité du système d’exploitation
25 septembre 2024
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- [SPARK-48719][SQL] Correction du bug de calcul de RegrSlope et RegrIntercept lorsque le premier paramètre est nul.
- [SPARK-49458][CONNECT][PYTHON] Fournir l’identifiant de session côté serveur via ReattachExecute
- [SPARK-49628][SQL] ConstantFolding devrait copier les expressions avec état avant de les évaluer
- [SPARK-49492][CONNECT] Réattachement tenté sur ExecutionHolder inactif
- Mises à jour de sécurité du système d’exploitation
17 septembre 2024
- SPARK-49336[CONNECT] Limitation du niveau d’imbrication lors de la troncation d’un message protobuf
- [SPARK-49526][CONNECT] Prise en charge des chemins d’accès de style Windows dans ArtifactManager
- [SPARK-49366][CONNECT] Traiter le nœud Union comme une feuille dans la résolution de colonne du dataframe
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic de corruption du shuffle
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- Mises à jour de sécurité du système d’exploitation
29 août 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer correctement les valeurs null.
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-48862][PYTHON][CONNECT] Éviter d’appeler _proto_to_string lorsque le niveau INFO n’est pas activé
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion cohérente des options de lecture des Dataframes booléens
- [SPARK-49146][SS] Déplacer les erreurs d’assertion liées à l’absence de filigrane dans les requêtes de streaming en mode append vers le cadre d’erreurs.
14 août 2024
- [SPARK-48941][SPARK-48970] Corrections du lecteur/rédacteur ML Backport
- [SPARK-48050][SS] Enregistrer le plan logique au début de la requête
- [SPARK-48706][PYTHON] Les fonctions UDF Python dans les fonctions d’ordre supérieur ne doivent pas générer d’erreur interne
- [SPARK-48740][SQL] Détecter rapidement les erreurs de spécification de fenêtre manquantes
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-49047][PYTHON] [CONNECT] Tronquer le message pour la journalisation
1 août 2024
- Sur le calcul serverless pour les notebooks et les tâches, le mode ANSI SQL est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Sur les ordinateurs configurés en mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumises aux mêmes restrictions que celles documentées pour Structured Streaming. Voir Limitations de la diffusion en continu.
- La sortie d’une instruction SHOW CREATE TABLE inclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne.
- Sur les ordinateurs configurés en mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumises aux mêmes restrictions que celles documentées pour Structured Streaming. Voir Limitations de la diffusion en continu.
- La sortie d’une instruction SHOW CREATE TABLE inclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne.
- [SPARK-48705][PYTHON] Utiliser explicitement worker_main lorsqu’il démarre avec pyspark.
- [SPARK-48047][SQL] Réduire la pression mémoire des balises TreeNode vides
- [SPARK-48810][CONNECT] L’API session stop() doit être idempotente et ne doit pas échouer si la session est déjà fermée par le serveur
- [SPARK-48873][SQL] Utiliser UnsafeRow dans l’analyseur JSON.
- [SPARK-46957][CORE] Les fichiers shuffle migrés et désactivés devraient pouvoir être nettoyés à partir de l’exécuteur
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant la fin
- [SPARK-48713][SQL] Ajouter une vérification de plage d’index pour UnsafeRow.pointTo lorsque baseObject est un tableau d’octets
- [SPARK-48896][SPARK-48909][SPARK-48883] Corrections apportées au rédacteur ML Spark
- [SPARK-48544][SQL] Réduire la pression mémoire des BitSets TreeNode vides
- [SPARK-48934][SS] Types de dates et heures Python mal convertis pour définir le délai d’expiration dans applyInPandasWithState
- [SPARK-48463] Ajouter la prise en charge des colonnes d’entrée imbriquées dans StringIndexer
- Mises à jour de sécurité du système d’exploitation
11 juillet 2024
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez .checkpoint() pour conserver l’état d’une table pendant toute la durée de vie d’un DataFrame.
- Le pilote JDBC Snowflake a été mis à jour vers la version 3.16.1.
- Cette version corrige un problème qui empêchait l’onglet Environnement de l’interface utilisateur Spark de s’afficher correctement lors de l’exécution dans Databricks Container Services.
- Sur les blocs-notes et les travaux serverless, le mode SQL ANSI est activé par défaut et prend en charge les noms courts
- Pour ignorer les partitions non valides lors de la lecture des données, les sources de données basées sur des fichiers, telles que Parquet, ORC, CSV ou JSON, peuvent définir l’option de source de données ignoreInvalidPartitionPaths sur true. Par exemple : spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)’. Vous pouvez aussi utiliser la configuration SQL spark.sql.files.ignoreInvalidPartitionPaths. Cependant, l’option de source de données a priorité sur la configuration SQL. Par défaut, ce paramètre par défaut est défini sur false.
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48292][CORE] Rétablir [SPARK-39195][SQL] Spark OutputCommitCoordinator doit interrompre l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48100][SQL] Correction de problèmes liés au saut des champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-48286] Correction de l’analyse de la colonne avec l’expression par défaut « existe » - Ajout d’un message d’erreur destiné à l’utilisateur
- [SPARK-48294][SQL] Gérer les minuscules dans nestedTypeMissingElementTypeError
- [SPARK-48556][SQL] Corriger un message d’erreur incorrect pointant vers UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] Rendre SparkConnectClient.tags correctement threadlocal
- [SPARK-48503][SQL] Corrigez les sous-requêtes scalaires non valides avec regroupement sur des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48252][SQL] Mise à jour de CommonExpressionRef si nécessaire
- [SPARK-48475][PYTHON] Optimiser _get_jvm_function dans PySpark.
- [SPARK-48566][PYTHON] Correction d’un bug où les indices de partition sont incorrects lorsque UDTF analyze() utilise à la fois select et partitionColumns
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan aux ensembles de données en streaming
- [SPARK-47463][SQL] Utiliser V2Predicate pour encapsuler une expression avec un type de retour booléen
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- [SPARK-48445][SQL] Ne pas intégrer les UDF (fonctions définies par l’utilisateur) avec des composants enfants coûteux
- Mises à jour de sécurité du système d’exploitation
17 juin 2024
- applyInPandasWithState() est disponible sur des clusters partagés.
- Correction d’un bug où l’optimisation de la fenêtre de classement à l’aide de Photon TopK gérait incorrectement les partitions avec des structures.
- Correction d’un bug dans la fonction try_divide() où les entrées contenant des décimales entraînaient des exceptions inattendues.
- [SPARK-48197][SQL] Éviter les erreurs d’assertion pour les fonctions lambda non valides
- [SPARK-48276][PYTHON][CONNECT] Ajouter la méthode __repr__ manquante pour SQLExpression
- [SPARK-48014][SQL] Modifier l’erreur makeFromJava dans EvaluatePython en une erreur visible par l’utilisateur
- [SPARK-48016][SQL] Correction d’un bug dans la fonction try_divide en présence de décimales
- [SPARK-47986][CONNECT] [PYTHON] Impossible de créer une nouvelle session lorsque la session par défaut est fermée par le serveur
- [SPARK-48173][SQL] CheckAnalysis devrait afficher l’intégralité du plan de requête
- [SPARK-48056][CONNECT][PYTHON] Réexécuter le plan si une erreur SESSION_NOT_FOUND est levée et qu’aucune réponse partielle n’a été reçue
- [SPARK-48172][SQL] Correction des problèmes d’échappement dans JDBCDialects, rétroportés vers la version 15.2
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- [SPARK-48288] Ajout d’un type de données source pour l’expression de conversion du connecteur
- [SPARK-48310][PYTHON][CONNECT] Les propriétés mises en cache doivent renvoyer des copies
- [SPARK-48277] Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT] [PYTHON] Impossible de créer une nouvelle session lorsque la session par défaut est fermée par le serveur
- Rétablir «[SPARK-47406][SQL] Gérer TIMESTAMP et DATETIME dans MYSQLDialect »
- [SPARK-47994][SQL] Correction d’un bug avec le filtrage de colonne CASE WHEN dans SQLServer
- [SPARK-47764][CORE][SQL] Nettoyer les dépendances de réorganisation en fonction du mode ShuffleCleanupMode
- [SPARK-47921][CONNECT] Correction de la création d’ExecuteJobTag dans ExecuteHolder
- [SPARK-48010][SQL] Éviter les appels répétés à conf.resolver dans resolveExpression
- [SPARK-48146][SQL] Correction de la fonction d’agrégation dans l’assertion enfant de l’expression With
- [SPARK-48180][SQL] Améliorer l’erreur lorsque l’appel UDTF avec TABLE l’argument oublie les parenthèses autour de plusieurs PARTITION/ORDER BY expressions
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 15.1

Consultez Databricks Runtime 15.1 (EoS).

22 octobre 2024
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-46632][SQL] Correction de l’élimination des sous-expressions lorsque des expressions ternaires équivalentes ont des enfants différents
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- Mises à jour de sécurité du système d’exploitation
10 octobre 2024
- [SPARK-49688][CONNECT] Correction d’un conflit d’accès entre une interruption et un plan d’exécution
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs du schéma lors de l’élagage GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- Mises à jour de sécurité du système d’exploitation
25 septembre 2024
- [SPARK-49628][SQL] ConstantFolding devrait copier les expressions avec état avant de les évaluer
- [SPARK-48719][SQL] Correction du bug de calcul de RegrSlope et RegrIntercept lorsque le premier paramètre est nul.
- [SPARK-49492][CONNECT] Réattachement tenté sur ExecutionHolder inactif
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- [SPARK-49458][CONNECT][PYTHON] Fournir l’identifiant de session côté serveur via ReattachExecute
- Mises à jour de sécurité du système d’exploitation
17 septembre 2024
- SPARK-49336[CONNECT] Limitation du niveau d’imbrication lors de la troncation d’un message protobuf
- [SPARK-49526][CONNECT] Prise en charge des chemins d’accès de style Windows dans ArtifactManager
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic de corruption du shuffle
- [SPARK-49366][CONNECT] Traiter le nœud Union comme une feuille dans la résolution de colonne du dataframe
29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion cohérente des options de lecture des Dataframes booléens
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer correctement les valeurs null.
- [SPARK-48862][PYTHON][CONNECT] Éviter d’appeler _proto_to_string lorsque le niveau INFO n’est pas activé
- [SPARK-49146][SS] Déplacer les erreurs d’assertion liées à l’absence de filigrane dans les requêtes de streaming en mode append vers le cadre d’erreurs.
14 août 2024
- [SPARK-48941][SPARK-48970] Corrections du lecteur/rédacteur ML Backport
- [SPARK-48050][SS] Enregistrer le plan logique au début de la requête
- [SPARK-48706][PYTHON] Les fonctions UDF Python dans les fonctions d’ordre supérieur ne doivent pas générer d’erreur interne
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-49047][PYTHON] [CONNECT] Tronquer le message pour la journalisation
- [SPARK-48740][SQL] Détecter rapidement les erreurs de spécification de fenêtre manquantes
1 août 2024
- Sur le calcul serverless pour les notebooks et les tâches, le mode ANSI SQL est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Sur les ordinateurs configurés en mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumises aux mêmes restrictions que celles documentées pour Structured Streaming. Voir Limitations de la diffusion en continu.
- La sortie d’une instruction SHOW CREATE TABLE inclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne.
- Sur les ordinateurs configurés en mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumises aux mêmes restrictions que celles documentées pour Structured Streaming. Voir Limitations de la diffusion en continu.
- La sortie d’une instruction SHOW CREATE TABLE inclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne.
- [SPARK-48544][SQL] Réduire la pression mémoire des BitSets TreeNode vides
- [SPARK-46957][CORE] Les fichiers shuffle migrés et désactivés devraient pouvoir être nettoyés à partir de l’exécuteur
- [SPARK-47202][PYTHON] Correction d’une faute de frappe qui perturbait les dates et heures avec tzinfo
- [SPARK-48713][SQL] Ajouter une vérification de plage d’index pour UnsafeRow.pointTo lorsque baseObject est un tableau d’octets
- [SPARK-48896][SPARK-48909][SPARK-48883] Corrections apportées au rédacteur ML Spark
- [SPARK-48810][CONNECT] L’API session stop() doit être idempotente et ne doit pas échouer si la session est déjà fermée par le serveur
- [SPARK-48873][SQL] Utiliser UnsafeRow dans l’analyseur JSON.
- [SPARK-48934][SS] Types de dates et heures Python mal convertis pour définir le délai d’expiration dans applyInPandasWithState
- [SPARK-48705][PYTHON] Utiliser explicitement worker_main lorsqu’il démarre avec pyspark.
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant la fin
- [SPARK-48047][SQL] Réduire la pression mémoire des balises TreeNode vides
- [SPARK-48463] Ajouter la prise en charge des colonnes d’entrée imbriquées dans StringIndexer
- Mises à jour de sécurité du système d’exploitation
11 juillet 2024
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez .checkpoint() pour conserver l’état d’une table pendant toute la durée de vie d’un DataFrame.
- Le pilote JDBC Snowflake a été mis à jour vers la version 3.16.1.
- Cette version corrige un problème qui empêchait l’onglet Environnement de l’interface utilisateur Spark de s’afficher correctement lors de l’exécution dans Databricks Container Services.
- Sur le calcul serverless pour les notebooks et les tâches, le mode ANSI SQL est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Pour ignorer les partitions non valides lors de la lecture des données, les sources de données basées sur des fichiers, telles que Parquet, ORC, CSV ou JSON, peuvent définir l’option de source de données ignoreInvalidPartitionPaths sur true. Par exemple : spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)’. Vous pouvez aussi utiliser la configuration SQL spark.sql.files.ignoreInvalidPartitionPaths. Cependant, l’option de source de données a priorité sur la configuration SQL. Par défaut, ce paramètre par défaut est défini sur false.
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan aux ensembles de données en streaming
- [SPARK-48100][SQL] Correction de problèmes liés au saut des champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-47463][SQL] Utiliser V2Predicate pour encapsuler une expression avec un type de retour booléen
- [SPARK-48445][SQL] Ne pas intégrer les UDF (fonctions définies par l’utilisateur) avec des composants enfants coûteux
- [SPARK-48292][CORE] Rétablir [SPARK-39195][SQL] Spark OutputCommitCoordinator doit interrompre l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48566][PYTHON] Correction d’un bug où les indices de partition sont incorrects lorsque UDTF analyze() utilise à la fois select et partitionColumns
- [SPARK-48648][PYTHON][CONNECT] Rendre SparkConnectClient.tags correctement threadlocal
- [SPARK-48503][SQL] Corrigez les sous-requêtes scalaires non valides avec regroupement sur des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48252][SQL] Mise à jour de CommonExpressionRef si nécessaire
- [SPARK-48475][PYTHON] Optimiser _get_jvm_function dans PySpark.
- [SPARK-48294][SQL] Gérer les minuscules dans nestedTypeMissingElementTypeError
- [SPARK-48286] Correction de l’analyse de la colonne avec l’expression par défaut « existe » - Ajout d’un message d’erreur destiné à l’utilisateur
- [SPARK-47309][SQL] XML : Ajouter des tests d’inférence de schéma pour les balises de valeur
- [SPARK-47309][SQL][XML] Ajouter des tests unitaires d’inférence de schéma
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- Mises à jour de sécurité du système d’exploitation
17 juin 2024
- applyInPandasWithState() est disponible sur des clusters partagés.
- Correction d’un bug où l’optimisation de la fenêtre de classement à l’aide de Photon TopK gérait incorrectement les partitions avec des structures.
- [SPARK-48310][PYTHON][CONNECT] Les propriétés mises en cache doivent renvoyer des copies
- [SPARK-48276][PYTHON][CONNECT] Ajouter la méthode __repr__ manquante pour SQLExpression
- [SPARK-48277] Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- [SPARK-47764][CORE][SQL] Nettoyer les dépendances de réorganisation en fonction du mode ShuffleCleanupMode
- Mises à jour de sécurité du système d’exploitation
21 mai 2024
- Correction d’un bug dans la fonction try_divide() où les entrées contenant des décimales entraînaient des exceptions inattendues.
- [SPARK-48173][SQL] CheckAnalysis devrait afficher l’intégralité du plan de requête
- [SPARK-48016][SQL] Correction d’un bug dans la fonction try_divide en présence de décimales
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- [SPARK-48197][SQL] Éviter les erreurs d’assertion pour les fonctions lambda non valides
- [SPARK-48180][SQL] Améliorer l’erreur lorsque l’appel UDTF avec TABLE l’argument oublie les parenthèses autour de plusieurs PARTITION/ORDER BY expressions
- [SPARK-48014][SQL] Modifier l’erreur makeFromJava dans EvaluatePython en une erreur visible par l’utilisateur
- [SPARK-48056][CONNECT][PYTHON] Réexécuter le plan si une erreur SESSION_NOT_FOUND est levée et qu’aucune réponse partielle n’a été reçue
- [SPARK-48146][SQL] Correction de la fonction d’agrégation dans l’assertion enfant de l’expression With
- [SPARK-47994][SQL] Correction d’un bug avec le filtrage de colonne CASE WHEN dans SQLServer
- Mises à jour de sécurité du système d’exploitation
9 mai 2024
- [SPARK-47543][CONNECT][PYTHON] Déduire dict comme MapType à partir d’un DataFrame Pandas pour permettre la création d’un DataFrame
- [SPARK-47739][SQL] Inscrire un type d’Avro logique
- [SPARK-48044][PYTHON][CONNECT] Cache DataFrame.isStreaming
- [SPARK-47855][CONNECT] Ajout de spark.sql.execution.arrow.pyspark.fallback.enabled dans la liste non prise en charge
- [SPARK-48010][SQL] Éviter les appels répétés à conf.resolver dans resolveExpression
- [SPARK-47941] [SS] [Connect] Propager les erreurs d’initialisation du travailleur ForeachBatch aux utilisateurs pour PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Utiliser un rappel asynchrone pour le nettoyage de l’exécution
- [SPARK-47956][SQL] Vérification de cohérence pour référence LCA non résolue
- [SPARK-47839][SQL] Correction d’un bug d’agrégation dans RewriteWithExpression
- [SPARK-48018][SS] Correction du groupe null provoquant une erreur de paramètre manquant lors du lancement de KafkaException.couldNotReadOffsetRange
- [SPARK-47371][SQL] XML : Ignorer les balises de ligne trouvées dans CDATA
- [SPARK-47907][SQL] Mettre bang sous une configuration
- [SPARK-47895][SQL] le regroupement par tous doit être idempotent.
- [SPARK-47973][CORE] Enregistrer l’appel dans SparkContext.stop(), puis dans SparkContext.assertNotStopped().
- [SPARK-47986][CONNECT] [PYTHON] Impossible de créer une nouvelle session lorsque la session par défaut est fermée par le serveur
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 15.0

Consultez Databricks Runtime 15.0 (EoS).

30 mai 2024
- (Changement de comportement) La fonction dbutils.widgets.getAll() est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook.
25 avril 2024
- [SPARK-47786]SELECT DISTINCT () ne doit pas devenir SELECT DISTINCT struct() (rétablir le comportement précédent)
- [SPARK-47802][SQL] Rétablir () de meaning struct() vers meaning *
- [SPARK-47509][SQL] Bloquer les expressions de sous-requêtes dans les fonctions lambda et de ordre supérieur
- [SPARK-47722] Attendre que le travail d’arrière-plan RocksDB soit terminé avant de fermer
- [SPARK-47081][CONNECT][FOLLOW] Amélioration de la convivialité du gestionnaire de progression
- [SPARK-47694][CONNECT] Rendre la taille maximale des messages configurable côté client
- [SPARK-47669][SQL][CONNECT][PYTHON] Ajouter Column.try_cast
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] Valider le nom de colonne avec le schéma mis en cache
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Intégrer le cache de plan dans SparkConnectPlanner afin d’améliorer les performances des requêtes d’analyse
- [SPARK-47704][SQL] L’analyse JSON échoue avec l’erreur « java.lang.ClassCastException » lorsque spark.sql.json.enablePartialResults est activé.
- [SPARK-47755][CONNECT] Le pivot doit échouer lorsque le nombre de valeurs distinctes est trop important
- [SPARK-47713][SQL][CONNECT] Correction d’une erreur d’auto-jointure
- [SPARK-47812][CONNECT] Sérialisation de SparkSession pour le worker ForEachBatch
- [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite échoue avec un plan non valide
- [SPARK-47862][PYTHON][CONNECT] Corriger la génération des fichiers proto
- [SPARK-47800][SQL] Créer une nouvelle méthode pour la conversion de l’identifiant vers tableIdentifier
- Mises à jour de sécurité du système d’exploitation
3 avril 2024
- (Changement de comportement) Pour garantir un comportement cohérent entre les différents types de calcul, les UDF PySpark sur les clusters partagés correspondent désormais au comportement des UDF sur les clusters sans isolation et attribués. Cette mise à jour comprend les modifications suivantes qui pourraient perturber le fonctionnement du code existant :
  - Les fonctions définies par l’utilisateur avec un stringtype de retour ne convertissent plus implicitement les valeurs non string en valeurs string. Auparavant, les fonctions définies par l’utilisateur avec un type de retour str encapsulaient la valeur de retour avec une fonction str(), quel que soit le type de données réel de la valeur retournée.
  - Les fonctions définies par l’utilisateur avec des timestamptypes de retour n’appliquent plus implicitement de conversion de timestamp avec timezone.
  - Les configurations de cluster Spark spark.databricks.sql.externalUDF.* ne s’appliquent plus aux fonctions définies par l’utilisateur PySpark sur les clusters partagés.
  - La configuration du cluster Spark spark.databricks.safespark.externalUDF.plan.limit n’affecte plus les fonctions définies par l’utilisateur PySpark, supprimant ainsi la limitation de la préversion publique de 5 fonctions définies par l’utilisateur par requête pour les fonctions définies par l’utilisateur PySpark.
  - La configuration de cluster Spark spark.databricks.safespark.sandbox.size.default.mib ne s’applique plus aux fonctions définies par l’utilisateur PySpark sur les clusters partagés. Au lieu de cela, la mémoire disponible sur le système est utilisée. Pour limiter la mémoire des fonctions définies par l’utilisateur PySpark, utilisez spark.databricks.pyspark.udf.isolation.memoryLimit avec une valeur minimale de 100m.
- Le type de données TimestampNTZ est désormais pris en charge en tant que colonne de clustering avec clustering liquide. Consultez Utilisation de Liquid Clustering pour les tables.
- [SPARK-47218][SQL] XML : Ignorer les balises de ligne commentées dans le tokenizer XML
- [SPARK-46990][SQL] Corriger le chargement des fichiers Avro vides émis par les hubs d’événements
- [SPARK-47033][SQL] Correction EXECUTE IMMEDIATE USING ne reconnaît pas les noms de variables de session
- [SPARK-47368][SQL] Supprimer la vérification de la configuration inferTimestampNTZ dans ParquetRowConverter
- [SPARK-47561][SQL] Corriger des problèmes d’ordre des règles d’analyse concernant les alias
- [SPARK-47638][PS][CONNECT] Ignorer la validation du nom de colonne dans PS
- [SPARK-46906][BACKPORT][SS] Ajouter une vérification pour le changement d’opérateur avec état pour le streaming
- [SPARK-47569][SQL] Interdire la comparaison des variantes.
- [SPARK-47241][SQL] Correction des problèmes d’ordre des règles pour ExtractGenerator
- [SPARK-47218] [SQL] XML : Modification de SchemaOfXml pour échouer en mode DROPMALFORMED
- [SPARK-47300][SQL] quoteIfNeeded doit citer l’identifiant commençant par des chiffres
- [SPARK-47009][SQL][Collation] Activer la prise en charge de la création de tables pour le classement
- [SPARK-47322][PYTHON][CONNECT] Rendre withColumnsRenamed la gestion des doublons dans les noms de colonnes cohérente avec withColumnRenamed
- [SPARK-47544][PYTHON] La méthode SparkSession builder est incompatible avec l’IntelliSense de Visual Studio Code
- [SPARK-47511][SQL] Canonicaliser avec des expressions en réattribuant des ID
- [SPARK-47385] Correction des encodeurs de tuples avec des entrées Option.
- [SPARK-47200][SS] Classe d’erreur pour l’erreur de la fonction utilisateur du collecteur de lots Foreach
- [SPARK-47135][SS] Implémenter des classes d’erreurs pour les exceptions de perte de données Kafka
- [SPARK-38708][SQL] Mettre à niveau le client Metastore Hive de Hive 3.1 vers la version 3.1.3
- [SPARK-47305][SQL] Corriger PruneFilters pour marquer correctement l’indicateur isStreaming de LocalRelation lorsque le plan comporte à la fois un traitement par lots et un traitement en continu
- [SPARK-47380][CONNECT] S’assurer que SparkSession est identique côté serveur.
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 14.2

Consultez Databricks Runtime 14.2 (EoS).

22 octobre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- Mises à jour de sécurité du système d’exploitation
10 octobre 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs du schéma lors de l’élagage GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
25 septembre 2024
- [SPARK-48719][SQL] Corriger le bogue de calcul de ’ RegrS...
- [SPARK-49628][SQL] ConstantFolding devrait copier les expressions avec état avant de les évaluer
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic de corruption du shuffle
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- Mises à jour de sécurité du système d’exploitation
17 septembre 2024
- [SPARK-49526][CONNECT] Prise en charge des chemins d’accès de style Windows dans ArtifactManager
29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion cohérente des options de lecture des Dataframes booléens
- [SPARK-49146][SS] Déplacer les erreurs d’assertion liées à l’absence de filigrane dans les requêtes de streaming en mode append vers le cadre d’erreurs.
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer correctement les valeurs null.
14 août 2024
- [SPARK-48050][SS] Enregistrer le plan logique au début de la requête
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48706][PYTHON] Les fonctions UDF Python dans les fonctions d’ordre supérieur ne doivent pas générer d’erreur interne
1 août 2024
- Cette version inclut un correctif de bogue pour les classes ColumnVector et ColumnarArray de l’interface Java Spark. Avant ce correctif, une ArrayIndexOutOfBoundsException pouvait être levée, ou des données incorrectes pouvaient être retournées lorsqu’une instance de l’une de ces classes contenait des valeurs null.
- La sortie d’une instruction SHOW CREATE TABLE inclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne.
- [SPARK-47202][PYTHON] Correction d’une faute de frappe qui perturbait les dates et heures avec tzinfo
- [SPARK-48705][PYTHON] Utiliser explicitement worker_main lorsqu’il démarre avec pyspark.
- Mises à jour de sécurité du système d’exploitation
11 juillet 2024
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez .checkpoint() pour conserver l’état d’une table pendant toute la durée de vie d’un DataFrame.
- Le pilote JDBC Snowflake a été mis à jour vers la version 3.16.1
- Cette version corrige un problème qui empêchait l’onglet Environnement de l’interface utilisateur Spark de s’afficher correctement lors de l’exécution dans Databricks Container Services.
- [SPARK-48292][CORE] Rétablir [SPARK-39195][SQL] Spark OutputCommitCoordinator doit interrompre l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Corrigez les sous-requêtes scalaires non valides avec regroupement sur des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan aux ensembles de données en streaming
- [SPARK-48475][PYTHON] Optimiser _get_jvm_function dans PySpark.
- [SPARK-48100][SQL] Correction de problèmes liés au saut des champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-48445][SQL] Ne pas intégrer les UDF (fonctions définies par l’utilisateur) avec des composants enfants coûteux
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- Mises à jour de sécurité du système d’exploitation
17 juin 2024
- Correction d’un bug où l’optimisation de la fenêtre de classement à l’aide de Photon TopK gérait incorrectement les partitions avec des structures.
- [SPARK-48276][PYTHON][CONNECT] Ajouter la méthode __repr__ manquante pour SQLExpression
- [SPARK-48277] Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- Mises à jour de sécurité du système d’exploitation
21 mai 2024
- (Changement de comportement) La fonction dbutils.widgets.getAll() est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook.
- [SPARK-48173][SQL] CheckAnalysis devrait afficher l’intégralité du plan de requête
- [SPARK-48197][SQL] Éviter les erreurs d’assertion pour les fonctions lambda non valides
- [SPARK-47994][SQL] Correction d’un bug avec le filtrage de colonne CASE WHEN dans SQLServer
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- Mises à jour de sécurité du système d’exploitation
9 mai 2024
- [SPARK-48044][PYTHON][CONNECT] Cache DataFrame.isStreaming
- [SPARK-47956][SQL] Vérification de cohérence pour référence LCA non résolue
- [SPARK-47371][SQL] XML : Ignorer les balises de ligne trouvées dans CDATA
- [SPARK-47812][CONNECT] Sérialisation de SparkSession pour le worker ForEachBatch
- [SPARK-47895][SQL] le regroupement par tous doit être idempotent.
- [SPARK-47973][CORE] Enregistrer l’appel dans SparkContext.stop(), puis dans SparkContext.assertNotStopped().
- Mises à jour de sécurité du système d’exploitation
25 avril 2024
- [SPARK-47704][SQL] L’analyse JSON échoue avec l’erreur « java.lang.ClassCastException » lorsque spark.sql.json.enablePartialResults est activé.
- [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite échoue avec un plan non valide
- Mises à jour de sécurité du système d’exploitation
11 avril 2024
- [SPARK-47309][SQL][XML] Ajouter des tests unitaires d’inférence de schéma
- [SPARK-46990][SQL] Corriger le chargement des fichiers Avro vides émis par les hubs d’événements
- [SPARK-47638][PS][CONNECT] Ignorer la validation du nom de colonne dans PS
- [SPARK-47509][SQL] Bloquer les expressions de sous-requêtes dans les fonctions lambda et de ordre supérieur
- [SPARK-38708][SQL] Mettre à niveau le client Metastore Hive de Hive 3.1 vers la version 3.1.3
- Mises à jour de sécurité du système d’exploitation
1 avril 2024
- [SPARK-47322][PYTHON][CONNECT] Rendre withColumnsRenamed la gestion des doublons dans les noms de colonnes cohérente avec withColumnRenamed
- [SPARK-47385] Correction des encodeurs de tuples avec des entrées Option.
- [SPARK-47070] Correction d’une agrégation non valide après la réécriture d’une sous-requête
- [SPARK-47218] [SQL] XML : Modification de SchemaOfXml pour échouer en mode DROPMALFORMED
- [SPARK-47305][SQL] Corriger PruneFilters pour marquer correctement l’indicateur isStreaming de LocalRelation lorsque le plan comporte à la fois un traitement par lots et un traitement en continu
- [SPARK-47218][SQL] XML : Ignorer les balises de ligne commentées dans le tokenizer XML
- Rétablir « [SPARK-46861] [CORE] Éviter les blocages dans DAGScheduler
- [SPARK-47300][SQL] quoteIfNeeded doit citer l’identifiant commençant par des chiffres
- [SPARK-47368][SQL] Supprimer la vérification de la configuration inferTimestampNTZ dans ParquetRowConverter
- Mises à jour de sécurité du système d’exploitation
14 mars 2024
- [SPARK-47035][SS][CONNECT] Protocole pour l’écouteur côté client
- [SPARK-47121][CORE] Éviter RejectedExecutionExceptions lors de l’arrêt de StandaloneSchedulerBackend
- [SPARK-47145][SQL] Transmettre l’identifiant de la table au scan exec de la source de données de ligne pour la stratégie V2.
- [SPARK-47176][SQL] Disposer d’une fonction d’aide ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
- [SPARK-47129][CONNECT][SQL] Faire en sorte que le cache ResolveRelations se connecte correctement au plan
- [SPARK-47044][SQL] Ajouter la requête exécutée pour les sources de données externes JDBC afin d’expliquer la sortie
- Mises à jour de sécurité du système d’exploitation
29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la métrique d’opération numSourceRows de rapporter le double du nombre correct de lignes.
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose de privilèges SELECT et MODIFY sur ANY FILE.
- Vous pouvez désormais ingérer des fichiers XML à l’aide du chargeur automatique, de read_files, COPY INTO, des pipelines déclaratifs Lakeflow Spark et de DBSQL. La prise en charge des fichiers XML permet de déduire et de faire évoluer automatiquement les schémas, de récupérer les données présentant des incompatibilités de types, de valider les fichiers XML à l’aide de XSD et de prendre en charge les expressions SQL telles que from_xml, schema_of_xml et to_xml. Consultez Prise en charge de fichiers XML 1.3 pour en savoir plus. Si vous utilisiez auparavant le package externe spark-xml, consultez ici pour obtenir des conseils sur la migration.
- [SPARK-46954][SQL] XML : Wrap InputStreamReader avec BufferedReader
- [SPARK-46630][SQL] XML : Validation du nom de l’élément XML durant l’écriture
- [SPARK-46248][SQL] XML : Prise en charge des options ignoreCorruptFiles et ignoreMissingFiles
- [SPARK-46954][SQL] XML : Optimiser la recherche d’index de schéma
- [SPARK-47059][SQL] Attacher un contexte d’erreur pour la commande ALTER COLUMN v1
- [SPARK-46993][SQL] Correction du pliage constant pour les variables de session
8 février 2024
- Les requêtes CDF (Change Data Feed) sur les vues matérialisées Unity Catalog ne sont pas prises en charge. Toute tentative d’exécution d’une requête CDF avec une vue matérialisée Unity Catalog renvoie une erreur. Les tables Unity Catalog Streaming prennent en charge les requêtes CDF sur des tables CDC non automatiques dans Databricks Runtime 14.1 et versions ultérieures. Les requêtes CDF ne sont pas prises en charge avec les tables Unity Catalog Streaming dans Databricks Runtime 14.0 et versions antérieures.
- [SPARK-46930] Ajout de la prise en charge d’un préfixe personnalisé pour les champs de type Union dans Avro.
- [SPARK-46822] Respecter spark.sql.legacy.charVarcharAsString lors de la conversion du type jdbc en type catalyst dans jdbc.
- [SPARK-46952] XML : limiter la taille des enregistrements corrompus.
- [SPARK-46644] Modifiez « add » et « merge » dans SQLMetric pour utiliser « isZero ».
- [SPARK-46861] Éviter le blocage dans DAGScheduler.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- [SPARK-46933] Ajouter la métrique du temps d’exécution des requêtes aux connecteurs qui utilisent JDBCRDD.
- Mises à jour de sécurité du système d’exploitation
31 janv. 2024
- [SPARK-46382] XML : Mise à jour de la documentation de ignoreSurroundingSpaces.
- [SPARK-46382] XML : Capturer les valeurs intercalées entre les éléments.
- [SPARK-46763] Corriger une erreur d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs en double.
- Rétablir [SPARK-46769] Affiner l’inférence de schéma associée au horodatage.
- [SPARK-46677] Régler la résolution de dataframe["*"].
- [SPARK-46382] XML : ignoreSurroundingSpaces défini par défaut sur true.
- [SPARK-46633] Correction du lecteur Avro pour gérer les blocs de longueur nulle.
- [SPARK-45964] Supprimer l’accesseur SQL privé dans les paquets XML et JSON sous le paquet catalyst.
- [SPARK-46581] Mettre à jour le commentaire sur isZero dans AccumulatorV2.
- [SPARK-45912] Amélioration de l’API XSDToSchema : modification de l’API HDFS pour l’accessibilité au stockage cloud.
- [SPARK-45182] Ignorer l’achèvement des tâches de l’ancienne étape après avoir réessayé l’étape parent indéterminée, comme déterminé par la somme de contrôle.
- [SPARK-46660] ReattachExecute demande la mise à jour de la validité de SessionHolder.
- [SPARK-46610] La création d’une table doit générer une exception lorsqu’aucune valeur n’est définie pour une clé dans les options.
- [SPARK-46383] Réduire l’utilisation de la mémoire heap du pilote en réduisant la durée de vie de TaskInfo.accumulables().
- [SPARK-46769] Affiner l’inférence du schéma lié à l’horodatage.
- [SPARK-46684] Correction de CoGroup.applyInPandas/Arrow pour transmettre correctement les arguments.
- [SPARK-46676] dropDuplicatesWithinWatermark ne devrait pas échouer lors de la canonicalisation du plan.
- [SPARK-45962] Supprimer treatEmptyValuesAsNulls et utiliser l’option nullValue à la place dans XML.
- [SPARK-46541] Corriger la référence de colonne ambiguë dans l’auto-jointure.
- [SPARK-46599] XML : Utiliser TypeCoercion.findTightestCommonType pour vérifier la compatibilité.
- Mises à jour de sécurité du système d’exploitation
17 janv. 2024
- Le nœud shuffle du plan d’exécution renvoyé par une requête Photon est mis à jour pour ajouter l’indicateur causedBroadcastJoinBuildOOM=true lorsqu’une erreur de mémoire insuffisante se produit pendant un remaniement faisant partie d’une jointure de diffusion.
- Pour éviter une augmentation de la latence lors des communications via TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 afin de corriger le bogue JDK-8293562.
- [SPARK-46261]DataFrame.withColumnsRenamed doit conserver l’ordre dict/map.
- [SPARK-46538] Corriger le problème de référence de colonne ambiguë dans ALSModel.transform.
- [SPARK-46145] spark.catalog.listTables ne génère pas d’exception lorsque la table ou la vue est introuvable.
- [SPARK-46484] Faites en sorte resolveOperators que les fonctions d’aide conservent l’identifiant du plan.
- [SPARK-46394] Correction des problèmes liés à spark.catalog.listDatabases() sur les schémas contenant des caractères spéciaux lorsque spark.sql.legacy.keepCommandOutputSchema est définie sur true.
- [SPARK-46609] Éviter l’explosion exponentielle dans PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Désactivez les sous-requêtes corrélées OFFSET pour corriger un bug d’exactitude.
- [SPARK-46152] XML : Ajouter la prise en charge du type DecimalType dans l’inférence de schéma XML.
- [SPARK-46602] Propagation de allowExisting lors de la création d’une vue quand la vue ou la table n’existe pas.
- [SPARK-45814] Faire en sorte que ArrowConverters.createEmptyArrowBatch appelle close() pour éviter les fuites de mémoire.
- [SPARK-46058] Ajouter un indicateur distinct pour privateKeyPassword.
- [SPARK-46132] Prise en charge des mots de passe des clés JKS pour RPC SSL.
- [SPARK-46600] Déplacer le code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
- [SPARK-46478] Rétablir SPARK-43049 pour utiliser oracle varchar(255) pour les chaînes de caractères.
- [SPARK-46417] Ne pas échouer lors de l’appel de hive.getTable et throwException est défini sur false.
- [SPARK-46153] XML : Ajouter la prise en charge de TimestampNTZType.
- [SPARK-46056][BACKPORT] Correction de l’erreur NPE de lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
- [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais effectuer de rebase pour l’horodatage ntz.
- [SPARK-46260]DataFrame.withColumnsRenamed doit respecter l’ordre des dict.
- [SPARK-46036] Suppression de la classe d’erreur de la fonction raise_error.
- [SPARK-46294] Nettoyer la sémantique de init par rapport à la valeur zéro.
- [SPARK-46173] Ignorer l’appel trimAll pendant l’analyse de la date.
- [SPARK-46250] Défléchir test_parity_listener.
- [SPARK-46587] XML : Corriger la conversion des grands entiers XSD.
- [SPARK-46396] L’inférence de l’horodatage ne doit pas générer d’exception.
- [SPARK-46241] Corrigez la routine de gestion des erreurs afin qu’elle ne tombe pas en récursivité infinie.
- [SPARK-46355] XML : Fermer InputStreamReader à la fin d’une lecture.
- [SPARK-46370] Correction d’un bug lors de l’interrogation d’une table après modification des valeurs par défaut des colonnes.
- [SPARK-46265] Les assertions dans AddArtifact RPC rendent le client connect incompatible avec les clusters plus anciens.
- [SPARK-46308] Interdire la gestion récursive des erreurs.
- [SPARK-46337] Faire en sorte que CTESubstitution conserve le PLAN_ID_TAG.
14 décembre 2023
- [SPARK-46141] Modifier la valeur par défaut de spark.sql.legacy.ctePrecedencePolicy en CORRECTED.
- [SPARK-45730] Rendre ReloadingX509TrustManagerSuite moins instable.
- [SPARK-45852] Gérer avec élégance les erreurs de récursivité lors de la journalisation.
- [SPARK-45808] Meilleure gestion des erreurs pour les exceptions SQL.
- [SPARK-45920] group by ordinal doit être idempotent.
- Annuler « [SPARK-45649] Unification de l’infrastructure de préparation pour OffsetWindowFunctionFrame ».
- [SPARK-45733] Prise en charge plusieurs stratégies de nouvelle tentative.
- [SPARK-45509] Correction du comportement de référence de colonne df pour Spark Connect.
- [SPARK-45655] Autoriser les expressions non déterministes dans les fonctions AggregateFunctions dans CollectMetrics.
- [SPARK-45905] Le type le moins commun entre les types décimaux doit conserver en premier les chiffres entiers.
- [SPARK-45136] Améliorer ClosureCleaner grâce à la prise en charge d’Ammonite.
- [SPARK-46255] Prise en charge de la conversion de chaînes -> de type complexe.
- [SPARK-45859] Objets UDF différés dans ml.functions.
- [SPARK-46028] Faire en sorte que Column.__getitem__ accepte la colonne d’entrée.
- [SPARK-45798] Valider l’ID de session côté serveur.
- [SPARK-45892] Refactoriser la validation du plan de l’optimiseur pour découpler validateSchemaOutput et validateExprIdUniqueness.
- [SPARK-45844] Implémenter l’insensibilité à la casse pour XML.
- [SPARK-45770] Introduction du plan DataFrameDropColumns pour Dataframe.drop.
- [SPARK-44790] XML : Implémenter to_xml et les liaisons pour Python, les connexions et SQL.
- [SPARK-45851] Prendre en charge plusieurs stratégies dans le client Scala.
- Mises à jour de sécurité du système d’exploitation
29 novembre 2023
- Nouveau package installé, pyarrow-hotfix pour corriger une vulnérabilité PyArrow RCE.
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques.
- [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
- [SPARK-45852] Le client Python pour Spark Connect détecte désormais les erreurs de récursivité lors de la conversion de texte.
- [SPARK-45808] Gestion améliorée des erreurs pour les exceptions SQL.
- [SPARK-45920]GROUP BY ordinal ne remplace pas ordinal.
- Rétablir [SPARK-45649].
- [SPARK-45733] Ajout de la prise en charge de plusieurs stratégies de nouvelle tentative.
- [SPARK-45509] Correction df du comportement de référence de colonne df pour Spark Connect.
- [SPARK-45655] Autorisation des expressions non déterministes dans AggregateFunctions dans CollectMetrics.
- [SPARK-45905] Le type le moins commun entre les types décimaux doit désormais conserver en premier les chiffres entiers.
- [SPARK-45136] Améliorer ClosureCleaner avec la prise en charge d’Ammonite.
- [SPARK-45859] Objets UDF rendus différés dans ml.functions.
- [SPARK-46028]Column.__getitem__ accepte les colonnes d’entrée.
- [SPARK-45798] Valider l’ID de session côté serveur.
- [SPARK-45892] Refactoriser la validation du plan de l’optimiseur pour découpler validateSchemaOutput et validateExprIdUniqueness.
- [SPARK-45844] Implémenter l’insensibilité à la casse pour XML.
- [SPARK-45770] Correction de la résolution de colonne avec DataFrameDropColumns pour Dataframe.drop.
- [SPARK-44790] Ajout de l’implémentation to_xml et de liaisons pour Python, Spark Connect et SQL.
- [SPARK-45851] Ajout de la prise en charge de plusieurs stratégies dans le client Scala.
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 14.1

Consultez Databricks Runtime 14.1 (EoS).

10 décembre 2024
- Mises à jour de sécurité du système d’exploitation
26 novembre 2024
- Mises à jour de sécurité du système d’exploitation
5 novembre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
22 octobre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
10 octobre 2024
- [BACKPORT] [SPARK-49474][SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs du schéma lors de l’élagage GetArrayStructFields
- Mises à jour de sécurité du système d’exploitation
25 septembre 2024
- [SPARK-49628][SQL] ConstantFolding devrait copier les expressions avec état avant de les évaluer
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic de corruption du shuffle
- [SPARK-48719][SQL] Corriger le bogue de calcul de ’ RegrS...
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- Mises à jour de sécurité du système d’exploitation
17 septembre 2024
- [SPARK-49526][CONNECT] Prise en charge des chemins d’accès de style Windows dans ArtifactManager
- Mises à jour de sécurité du système d’exploitation
29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion cohérente des options de lecture des Dataframes booléens
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer correctement les valeurs null.
14 août 2024
- [SPARK-48706][PYTHON] Les fonctions UDF Python dans les fonctions d’ordre supérieur ne doivent pas générer d’erreur interne
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48050][SS] Enregistrer le plan logique au début de la requête
1 août 2024
- Cette version inclut un correctif de bogue pour les classes ColumnVector et ColumnarArray de l’interface Java Spark. Avant ce correctif, une ArrayIndexOutOfBoundsException pouvait être levée, ou des données incorrectes pouvaient être retournées lorsqu’une instance de l’une de ces classes contenait des valeurs null.
- La sortie d’une instruction SHOW CREATE TABLE inclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne.
- [SPARK-48705][PYTHON] Utiliser explicitement worker_main lorsqu’il démarre avec pyspark.
- [SPARK-47202][PYTHON] Correction d’une faute de frappe qui perturbait les dates et heures avec tzinfo
- Mises à jour de sécurité du système d’exploitation
11 juillet 2024
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez .checkpoint() pour conserver l’état d’une table pendant toute la durée de vie d’un DataFrame.
- Cette version corrige un problème qui empêchait l’onglet Environnement de l’interface utilisateur Spark de s’afficher correctement lors de l’exécution dans Databricks Container Services.
- [SPARK-48475][PYTHON] Optimiser _get_jvm_function dans PySpark.
- [SPARK-48445][SQL] Ne pas intégrer les UDF (fonctions définies par l’utilisateur) avec des composants enfants coûteux
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan aux ensembles de données en streaming
- [SPARK-48292][CORE] Rétablir [SPARK-39195][SQL] Spark OutputCommitCoordinator doit interrompre l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48503][SQL] Corrigez les sous-requêtes scalaires non valides avec regroupement sur des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Correction de problèmes liés au saut des champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- Mises à jour de sécurité du système d’exploitation
17 juin 2024
- Correction d’un bug où l’optimisation de la fenêtre de classement à l’aide de Photon TopK gérait incorrectement les partitions avec des structures.
- [SPARK-48276][PYTHON][CONNECT] Ajouter la méthode __repr__ manquante pour SQLExpression
- [SPARK-48277] Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- Mises à jour de sécurité du système d’exploitation
21 mai 2024
- (Changement de comportement) La fonction dbutils.widgets.getAll() est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook.
- [SPARK-47994][SQL] Correction d’un bug avec le filtrage de colonne CASE WHEN dans SQLServer
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- [SPARK-48173][SQL] CheckAnalysis devrait afficher l’intégralité du plan de requête
- Mises à jour de sécurité du système d’exploitation
9 mai 2024
- [SPARK-47371][SQL] XML : Ignorer les balises de ligne trouvées dans CDATA
- [SPARK-47895][SQL] le regroupement par tous doit être idempotent.
- [SPARK-47956][SQL] Vérification de cohérence pour référence LCA non résolue
- [SPARK-48044][PYTHON][CONNECT] Cache DataFrame.isStreaming
- [SPARK-47973][CORE] Enregistrer l’appel dans SparkContext.stop(), puis dans SparkContext.assertNotStopped().
- Mises à jour de sécurité du système d’exploitation
25 avril 2024
- [SPARK-47704][SQL] L’analyse JSON échoue avec l’erreur « java.lang.ClassCastException » lorsque spark.sql.json.enablePartialResults est activé.
- [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite échoue avec un plan non valide
- Mises à jour de sécurité du système d’exploitation
11 avril 2024
- [SPARK-47638][PS][CONNECT] Ignorer la validation du nom de colonne dans PS
- [SPARK-38708][SQL] Mettre à niveau le client Metastore Hive de Hive 3.1 vers la version 3.1.3
- [SPARK-47309][SQL][XML] Ajouter des tests unitaires d’inférence de schéma
- [SPARK-47509][SQL] Bloquer les expressions de sous-requêtes dans les fonctions lambda et de ordre supérieur
- [SPARK-46990][SQL] Corriger le chargement des fichiers Avro vides émis par les hubs d’événements
- Mises à jour de sécurité du système d’exploitation
1 avril 2024
- [SPARK-47305][SQL] Corriger PruneFilters pour marquer correctement l’indicateur isStreaming de LocalRelation lorsque le plan comporte à la fois un traitement par lots et un traitement en continu
- [SPARK-47218][SQL] XML : Ignorer les balises de ligne commentées dans le tokenizer XML
- [SPARK-47300][SQL] quoteIfNeeded doit citer l’identifiant commençant par des chiffres
- [SPARK-47368][SQL] Supprimer la vérification de la configuration inferTimestampNTZ dans ParquetRowConverter
- [SPARK-47070] Correction d’une agrégation non valide après la réécriture d’une sous-requête
- [SPARK-47322][PYTHON][CONNECT] Rendre withColumnsRenamed la gestion des doublons dans les noms de colonnes cohérente avec withColumnRenamed
- [SPARK-47300] Correctif pour DecomposerSuite
- [SPARK-47218] [SQL] XML : Modification de SchemaOfXml pour échouer en mode DROPMALFORMED
- [SPARK-47385] Correction des encodeurs de tuples avec des entrées Option.
- Mises à jour de sécurité du système d’exploitation
14 mars 2024
- [SPARK-47176][SQL] Disposer d’une fonction d’aide ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Transmettre l’identifiant de la table au scan exec de la source de données de ligne pour la stratégie V2.
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
- [SPARK-47129][CONNECT][SQL] Faire en sorte que le cache ResolveRelations se connecte correctement au plan
- Rétablir « [SPARK-46861] [CORE] Éviter les blocages dans DAGScheduler
- [SPARK-47044][SQL] Ajouter la requête exécutée pour les sources de données externes JDBC afin d’expliquer la sortie
- Mises à jour de sécurité du système d’exploitation
29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la métrique d’opération numSourceRows de rapporter le double du nombre correct de lignes.
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose de privilèges SELECT et MODIFY sur ANY FILE.
- Vous pouvez désormais ingérer des fichiers XML à l’aide du chargeur automatique, de read_files, COPY INTO, des pipelines déclaratifs Lakeflow Spark et de DBSQL. La prise en charge des fichiers XML permet de déduire et de faire évoluer automatiquement les schémas, de récupérer les données présentant des incompatibilités de types, de valider les fichiers XML à l’aide de XSD et de prendre en charge les expressions SQL telles que from_xml, schema_of_xml et to_xml. Consultez Prise en charge de fichiers XML 1.3 pour en savoir plus. Si vous utilisiez auparavant le package externe spark-xml, consultez ici pour obtenir des conseils sur la migration.
- [SPARK-46248][SQL] XML : Prise en charge des options ignoreCorruptFiles et ignoreMissingFiles
- [SPARK-47059][SQL] Attacher un contexte d’erreur pour la commande ALTER COLUMN v1
- [SPARK-46954][SQL] XML : Wrap InputStreamReader avec BufferedReader
- [SPARK-46954][SQL] XML : Optimiser la recherche d’index de schéma
- [SPARK-46630][SQL] XML : Validation du nom de l’élément XML durant l’écriture
- Mises à jour de sécurité du système d’exploitation
8 février 2024
- Les requêtes CDF (Change Data Feed) sur les vues matérialisées Unity Catalog ne sont pas prises en charge. Toute tentative d’exécution d’une requête CDF avec une vue matérialisée Unity Catalog renvoie une erreur. Les tables de streaming Unity Catalog prennent en charge les requêtes CDF sur des tables CDC non automatiques dans Databricks Runtime 14.1 et versions ultérieures. Les requêtes CDF ne sont pas prises en charge avec les tables de streaming du catalogue Unity dans Databricks Runtime 14.0 et versions antérieures.
- [SPARK-46952] XML : limiter la taille des enregistrements corrompus.
- [SPARK-45182] Ignorer l’achèvement des tâches de l’ancienne étape après avoir réessayé l’étape parent indéterminée, comme déterminé par la somme de contrôle.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46933] Ajouter la métrique du temps d’exécution des requêtes aux connecteurs qui utilisent JDBCRDD.
- [SPARK-46861] Éviter le blocage dans DAGScheduler.
- [SPARK-45582] Assurez-vous que l’instance de magasin n’est pas utilisée après l’appel de commit dans l’agrégation de streaming en mode sortie.
- [SPARK-46930] Ajout de la prise en charge d’un préfixe personnalisé pour les champs de type Union dans Avro.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- [SPARK-46396] L’inférence de l’horodatage ne doit pas générer d’exception.
- [SPARK-46822] Respecter spark.sql.legacy.charVarcharAsString lors de la conversion du type jdbc en type catalyst dans jdbc.
- [SPARK-45957] Éviter de générer un plan d’exécution pour les commandes non exécutables.
- Mises à jour de sécurité du système d’exploitation
31 janv. 2024
- [SPARK-46684] Correction de CoGroup.applyInPandas/Arrow pour transmettre correctement les arguments.
- [SPARK-46763] Corriger une erreur d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs en double.
- [SPARK-45498] Followup : Ignorer l’achèvement des tâches provenant d’anciennes tentatives.
- [SPARK-46382] XML : Mise à jour de la documentation de ignoreSurroundingSpaces.
- [SPARK-46383] Réduire l’utilisation de la mémoire heap du pilote en réduisant la durée de vie de TaskInfo.accumulables().
- [SPARK-46382] XML : ignoreSurroundingSpaces défini par défaut sur true.
- [SPARK-46677] Régler la résolution de dataframe["*"].
- [SPARK-46676] dropDuplicatesWithinWatermark ne devrait pas échouer lors de la canonicalisation du plan.
- [SPARK-46633] Correction du lecteur Avro pour gérer les blocs de longueur nulle.
- [SPARK-45912] Amélioration de l’API XSDToSchema : modification de l’API HDFS pour l’accessibilité au stockage cloud.
- [SPARK-46599] XML : Utiliser TypeCoercion.findTightestCommonType pour vérifier la compatibilité.
- [SPARK-46382] XML : Capturer les valeurs intercalées entre les éléments.
- [SPARK-46769] Affiner l’inférence du schéma lié à l’horodatage.
- [SPARK-46610] La création d’une table doit générer une exception lorsqu’aucune valeur n’est définie pour une clé dans les options.
- [SPARK-45964] Supprimer l’accesseur SQL privé dans les paquets XML et JSON sous le paquet catalyst.
- Rétablir [SPARK-46769] Affiner l’inférence de schéma associée au horodatage.
- [SPARK-45962] Supprimer treatEmptyValuesAsNulls et utiliser l’option nullValue à la place dans XML.
- [SPARK-46541] Corriger la référence de colonne ambiguë dans l’auto-jointure.
- Mises à jour de sécurité du système d’exploitation
17 janv. 2024
- Le nœud shuffle du plan d’exécution renvoyé par une requête Photon est mis à jour pour ajouter l’indicateur causedBroadcastJoinBuildOOM=true lorsqu’une erreur de mémoire insuffisante se produit pendant un remaniement faisant partie d’une jointure de diffusion.
- Pour éviter une augmentation de la latence lors des communications via TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 afin de corriger le bogue JDK-8293562.
- [SPARK-46538] Corriger le problème de référence de colonne ambiguë dans ALSModel.transform.
- [SPARK-46417] Ne pas échouer lors de l’appel de hive.getTable et throwException est défini sur false.
- [SPARK-46484] Faites en sorte resolveOperators que les fonctions d’aide conservent l’identifiant du plan.
- [SPARK-46153] XML : Ajouter la prise en charge de TimestampNTZType.
- [SPARK-46152] XML : Ajouter la prise en charge du type DecimalType dans l’inférence de schéma XML.
- [SPARK-46145] spark.catalog.listTables ne génère pas d’exception lorsque la table ou la vue est introuvable.
- [SPARK-46478] Rétablir SPARK-43049 pour utiliser oracle varchar(255) pour les chaînes de caractères.
- [SPARK-46394] Correction des problèmes liés à spark.catalog.listDatabases() sur les schémas contenant des caractères spéciaux lorsque spark.sql.legacy.keepCommandOutputSchema est définie sur true.
- [SPARK-46337] Faire en sorte que CTESubstitution conserve le PLAN_ID_TAG.
- [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais effectuer de rebase pour l’horodatage ntz.
- [SPARK-46587] XML : Corriger la conversion des grands entiers XSD.
- [SPARK-45814] Faire en sorte que ArrowConverters.createEmptyArrowBatch appelle close() pour éviter les fuites de mémoire.
- [SPARK-46132] Prise en charge des mots de passe des clés JKS pour RPC SSL.
- [SPARK-46602] Propagation de allowExisting lors de la création d’une vue quand la vue ou la table n’existe pas.
- [SPARK-46173] Ignorer l’appel trimAll pendant l’analyse de la date.
- [SPARK-46355] XML : Fermer InputStreamReader à la fin d’une lecture.
- [SPARK-46600] Déplacer le code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
- [SPARK-46261]DataFrame.withColumnsRenamed doit conserver l’ordre dict/map.
- [SPARK-46056] Correction de l’erreur NPE de lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
- [SPARK-46260]DataFrame.withColumnsRenamed doit respecter l’ordre des dict.
- [SPARK-46250] Défléchir test_parity_listener.
- [SPARK-46370] Correction d’un bug lors de l’interrogation d’une table après modification des valeurs par défaut des colonnes.
- [SPARK-46609] Éviter l’explosion exponentielle dans PartitioningPreservingUnaryExecNode.
- [SPARK-46058] Ajouter un indicateur distinct pour privateKeyPassword.
14 décembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient mal gérés et interprétés comme des caractères génériques.
- [SPARK-45509] Correction du comportement de référence de colonne df pour Spark Connect.
- [SPARK-45844] Implémenter l’insensibilité à la casse pour XML.
- [SPARK-46141] Modifier la valeur par défaut de spark.sql.legacy.ctePrecedencePolicy en CORRECTED.
- [SPARK-46028] Faire en sorte que Column.__getitem__ accepte la colonne d’entrée.
- [SPARK-46255] Prise en charge de la conversion de chaînes -> de type complexe.
- [SPARK-45655] Autoriser les expressions non déterministes dans les fonctions AggregateFunctions dans CollectMetrics.
- [SPARK-45433] Correction de l’inférence du schéma CSV/JSON lorsque les horodatages ne correspondent pas au format d’horodatage spécifié.
- [SPARK-45316] Ajout de nouveaux paramètres ignoreCorruptFiles/ignoreMissingFiles à HadoopRDD et NewHadoopRDD.
- [SPARK-45852] Gérer avec élégance les erreurs de récursivité lors de la journalisation.
- [SPARK-45920] group by ordinal doit être idempotent.
- Mises à jour de sécurité du système d’exploitation
29 novembre 2023
- Nouveau package installé, pyarrow-hotfix pour corriger une vulnérabilité PyArrow RCE.
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques.
- Lors de l’ingestion de données CSV à l’aide d’Auto Loader ou de tables en streaming, les fichiers CSV volumineux peuvent désormais être fractionnés et traités en parallèle pendant l’inférence du schéma et le traitement des données.
- [SPARK-45892] Refactoriser la validation du plan de l’optimiseur pour découpler validateSchemaOutput et validateExprIdUniqueness.
- [SPARK-45620] Les API liées à Python UDF utilisent désormais le camelCase.
- [SPARK-44790] Ajout de l’implémentation to_xml et de liaisons pour Python, Spark Connect et SQL.
- [SPARK-45770] Correction de la résolution de colonne avec DataFrameDropColumns pour Dataframe.drop.
- [SPARK-45859] Objets UDF rendus différés dans ml.functions.
- [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
- [SPARK-44784] Le test SBT est désormais hermétique.
- Mises à jour de sécurité du système d’exploitation
10 novembre 2023
- [SPARK-45545]SparkTransportConf hérite SSLOptions lors de la création.
- [SPARK-45250] Ajout de la prise en charge du profil de ressources des tâches au niveau de l’étape pour les clusters Yarn lorsque l’allocation dynamique est désactivée.
- [SPARK-44753] Ajout d’un lecteur et d’un éditeur XML DataFrame pour PySpark SQL.
- [SPARK-45396] Ajout d’une entrée de document pour le module PySpark.ml.connect.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
- [SPARK-45541] Ajout de SSLFactory.
- [SPARK-45577] Correction de UserDefinedPythonTableFunctionAnalyzeRunner pour transmettre les valeurs pliées à partir d’arguments nommés.
- [SPARK-45562] A fait de « rowTag » une option requise.
- [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
- [SPARK-43380] Correction du ralentissement dans la lecture Avro.
- [SPARK-45430]FramelessOffsetWindowFunction n’échoue plus lorsque IGNORE NULLS et offset > rowCount.
- [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
- [SPARK-45386] Correction d’un problème qui renvoyait StorageLevel.NONE incorrectement la valeur 0.
- [SPARK-44219] Ajout de vérifications de validation par règle pour les réécritures d’optimisation.
- [SPARK-45543] Correction d’un problème où InferWindowGroupLimit posait un problème lorsque les autres fonctions de fenêtre n’avaient pas le même cadre de fenêtre que les fonctions de classement.
- Mises à jour de sécurité du système d’exploitation
27 septembre 2023
- [SPARK-44823] Mise à jour de black vers 23.9.1 et correction d’une vérification erronée.
- [SPARK-45339] PySpark enregistre désormais les erreurs qu’il tente de corriger.
- Rétablissez [SPARK-42946] Données sensibles expurgées et remplacées par des variables.
- [SPARK-44551] Commentaires modifiés pour synchronisation avec OSS.
- [SPARK-45360] Le générateur de session Spark prend en charge l’initialisation à partir de SPARK_REMOTE.
- [SPARK-45279]plan_id est joint à tous les plans logiques.
- [SPARK-45425] Mappage de TINYINT à ShortType pour MsSqlServerDialect.
- [SPARK-45419] Suppression de l’entrée de la carte des versions des fichiers plus volumineux afin d’éviter la réutilisation des identifiants rocksdb de fichiers sst.
- [SPARK-45488] Ajout de la prise en charge de la valeur dans l’élément rowTag.
- [SPARK-42205] Suppression de la journalisation des Accumulables dans les événements de démarrage Task/Stage dans les journaux des événements JsonProtocol.
- [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
- [SPARK-45256]DurationWriteréchoue lors de l’écriture d’un nombre de valeurs supérieur à la capacité initiale.
- [SPARK-43380] Correction Avro des problèmes de conversion des types de données sans entraîner de régression des performances.
- [SPARK-45182] Ajout de la prise en charge de la restauration de l’étape de carte aléatoire afin que toutes les tâches de l’étape puissent être réessayées lorsque la sortie de l’étape est indéterminée.
- [SPARK-45399] Ajout d’options XML avec newOption.
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 14.0

Consultez Databricks Runtime 14.0 (EoS).

8 février 2024
- [SPARK-46396] L’inférence de l’horodatage ne doit pas générer d’exception.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-45182] Ignorer l’achèvement des tâches de l’ancienne étape après avoir réessayé l’étape parent indéterminée, comme déterminé par la somme de contrôle.
- [SPARK-46933] Ajouter la métrique du temps d’exécution des requêtes aux connecteurs qui utilisent JDBCRDD.
- [SPARK-45957] Éviter de générer un plan d’exécution pour les commandes non exécutables.
- [SPARK-46861] Éviter le blocage dans DAGScheduler.
- [SPARK-46930] Ajout de la prise en charge d’un préfixe personnalisé pour les champs de type Union dans Avro.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- [SPARK-45582] Assurez-vous que l’instance de magasin n’est pas utilisée après l’appel de commit dans l’agrégation de streaming en mode sortie.
- Mises à jour de sécurité du système d’exploitation
31 janv. 2024
- [SPARK-46541] Corriger la référence de colonne ambiguë dans l’auto-jointure.
- [SPARK-46676] dropDuplicatesWithinWatermark ne devrait pas échouer lors de la canonicalisation du plan.
- [SPARK-46769] Affiner l’inférence du schéma lié à l’horodatage.
- [SPARK-45498] Followup : Ignorer l’achèvement des tâches provenant d’anciennes tentatives.
- Rétablir [SPARK-46769] Affiner l’inférence de schéma associée au horodatage.
- [SPARK-46383] Réduire l’utilisation de la mémoire heap du pilote en réduisant la durée de vie de TaskInfo.accumulables().
- [SPARK-46633] Correction du lecteur Avro pour gérer les blocs de longueur nulle.
- [SPARK-46677] Régler la résolution de dataframe["*"].
- [SPARK-46684] Correction de CoGroup.applyInPandas/Arrow pour transmettre correctement les arguments.
- [SPARK-46763] Corriger une erreur d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs en double.
- [SPARK-46610] La création d’une table doit générer une exception lorsqu’aucune valeur n’est définie pour une clé dans les options.
- Mises à jour de sécurité du système d’exploitation
17 janv. 2024
- Le nœud shuffle du plan d’exécution renvoyé par une requête Photon est mis à jour pour ajouter l’indicateur causedBroadcastJoinBuildOOM=true lorsqu’une erreur de mémoire insuffisante se produit pendant un remaniement faisant partie d’une jointure de diffusion.
- Pour éviter une augmentation de la latence lors des communications via TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 afin de corriger le bogue JDK-8293562.
- [SPARK-46394] Correction des problèmes liés à spark.catalog.listDatabases() sur les schémas contenant des caractères spéciaux lorsque spark.sql.legacy.keepCommandOutputSchema est définie sur true.
- [SPARK-46250] Défléchir test_parity_listener.
- [SPARK-45814] Faire en sorte que ArrowConverters.createEmptyArrowBatch appelle close() pour éviter les fuites de mémoire.
- [SPARK-46173] Ignorer l’appel trimAll pendant l’analyse de la date.
- [SPARK-46484] Faites en sorte resolveOperators que les fonctions d’aide conservent l’identifiant du plan.
- [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais effectuer de rebase pour l’horodatage ntz.
- [SPARK-46056] Correction de l’erreur NPE de lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
- [SPARK-46058] Ajouter un indicateur distinct pour privateKeyPassword.
- [SPARK-46478] Rétablir SPARK-43049 pour utiliser oracle varchar(255) pour les chaînes de caractères.
- [SPARK-46132] Prise en charge des mots de passe des clés JKS pour RPC SSL.
- [SPARK-46417] Ne pas échouer lors de l’appel de hive.getTable et throwException est défini sur false.
- [SPARK-46261]DataFrame.withColumnsRenamed doit conserver l’ordre dict/map.
- [SPARK-46370] Correction d’un bug lors de l’interrogation d’une table après modification des valeurs par défaut des colonnes.
- [SPARK-46609] Éviter l’explosion exponentielle dans PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Déplacer le code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
- [SPARK-46538] Corriger le problème de référence de colonne ambiguë dans ALSModel.transform.
- [SPARK-46337] Faire en sorte que CTESubstitution conserve le PLAN_ID_TAG.
- [SPARK-46602] Propagation de allowExisting lors de la création d’une vue quand la vue ou la table n’existe pas.
- [SPARK-46260]DataFrame.withColumnsRenamed doit respecter l’ordre des dict.
- [SPARK-46145] spark.catalog.listTables ne génère pas d’exception lorsque la table ou la vue est introuvable.
14 décembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient mal gérés et interprétés comme des caractères génériques.
- [SPARK-46255] Prise en charge de la conversion de chaînes -> de type complexe.
- [SPARK-46028] Faire en sorte que Column.__getitem__ accepte la colonne d’entrée.
- [SPARK-45920] group by ordinal doit être idempotent.
- [SPARK-45433] Correction de l’inférence du schéma CSV/JSON lorsque les horodatages ne correspondent pas au format d’horodatage spécifié.
- [SPARK-45509] Correction du comportement de référence de colonne df pour Spark Connect.
- Mises à jour de sécurité du système d’exploitation
29 novembre 2023
- Nouveau package installé, pyarrow-hotfix pour corriger une vulnérabilité PyArrow RCE.
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques.
- Lors de l’ingestion de données CSV à l’aide d’Auto Loader ou de tables en streaming, les fichiers CSV volumineux peuvent désormais être fractionnés et traités en parallèle pendant l’inférence du schéma et le traitement des données.
- Le connecteur Spark-snowflake a été mis à jour vers la version 2.12.0.
- [SPARK-45859] Objets UDF rendus différés dans ml.functions.
- Rétablir [SPARK-45592].
- [SPARK-45892] Refactoriser la validation du plan de l’optimiseur pour découpler validateSchemaOutput et validateExprIdUniqueness.
- [SPARK-45592] Correction d’un problème d’exactitude dans AQE avec InMemoryTableScanExec.
- [SPARK-45620] Les API liées à Python UDF utilisent désormais le camelCase.
- [SPARK-44784] Le test SBT est désormais hermétique.
- [SPARK-45770] Correction de la résolution de colonne avec DataFrameDropColumns pour Dataframe.drop.
- [SPARK-45544] Prise en charge SSL intégrée dans TransportContext.
- [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
- Mises à jour de sécurité du système d’exploitation
10 novembre 2023
- Modification des requêtes de flux de données sur les tables de streaming Unity Catalog et les vues matérialisées afin d’afficher les messages d’erreur.
- [SPARK-45545]SparkTransportConf hérite SSLOptions lors de la création.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
- [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
- [SPARK-45541] Ajout de SSLFactory.
- [SPARK-45430]FramelessOffsetWindowFunction n’échoue plus lorsque IGNORE NULLS et offset > rowCount.
- [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
- [SPARK-44219] Ajout de validations supplémentaires par règle pour les réécritures d’optimisation.
- [SPARK-45543] Correction d’un problème où InferWindowGroupLimit a généré une erreur si les autres fonctions de fenêtre n'ont pas le même cadre de fenêtre que les fonctions de classement de type "rang".
- Mises à jour de sécurité du système d’exploitation
23 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
- [SPARK-45396] Ajout d’une entrée de document pour le module PySpark.ml.connect, et ajout de Evaluator à __all__ pour ml.connect.
- [SPARK-45256] Correction d’un problème à cause duquel DurationWriter échouait lors de l’écriture de plus de valeurs que la capacité initiale.
- [SPARK-45279]plan_id est joint à tous les plans logiques.
- [SPARK-45250] Ajout de la prise en charge du profil de ressources des tâches au niveau de l’étape pour les clusters Yarn lorsque l’allocation dynamique est désactivée.
- [SPARK-45182] Ajout de la prise en charge de la restauration de l’étape de carte aléatoire afin que toutes les tâches de l’étape puissent être réessayées lorsque la sortie de l’étape est indéterminée.
- [SPARK-45419] Évitez de réutiliser les fichiers rocksdb sst dans une autre instance rocksdb en supprimant les entrées de carte des versions de fichiers plus volumineuses.
- [SPARK-45386] Correction d’un problème qui renvoyait StorageLevel.NONE incorrectement la valeur 0.
- Mises à jour de sécurité du système d’exploitation
13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 vers 3.13.33.
- La fonction array_insert est basée sur 1 pour les index positifs et négatifs, alors qu’auparavant, il était basé sur 0 pour les index négatifs. Il insère désormais un nouvel élément à la fin des tableaux d’entrée pour l’index -1. Pour restaurer le comportement précédent, affectez à spark.sql.legacy.negativeIndexInArrayInsert la valeur true.
- Azure Databricks n’ignore plus les fichiers corrompus lorsque l’inférence de schéma CSV avec Auto Loader a activé ignoreCorruptFiles.
- [SPARK-45227] Correction d’un léger problème de sécurité des threads avec CoarseGrainedExecutorBackend.
- [SPARK-44658]ShuffleStatus.getMapStatus doit renvoyer None au lieu de Some(null).
- [SPARK-44910]Encoders.bean ne prend pas en charge les superclasses avec des arguments de type générique.
- [SPARK-45346] L’inférence de schéma Parquet respecte les indicateurs respectant la casse lors de la fusion d’un schéma.
- Rétablir [SPARK-42946].
- [SPARK-42205] Mise à jour du protocole JSON afin de supprimer la journalisation des éléments cumulables dans les événements de démarrage d’une tâche ou d’une étape.
- [SPARK-45360] Le générateur de session Spark prend en charge l’initialisation à partir de SPARK_REMOTE.
- [SPARK-45316] Ajout de nouveaux paramètres ignoreCorruptFiles/ignoreMissingFiles à HadoopRDD et NewHadoopRDD.
- [SPARK-44909] Ignorer l’exécution du serveur de streaming du journal du distributeur de torches lorsqu’il n’est pas disponible.
- [SPARK-45084]StateOperatorProgress utilise désormais un numéro de partition aléatoire précis.
- [SPARK-45371] Correction de problèmes d’ombrage dans le client Spark Connect Scala.
- [SPARK-45178] Revenir à l’exécution d’un seul lot pour Trigger.AvailableNow les sources non prises en charge plutôt que d’utiliser le wrapper.
- [SPARK-44840] Utilisez array_insert() une base 1 pour les index négatifs.
- [SPARK-44551] Commentaires modifiés pour synchronisation avec OSS.
- [SPARK-45078] La fonction ArrayInsert effectue désormais une conversion explicite lorsque le type de l’élément n’est pas égal au type du composant dérivé.
- [SPARK-45339] Pyspark consigne maintenant les erreurs de nouvelle tentative.
- [SPARK-45057] Éviter d’acquérir un verrou en lecture lorsque la valeur de keepReadLock est false.
- [SPARK-44908] Correction de la fonctionnalité du paramètre foldCol de validation croisée.
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 13.1

Consultez Databricks Runtime 13.1 (EoS).

29 novembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques.
- [SPARK-44846] Suppression des expressions de regroupement complexes après RemoveRedundantAggregates.
- [SPARK-43802] Correction d’un problème qui empêchait le générateur de code de fonctionner correctement pour les expressions unhex et unbase64.
- [SPARK-43718] Correction de la nullabilité des clés dans les jointures USING.
- Mises à jour de sécurité du système d’exploitation
14 novembre 2023
- Les filtres de partition sur les requêtes de streaming Delta Lake sont poussés vers le bas avant la limitation du débit afin d’optimiser l’utilisation.
- Modification des requêtes de flux de données sur les tables Unity Catalog Streaming et les vues matérialisées afin d’afficher les messages d’erreur.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
- [SPARK-45430]FramelessOffsetWindowFunction n’échoue plus lorsque IGNORE NULLS et offset > rowCount.
- [SPARK-45543] Correction d’un problème où InferWindowGroupLimit posait un problème lorsque les autres fonctions de fenêtre n’avaient pas le même cadre de fenêtre que les fonctions de classement.
- Mises à jour de sécurité du système d’exploitation
24 octobre 2023
- [SPARK-43799] Ajout du descripteur option binaire à l’API Protobuf PySpark.
- Rétablir [SPARK-42946].
- [SPARK-45346] L’inférence de schéma Parquet respecte désormais l’indicateur respectant la casse lors de la fusion d’un schéma.
- Mises à jour de sécurité du système d’exploitation
13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 vers 3.13.33.
- Ne plus ignorer les fichiers endommagés lorsque ignoreCorruptFiles est activé lors de la déduction du schéma CSV avec Auto Loader.
- [SPARK-44658]ShuffleStatus.getMapStatus renvoie None au lieu de Some(null).
- [SPARK-45178] Revenir à l’exécution d’un seul lot pour Trigger.AvailableNow les sources non prises en charge plutôt que d’utiliser le wrapper.
- [SPARK-42205] Mise à jour du protocole JSON afin de supprimer la journalisation des éléments cumulables dans les événements de démarrage d’une tâche ou d’une étape.
- Mises à jour de sécurité du système d’exploitation
12 septembre 2023
- [SPARK-44718] Remplacer ColumnVector la valeur par défaut du mode mémoire par la valeur de configuration OffHeapMemoryMode.
- SPARK-44878 Désactivation de la limite stricte pour le gestionnaire d’écriture RocksDB afin d’éviter une exception d’insertion lors de la fin du cache.
- Correctifs divers
30 août 2023
- [SPARK-44871] Correction du comportement percentile_disc.
- [SPARK-44714] Assouplir les restrictions relatives à la résolution LCA concernant les requêtes.
- [SPARK-44245]PySpark.sql.dataframe sample() Les tests de documents sont désormais uniquement présentés à titre illustratif.
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de taskThread.
- Mises à jour de sécurité du système d’exploitation
15 août 2023
- [SPARK-44485] Optimisation de TreeNode.generateTreeString.
- [SPARK-44643] Correction de Row.__repr__ quand la ligne est vide.
- [SPARK-44504] La tâche de maintenance nettoie maintenant les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-44479] Correction de la conversion de protobuf depuis un type de structure vide.
- [SPARK-44464] Correction de applyInPandasWithStatePythonRunner pour les lignes de sortie qui présentent Null en tant que première valeur de colonne.
- Correctifs divers
27 juillet 2023
- Correction d’un problème où dbutils.fs.ls() renvoyait INVALID_PARAMETER_VALUE.LOCATION_OVERLAP lorsqu’un chemin d’accès à un emplacement de stockage était appelé et entrait en conflit avec un autre emplacement de stockage externe ou géré.
- [SPARK-44199]CacheManager n’actualise plus le fileIndex inutilement.
- [SPARK-44448] Correction d’un bug qui affichait des résultats erronés provenant de DenseRankLimitIterator et InferWindowGroupLimit.
- Mises à jour de sécurité du système d’exploitation
24 juillet 2023
- Rétablir [SPARK-42323].
- [SPARK-41848] Problème de dépassement du calendrier des tâches fixes résolu avec TaskResourceProfile.
- [SPARK-44136] Correction d’un problème où StateManager se matérialisait dans un exécuteur au lieu du pilote dans FlatMapGroupsWithStateExec.
- [SPARK-44337] Correction d’un problème où tout champ défini sur Any.getDefaultInstance causait des erreurs d’analyse.
- Mises à jour de sécurité du système d’exploitation
27 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- approx_count_distinct photonisé.
- L’analyseur JSON en mode failOnUnknownFields supprime désormais un enregistrement dans le mode DROPMALFORMED et échoue directement en mode FAILFAST.
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- Le champs d’attributs PubSubRecord est stocké au format JSON plutôt qu’au format chaîne à partir d’une carte Scala afin de simplifier la sérialisation et la désérialisation.
- La commande EXPLAIN EXTENDED renvoie désormais l’éligibilité du cache de résultats de la requête.
- Améliorez les performances des mises à jour incrémentielles avec SHALLOW CLONE Apache Iceberg et Parquet.
- [SPARK-43032] Correctif de bogue Python SQM.
- [SPARK-43404]Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter l’erreur d’incohérence d’ID.
- [SPARK-43340] Gérer le champ stack-trace manquant dans les journaux d’événements.
- [SPARK-43527] Correction de catalog.listCatalogs dans PySpark.
- [SPARK-43541] Propagation de toutes les balises Project dans la résolution des expressions et des colonnes manquantes.
- [SPARK-43300]NonFateSharingCache Enveloppe pour Guava Cache.
- [SPARK-43378] Fermer correctement les objets de flux dans deserializeFromChunkedBuffer.
- [SPARK-42852] Annuler les modifications associées à NamedLambdaVariable depuis EquivalentExpressions.
- [SPARK-43779]ParseToDate se charge désormais EvalMode dans le thread principal.
- [SPARK-43413] Correction de la nullité des sous-requêtes INListQuery.
- [SPARK-43889] Ajouter une vérification du nom de colonne pour __dir__() pour filtrer les noms de colonnes susceptibles de contenir des erreurs.
- [SPARK-43043] Optimisation des performances de MapOutputTracker.updateMapOutput
- [SPARK-43522] Correction de la création du nom de la colonne de structure avec l’index du tableau.
- [SPARK-43457] Ajouter à l’agent utilisateur les versions du système d’exploitation, de Python et de Spark.
- [SPARK-43286] Mise à jour du mode CBC aes_encrypt afin de générer des images virtuelles aléatoires.
- [SPARK-42851] Guard EquivalentExpressions.addExpr() avec supportedExpression().
- Rétablir [SPARK-43183].
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 12.2 LTS

Consultez Databricks Runtime 12.2 LTS.

29 novembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques.
- [SPARK-42205] Suppression des données cumulées dans les journaux Stage et les événements de début Task.
- [SPARK-44846] Suppression des expressions de regroupement complexes après RemoveRedundantAggregates.
- [SPARK-43718] Correction de la nullabilité des clés dans les jointures USING.
- [SPARK-45544] Prise en charge SSL intégrée dans TransportContext.
- [SPARK-43973] L’interface utilisateur Structured Streaming affiche désormais correctement les requêtes ayant échoué.
- [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
- [SPARK-45859] Objets UDF rendus différés dans ml.functions.
- Mises à jour de sécurité du système d’exploitation
14 novembre 2023
- Les filtres de partition sur les requêtes de streaming Delta Lake sont poussés vers le bas avant la limitation du débit afin d’optimiser l’utilisation.
- [SPARK-45545]SparkTransportConf hérite SSLOptions lors de la création.
- [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
- [SPARK-45541] Ajout de SSLFactory.
- [SPARK-45430]FramelessOffsetWindowFunction n’échoue plus lorsque IGNORE NULLS et offset > rowCount.
- [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
- Mises à jour de sécurité du système d’exploitation
24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
- Correctifs divers
13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 vers 3.13.33.
- [SPARK-42553] Veillez à respecter un intervalle d’au moins une unité de temps.
- [SPARK-45346] L’inférence de schéma Parquet respecte l’indicateur respectant la casse lors de la fusion d’un schéma.
- [SPARK-45178] Revenir à l’exécution d’un seul lot pour Trigger.AvailableNow les sources non prises en charge plutôt que d’utiliser le wrapper.
- [SPARK-45084]StateOperatorProgress pour utiliser un numéro de partition aléatoire précis et adéquat.
12 septembre 2023
- [SPARK-44873] Prise en charge de alter view avec des colonnes imbriquées dans le client Hive.
- [SPARK-44718] Remplacer ColumnVector la valeur par défaut du mode mémoire par la valeur de configuration OffHeapMemoryMode.
- [SPARK-43799] Ajout du descripteur option binaire à l’API Protobuf PySpark.
- Correctifs divers
30 août 2023
- [SPARK-44485] Optimisation de TreeNode.generateTreeString.
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de taskThread.
- [SPARK-44871][11.3-13.0] Correction du comportement de percentile_disc.
- [SPARK-44714] Assouplissement des restrictions relatives à la résolution LCA concernant les requêtes.
- Mises à jour de sécurité du système d’exploitation
15 août 2023
- [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-44464] Correction de applyInPandasWithStatePythonRunner pour les lignes de sortie qui présentent Null en tant que première valeur de colonne.
- Mises à jour de sécurité du système d’exploitation
29 juillet 2023
- Correction d’un problème où dbutils.fs.ls() renvoyait INVALID_PARAMETER_VALUE.LOCATION_OVERLAP lorsqu’un chemin d’accès à un emplacement de stockage était appelé et entrait en conflit avec un autre emplacement de stockage externe ou géré.
- [SPARK-44199]CacheManager n’actualise plus le fileIndex inutilement.
- Mises à jour de sécurité du système d’exploitation
24 juillet 2023
- [SPARK-44337] Correction d’un problème où tout champ défini sur Any.getDefaultInstance causait des erreurs d’analyse.
- [SPARK-44136] Correction d’un problème où StateManager se matérialisait dans un exécuteur au lieu du pilote dans FlatMapGroupsWithStateExec.
- Mises à jour de sécurité du système d’exploitation
23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- approx_count_distinct photonisé.
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- [SPARK-43779]ParseToDate se charge désormais EvalMode dans le thread principal.
- [SPARK-43156][SPARK-43098] Test de l’erreur liée au nombre de sous-requêtes scalaires étendues avec decorrelateInnerQuery désactivation.
- Mises à jour de sécurité du système d’exploitation
2 juin 2023
- L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement dans le mode DROPMALFORMED et échoue directement en mode FAILFAST.
- Renforcez les performances des mises à jour incrémentielles avec SHALLOW CLONE Iceberg et Parquet.
- Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-43404]Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter l’erreur d’incohérence d’ID.
- [SPARK-43413][11.3-13.0] Correction de la nullité des sous-requêtes INListQuery.
- [SPARK-43522] Correction de la création du nom de la colonne de structure avec l’index du tableau.
- [SPARK-43541] Propagation de toutes les balises Project dans la résolution des expressions et des colonnes manquantes.
- [SPARK-43527] Correction de catalog.listCatalogs dans PySpark.
- [SPARK-43123] Les métadonnées internes des champs ne fuient plus vers les catalogues.
- [SPARK-43340] Correction du champ stack-trace manquant dans les journaux d’événements.
- [SPARK-42444]DataFrame.drop traite désormais correctement les colonnes dupliquées.
- [SPARK-42937]PlanSubqueries définit maintenant InSubqueryExec#shouldBroadcast sur true.
- [SPARK-43286] Mise à jour du mode CBC aes_encrypt afin de générer des images virtuelles aléatoires.
- [SPARK-43378] Fermer correctement les objets de flux dans deserializeFromChunkedBuffer.
17 mai 2023
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
- Si un fichier Avro était lu avec uniquement l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution du schéma failOnNewColumns, les colonnes ayant des types de données différents seraient lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn.
- Auto Loader effectue désormais les opérations suivantes.
- - Lit correctement et ne récupère plus les types Integer etShort et Byte si l’un de ces types de données est fourni, mais que le fichier Avro suggère l’un des deux autres types.
- - Empêche la lecture des types d’intervalle comme des types de date ou d’horodatage afin d’éviter toute corruption des dates.
- - Empêche la lecture des types Decimal dont la précision est moindre.
- [SPARK-43172] Expose l’hôte et le jeton du client Spark Connect.
- [SPARK-43293]__qualified_access_only est ignoré dans les colonnes normales.
- [SPARK-43098] Correction d’un bug d’exactitude COUNT lorsque la sous-requête scalaire est regroupée par clause.
- [SPARK-43085] Prise en charge de l’attribution des colonnes DEFAULT pour les noms de tables en plusieurs parties.
- [SPARK-43190]ListQuery.childOutput est désormais cohérent avec les données de sortie secondaires.
- [SPARK-43192] Suppression de la validation du jeu de caractères de l’agent utilisateur.
- Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet était lu avec uniquement l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution du schéma failOnNewColumns, les colonnes ayant des types de données différents seraient lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn.
- Auto Loader lit désormais correctement et ne récupère plus les typesInteger, Short et Byte si l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données récupérées était précédemment activée, l’incompatibilité des types de données entraînait l’enregistrement des colonnes même si elles étaient lisibles.
- [SPARK-43009] Paramétrisation de sql() avec des constantes Any
- [SPARK-42406] Terminer les champs récursifs Protobuf en supprimant le champ
- [SPARK-43038] Prise en charge du mode CBC en aes_encrypt()/aes_decrypt()
- [SPARK-42971] Passer à l’impression workdir si appDirs est nul lorsque le gestionnaire traite l’événement WorkDirCleanup
- [SPARK-43018] Correction d’un bogue pour les commandes INSERT avec des littéraux d’horodatage
- Mises à jour de sécurité du système d’exploitation
mardi 11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande SYNC.
- Correction d’un problème dans le comportement %autoreload dans les notebooks en dehors d’un référentiel.
- Correction d’un problème où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42928] Synchronise resolvePersistentFunction.
- [SPARK-42936] Correction d’un problème LCan lorsque la clause peut être résolue directement par son agrégat enfant.
- [SPARK-42967] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche démarre après l’annulation de l’étape.
- Mises à jour de sécurité du système d’exploitation
29 mars 2023
- Databricks SQL prend désormais en charge la spécification de valeurs par défaut pour les colonnes des tables Delta Lake, soit lors de la création de la table, soit ultérieurement. Les commandes INSERT, UPDATE, DELETE, et MERGE suivantes peuvent faire référence à la valeur par défaut de n'importe quelle colonne en utilisant le mot clé explicite DEFAULT. De plus, si une INSERT affectation comporte une liste explicite de colonnes moins nombreuses que la table cible, les valeurs par défaut des colonnes correspondantes sont substituées aux colonnes restantes (ou NULL si aucune valeur par défaut n’est spécifiée).
  
  Par exemple :
```
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE());
INSERT INTO t VALUES (0, DEFAULT);
INSERT INTO t VALUES (1, DEFAULT);
SELECT first, second FROM t;
\> 0, 2023-03-28
1, 2023-03-28z
```
- Auto Loader lance désormais au moins un nettoyage synchrone du journal RocksDB pour les flux Trigger.AvailableNow afin de vérifier que le point de contrôle peut être nettoyé régulièrement pour les flux Auto Loader à exécution rapide. Cela peut entraîner un allongement du temps nécessaire à la fermeture de certains flux, mais cela vous permettra de réduire vos coûts de stockage et d’améliorer l’expérience Auto Loader lors des prochaines exécutions.
- Vous pouvez désormais modifier une table Delta pour ajouter la prise en charge des fonctionnalités de table à l’aide de DeltaTable.addFeatureSupport(feature_name).
- [SPARK-42794] Augmenter la valeur lockAcquireTimeoutMs à 2 minutes pour acquérir le magasin d’état RocksDB dans Structure Streaming
- [SPARK-42521] Ajouter des valeurs NULL pour les INSERT avec des listes spécifiées par l’utilisateur comportant moins de colonnes que la table cible
- [SPARK-42702][SPARK-42623] Prise en charge des requêtes paramétrées dans les sous-requêtes et les CTE
- [SPARK-42668] Intercepter l’exception lors de la fermeture du flux compressé dans HDFSStateStoreProvider stop
- [SPARK-42403] JsonProtocol doit gérer les chaînes JSON nulles
8 mars 2023
- Le message d’erreur « Échec de l’initialisation de la configuration » a été amélioré afin de fournir davantage de contexte au client.
- Un changement de terminologie a été introduit pour ajouter des fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe privilégiée est désormais 'delta.feature.featureName'='supported' au lieu de 'delta.feature.featureName'='enabled'. Pour des raisons de compatibilité ascendante, l’utilisation de 'delta.feature.featureName'='enabled' fonctionne toujours et continuera de fonctionner.
- À partir de cette version, il est possible de créer/remplacer une table avec une propriété de table supplémentaire delta.ignoreProtocolDefaults afin d’ignorer les configurations Spark liées au protocole, notamment les versions par défaut du lecteur et du rédacteur, ainsi que les fonctionnalités de table prises en charge par défaut.
- [SPARK-42070] Modifier la valeur par défaut de l’argument de la fonction Mask de -1 à NULL.
- [SPARK-41793] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur des décimales significatives
- [SPARK-42484] UnsafeRowUtils : message d’erreur amélioré
- [SPARK-42516] Toujours enregistrer la configuration du fuseau horaire de la session lors de la création de vues
- [SPARK-42635] Correction de l’expression TimestampAdd.
- [SPARK-42622] Substitution désactivée dans les valeurs
- [SPARK-42534] Correction de la clause DB2Dialect Limit
- [SPARK-42121] Ajout des fonctions intégrées de type table posexplode, posexplode_outer, json_tuple et stack
- [SPARK-42045] Mode ANSI SQL : Round/Bround doit renvoyer une erreur en cas de dépassement de capacité des entiers minuscules/petits/significatifs
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 11.3 LTS

Consultez Databricks Runtime 11.3 LTS (EoS).

4 novembre 2025
- Mises à jour de sécurité du système d’exploitation

21 octobre 2025
- Mise à jour de Python de 2.7.18 à 2.7.18.1
- Mises à jour de sécurité du système d’exploitation

7 octobre 2025
- Mises à jour de sécurité du système d’exploitation

24 septembre 2025
- Mises à jour de sécurité du système d’exploitation

9 septembre 2025
- Mises à jour de sécurité du système d’exploitation

26 août 2025
- Mises à jour de sécurité du système d’exploitation

14 août 2025
- Mises à jour de sécurité du système d’exploitation

29 juillet 2025
- Mises à jour de sécurité du système d’exploitation

15 juillet 2025
- Mises à jour de sécurité du système d’exploitation

1 juillet 2025
- Mises à jour de sécurité du système d’exploitation

17 juin 2025
- Mises à jour de sécurité du système d’exploitation

3 juin 2025
- Bibliothèques Python mises à jour :
  - certifi de 2019.11.28, 2021.10.8 vers 2021.10.8
  - chardet passage de la version 3.0.4, 4.0.0 à 4.0.0
  - idna de 2.8, 3.2 vers 3.2
  - requests de 2.22.0, 2.26.0 vers 2.26.0
  - six de 1.14.0, 1.16.0 vers 1.16.0
  - urllib3 de 1.25.8, 1.26.7 vers 1.26.7
  - Ajout de pip 21.2.4
  - Ajout de setuptools 58.0.4
  - Ajout de tomli 2.0.1
  - Ajout de wcwidth 0.2.5
  - Ajout de wheel 0.37.0
  - Distro 1.4.0 supprimée
  - Suppression de distro-info 0.23+ubuntu1.1
  - Suppression de python-apt 2.0.1+ubuntu0.20.4.1
- Mises à jour de sécurité du système d’exploitation

20 mai 2025
- [SPARK-42655][SQL] Erreur de référence de colonne ambiguë incorrecte
- Mises à jour de sécurité du système d’exploitation

22 avril 2025
- [Changement de comportement] Les opérations de vide effectuent désormais des vérifications de protocole Writer similaires à d’autres opérations, ce qui empêche les nettoyages inattendus sur les tables avec des fonctionnalités plus récentes lorsqu’elles sont exécutées à partir d’anciennes versions de Databricks Runtime incompatibles.
- Mises à jour de sécurité du système d’exploitation

9 avril 2025
- Mises à jour de sécurité du système d’exploitation

5 mars 2025
- Mises à jour de sécurité du système d’exploitation

11 février 2025
- Cette version inclut un correctif pour un cas limite où un CLONE incrémentiel pourrait recopier des fichiers déjà transférés d'une table source vers une table cible. Consultez Cloner une table sur Azure Databricks.

10 décembre 2024
- Mises à jour de sécurité du système d’exploitation
26 novembre 2024
- Divers correctifs de bogues.
10 octobre 2024
- Divers correctifs de bogues.
25 septembre 2024
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- Divers correctifs de bogues.
17 septembre 2024
- Mises à jour de sécurité du système d’exploitation
14 août 2024
- [SPARK-48941][SPARK-48970] Corrections du lecteur/rédacteur ML Backport
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-48463][ML] Faire en sorte que StringIndexer supporte les colonnes d’entrée imbriquées
- Mises à jour de sécurité du système d’exploitation
1 août 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Corrections apportées au rédacteur ML Spark
1 août 2024
- Pour appliquer les correctifs de sécurité requis, la version Python dans Databricks Runtime 11.3 LTS est mise à niveau de 3.9.5 à 3.9.19.
11 juillet 2024
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- [SPARK-47070] Correction d’une agrégation non valide après la réécriture d’une sous-requête
- Mises à jour de sécurité du système d’exploitation
17 juin 2024
- Mises à jour de sécurité du système d’exploitation
21 mai 2024
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- Mises à jour de sécurité du système d’exploitation
9 mai 2024
- [SPARK-48018][SS] Correction du groupe null provoquant une erreur de paramètre manquant lors du lancement de KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Enregistrer l’appel dans SparkContext.stop(), puis dans SparkContext.assertNotStopped().
- [SPARK-44251][SQL] Définition de la valeur pouvant accepter Null correctement sur une clé de jointure fusionnée dans une jointure externe complète USING
- Mises à jour de sécurité du système d’exploitation
25 avril 2024
- Mises à jour de sécurité du système d’exploitation
11 avril 2024
- Mises à jour de sécurité du système d’exploitation
1 avril 2024
- [SPARK-44252][SS] Définir une nouvelle classe d’erreur et l’appliquer lorsque le chargement de l’état à partir de DFS échoue
- [SPARK-47135][SS] Implémenter des classes d’erreurs pour les exceptions de perte de données Kafka
- Annuler « [SPARK-46861][CORE] Éviter le blocage dans DAGScheduler »
- [SPARK-47200][SS] Classe d’erreur pour l’erreur de la fonction utilisateur du collecteur de lots Foreach
- Mises à jour de sécurité du système d’exploitation
14 mars 2024
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
- [SPARK-47125][SQL] Retourne la valeur Null si Univocity ne déclenche jamais l’analyse
- Mises à jour de sécurité du système d’exploitation
29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la métrique d’opération numSourceRows de rapporter le double du nombre correct de lignes.
- [SPARK-45582][SS] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie
13 février 2024
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46861] Éviter le blocage dans DAGScheduler.
- Mises à jour de sécurité du système d’exploitation
31 janv. 2024
- Mises à jour de sécurité du système d’exploitation
25 Décembre 2023
- Pour éviter une augmentation de la latence lors des communications via TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 afin de corriger le bogue JDK-8293562.
- [SPARK-46058] Ajouter un indicateur distinct pour privateKeyPassword.
- [SPARK-46602] Propagation de allowExisting lors de la création d’une vue quand la vue ou la table n’existe pas.
- [SPARK-46394] Correction des problèmes liés à spark.catalog.listDatabases() sur les schémas contenant des caractères spéciaux lorsque spark.sql.legacy.keepCommandOutputSchema est définie sur true.
- [SPARK-46538] Corriger le problème de référence de colonne ambiguë dans ALSModel.transform.
- [SPARK-39440] Ajout d’une configuration pour désactiver la chronologie des événements.
- [SPARK-46249] Exiger un verrou d’instance pour acquérir des métriques RocksDB pour empêcher la concurrence avec les opérations en arrière-plan.
- [SPARK-46132] Prise en charge des mots de passe des clés JKS pour RPC SSL.
14 décembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient mal gérés et interprétés comme des caractères génériques.
- Mises à jour de sécurité du système d’exploitation
29 novembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques.
- [SPARK-43973] L’interface utilisateur Structured Streaming affiche désormais correctement les requêtes ayant échoué.
- [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
- [SPARK-45544] Prise en charge SSL intégrée dans TransportContext.
- [SPARK-45859] Objets UDF rendus différés dans ml.functions.
- [SPARK-43718] Correction de la nullabilité des clés dans les jointures USING.
- [SPARK-44846] Suppression des expressions de regroupement complexes après RemoveRedundantAggregates.
- Mises à jour de sécurité du système d’exploitation

14 novembre 2023
- Les filtres de partition sur les requêtes de streaming Delta Lake sont poussés vers le bas avant la limitation du débit afin d’optimiser l’utilisation.
- [SPARK-42205] Suppression des données cumulées dans les événements de démarrage des étapes et des tâches.
- [SPARK-45545]SparkTransportConf hérite SSLOptions lors de la création.
- Rétablir [SPARK-33861].
- [SPARK-45541] Ajout de SSLFactory.
- [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
- [SPARK-45430]FramelessOffsetWindowFunction n’échoue plus lorsque IGNORE NULLS et offset > rowCount.
- [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
- Mises à jour de sécurité du système d’exploitation
24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
- Correctifs divers
13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 vers 3.13.33.
- [SPARK-45178] Revenir à l’exécution d’un seul lot pour Trigger.AvailableNow les sources non prises en charge plutôt que d’utiliser le wrapper.
- [SPARK-45084]StateOperatorProgress pour utiliser un numéro de partition aléatoire précis et adéquat.
- [SPARK-45346] L’inférence de schéma Parquet respecte désormais l’indicateur respectant la casse lors de la fusion d’un schéma.
- Mises à jour de sécurité du système d’exploitation
10 septembre 2023
- Correctifs divers
30 août 2023
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de taskThread.
- [SPARK-44871][11.3-13.0] Correction du comportement de percentile_disc.
- Mises à jour de sécurité du système d’exploitation
15 août 2023
- [SPARK-44485] Optimisation de TreeNode.generateTreeString.
- [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-44464] Correction de applyInPandasWithStatePythonRunner pour les lignes de sortie qui présentent Null en tant que première valeur de colonne.
- Mises à jour de sécurité du système d’exploitation
27 juillet 2023
- Correction d’un problème où dbutils.fs.ls() renvoyait INVALID_PARAMETER_VALUE.LOCATION_OVERLAP lorsqu’un chemin d’accès à un emplacement de stockage était appelé et entrait en conflit avec un autre emplacement de stockage externe ou géré.
- [SPARK-44199]CacheManager n’actualise plus le fileIndex inutilement.
- Mises à jour de sécurité du système d’exploitation
24 juillet 2023
- [SPARK-44136] Correction d’un problème qui pouvait entraîner la matérialisation de StateManager dans l’exécuteur au lieu du pilote dans FlatMapGroupsWithStateExec.
- Mises à jour de sécurité du système d’exploitation
23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- approx_count_distinct photonisé.
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- [SPARK-43779]ParseToDate se charge désormais EvalMode dans le thread principal.
- [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Test du bug lié au nombre de sous-requêtes scalaires étendues avec decorrelateInnerQuery désactivation.
- [SPARK-43098] Correction d’un bug dans la fonction COUNT lorsque la sous-requête scalaire comporte une clause GROUP BY
- Mises à jour de sécurité du système d’exploitation
2 juin 2023
- L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement dans le mode DROPMALFORMED et échoue directement en mode FAILFAST.
- Renforcez les performances des mises à jour incrémentielles avec SHALLOW CLONE Iceberg et Parquet.
- Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-43404]Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter l’erreur d’incohérence d’ID.
- [SPARK-43527] Correction de catalog.listCatalogs dans PySpark.
- [SPARK-43413][11.3-13.0] Correction de la nullité des sous-requêtes INListQuery.
- [SPARK-43340] Correction du champ stack-trace manquant dans les journaux d’événements.

Databricks Runtime 10.4 LTS

Consultez Databricks Runtime 10.4 LTS (EoS).

12 août 2025
- Mises à jour de sécurité du système d’exploitation

15 juillet 2025
- Mises à jour de sécurité du système d’exploitation

1er juillet 2025
- Mises à jour de sécurité du système d’exploitation
17 juin 2025
- Mises à jour de sécurité du système d’exploitation

3 juin 2025
- Bibliothèques Python mises à jour :
  - certifi de 2019.11.28, 2020.12.5 à 2020.12.5
  - chardet passage de la version 3.0.4, 4.0.0 à 4.0.0
  - idna de 2.10, 2.8 à 2.10
  - demandes de 2.22.0, 2.25.1 à 2.25.1
  - six de 1.14.0, 1.15.0 à 1.15.0
  - urllib3 de 1.25.11, 1.25.8 à 1.25.11
  - Ajout de pip 21.0.1
  - Setuptools 52.0.0 a été ajouté
  - Ajout de wcwidth 0.2.5
  - Ajout de la roue 0.36.2
  - Distro 1.4.0 supprimée
  - Suppression de distro-info 0.23+ubuntu1.1
  - Suppression de python-apt 2.0.1+ubuntu0.20.4.1
- Mises à jour de sécurité du système d’exploitation

20 mai 2025
- Mises à jour de sécurité du système d’exploitation

22 avril 2025
- Mises à jour de sécurité du système d’exploitation

9 avril 2025
- Mises à jour de sécurité du système d’exploitation

11 mars 2025
- Mises à jour de sécurité du système d’exploitation

11 février 2025
- Cette version inclut un correctif pour un cas limite où un CLONE incrémentiel pourrait recopier des fichiers déjà transférés d'une table source vers une table cible. Consultez Cloner une table sur Azure Databricks.
- Mises à jour de sécurité du système d’exploitation

10 décembre 2024
- Mises à jour de sécurité du système d’exploitation
26 novembre 2024
- Mises à jour de sécurité du système d’exploitation
5 novembre 2024
- Mises à jour de sécurité du système d’exploitation
22 octobre 2024
- Mises à jour de sécurité du système d’exploitation
10 octobre 2024
- Mises à jour de sécurité du système d’exploitation
25 septembre 2024
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- Mises à jour de sécurité du système d’exploitation
17 septembre 2024
- Mises à jour de sécurité du système d’exploitation
29 août 2024
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
14 août 2024
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-48941][SPARK-48970] Corrections du lecteur/rédacteur ML Backport
- [SPARK-48463][ML] Faire en sorte que StringIndexer supporte les colonnes d’entrée imbriquées
1er août 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Corrections apportées au rédacteur ML Spark
- Mises à jour de sécurité du système d’exploitation
11 juillet 2024
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- Mises à jour de sécurité du système d’exploitation
17 juin 2024
- Mises à jour de sécurité du système d’exploitation
21 mai 2024
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- Mises à jour de sécurité du système d’exploitation
9 mai 2024
- [SPARK-48018][SS] Correction du groupe null provoquant une erreur de paramètre manquant lors du lancement de KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Enregistrer l’appel dans SparkContext.stop(), puis dans SparkContext.assertNotStopped().
- [SPARK-44251][SQL] Définition de la valeur pouvant accepter Null correctement sur une clé de jointure fusionnée dans une jointure externe complète USING
- Mises à jour de sécurité du système d’exploitation
25 avril 2024
- Mises à jour de sécurité du système d’exploitation
11 avril 2024
- Mises à jour de sécurité du système d’exploitation
1er avril 2024
- [SPARK-47135][SS] Implémenter des classes d’erreurs pour les exceptions de perte de données Kafka
- [SPARK-44252][SS] Définir une nouvelle classe d’erreur et l’appliquer lorsque le chargement de l’état à partir de DFS échoue
- [SPARK-47200][SS] Classe d’erreur pour l’erreur de la fonction utilisateur du collecteur de lots Foreach
- Rétablir « [SPARK-46861] [CORE] Éviter les blocages dans DAGScheduler
- Mises à jour de sécurité du système d’exploitation
14 mars 2024
- [SPARK-47125][SQL] Retourne la valeur Null si Univocity ne déclenche jamais l’analyse
- Mises à jour de sécurité du système d’exploitation
29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la métrique d’opération numSourceRows de rapporter le double du nombre correct de lignes.
- [SPARK-45582][SS] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie
- Mises à jour de sécurité du système d’exploitation
13 février 2024
- [SPARK-46861] Éviter le blocage dans DAGScheduler.
- Mises à jour de sécurité du système d’exploitation
31 janvier 2024
- Mises à jour de sécurité du système d’exploitation
25 décembre 2023
- Pour éviter une augmentation de la latence lors des communications via TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 afin de corriger le bogue JDK-8293562.
- [SPARK-46058] Ajouter un indicateur distinct pour privateKeyPassword.
- [SPARK-46538] Corriger le problème de référence de colonne ambiguë dans ALSModel.transform.
- [SPARK-39440] Ajout d’une configuration pour désactiver la chronologie des événements.
- [SPARK-46132] Prise en charge des mots de passe des clés JKS pour RPC SSL.
14 décembre 2023
- Mises à jour de sécurité du système d’exploitation
29 novembre 2023
- [SPARK-45544] Prise en charge SSL intégrée dans TransportContext.
- [SPARK-45859] Objets UDF rendus différés dans ml.functions.
- [SPARK-43718] Correction de la nullabilité des clés dans les jointures USING.
- [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
- [SPARK-42205] Suppression des données cumulées dans les événements de démarrage des étapes et des tâches.
- [SPARK-44846] Suppression des expressions de regroupement complexes après RemoveRedundantAggregates.
- Mises à jour de sécurité du système d’exploitation
14 novembre 2023
- [SPARK-45541] Ajout de SSLFactory.
- [SPARK-45545]SparkTransportConf hérite SSLOptions lors de la création.
- [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
- [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
- Rétablir [SPARK-33861].
- Mises à jour de sécurité du système d’exploitation
24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
- Mises à jour de sécurité du système d’exploitation
13 octobre 2023
- [SPARK-45084]StateOperatorProgress pour utiliser un numéro de partition aléatoire précis et adéquat.
- [SPARK-45178] Revenir à l’exécution d’un seul lot pour Trigger.AvailableNow les sources non prises en charge plutôt que d’utiliser le wrapper.
- Mises à jour de sécurité du système d’exploitation
10 septembre 2023
- Correctifs divers
30 août 2023
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de taskThread.
- Mises à jour de sécurité du système d’exploitation
15 août 2023
- [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-43973] L’interface utilisateur Structured Streaming affiche désormais correctement les requêtes ayant échoué.
- Mises à jour de sécurité du système d’exploitation
23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- [SPARK-43098] Correction d’un bug dans la fonction COUNT lorsque la sous-requête scalaire comporte une clause GROUP BY
- [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Test lié au nombre de sous-requêtes scalaires étendues avec decorrelateInnerQuery désactivation.
- Mises à jour de sécurité du système d’exploitation
2 juin 2023
- L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement dans le mode DROPMALFORMED et échoue directement en mode FAILFAST.
- Correction d’un problème dans l’analyse des données récupérées au format JSON afin d’empêcher UnknownFieldException.
- Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-43404]Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter l’erreur d’incohérence d’ID.
- [SPARK-43413] Correction de la nullité des sous-requêtes INListQuery.
- Mises à jour de sécurité du système d’exploitation
17 mai 2023
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
- [SPARK-41520] Fractionnez le modèle d’arborescence AND_OR pour dissocier AND et OR.
- [SPARK-43190]ListQuery.childOutput est désormais cohérent avec les données de sortie secondaires.
- Mises à jour de sécurité du système d’exploitation
25 avril 2023
- [SPARK-42928] Synchroniser resolvePersistentFunction.
- Mises à jour de sécurité du système d’exploitation
mardi 11 avril 2023
- Correction d’un problème où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42937]PlanSubqueries définit maintenant InSubqueryExec#shouldBroadcast sur true.
- [SPARK-42967] Corrige SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est lancée après l’annulation de l’étape.
29 mars 2023
- [SPARK-42668] Intercepter l’exception lors de la fermeture du flux compressé dans HDFSStateStoreProvider stop
- [SPARK-42635] Corrige…
- Mises à jour de sécurité du système d’exploitation
14 mars 2023
- [SPARK-41162] Correction de l’anti-jointure et de la semi-jointure pour les jointures sur elles-mêmes avec agrégations
- [SPARK-33206] Correction du calcul de poids du cache d’index aléatoire pour les petits fichiers d’index
- [SPARK-42484] Message d’erreur UnsafeRowUtils amélioré
- Correctifs divers
28 février 2023
- Colonne générée pour le format de date aaaa-MM-jj. Cette modification prend en charge la suppression des partitions pour le format yyyy-MM-dd en tant que date_format dans les colonnes générées.
- Les utilisateurs peuvent désormais lire et écrire des tables Delta spécifiques nécessitant la version 3 de Reader et la version 7 de Writer, à l’aide de Databricks Runtime 9.1 LTS ou d’une version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- Colonne générée pour le format de date aaaa-MM-jj. Cette modification prend en charge la suppression des partitions pour le format yyyy-MM-dd en tant que date_format dans les colonnes générées.
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- [SPARK-30220] Activer l’utilisation des sous-requêtes Exists/In en dehors du nœud Filtre
- Mises à jour de sécurité du système d’exploitation
31 janvier 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
18 janvier 2023
- Le connecteur Azure Synapse renvoie un message d’erreur plus descriptif lorsqu’un nom de colonne contient des caractères non valides tels que des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné : Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space.
- [SPARK-38277] Effacement du lot d’écriture après la validation du magasin d’état RocksDB
- [SPARK-41199] Correction d’un problème de métriques lorsque la source de streaming DSv1 et la source de streaming DSv2 sont utilisées conjointement
- [SPARK-41198] Correction des métriques dans les requêtes de streaming comportant une source de streaming CTE et DSv1
- [SPARK-41339] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732] Appliquer une taille en arbre pour la règle SessionWindowing
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées afin de contrôler la gestion des espaces blancs :
  - Lorsque csvignoreleadingwhitespace sur true, les espaces blancs en début de valeur sont supprimés lors de l’écriture lorsque tempformat est défini sur CSV ou sur CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
  - Lorsque csvignoretrailingwhitespace sur true, les espaces blancs en fin de valeur sont supprimés lors de l’écriture lorsque tempformat est défini sur CSV ou sur CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
- Correction d’un problème d’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées sous forme de chaînes (cloudFiles.inferColumnTypes non défini ou défini sur false) et que le JSON contenait des objets imbriqués.
- Mises à jour de sécurité du système d’exploitation
15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour activer le comportement amélioré, définissez spark.sql.json.enablePartialResults surtrue. L’indicateur est désactivé par défaut afin de conserver le comportement d’origine.
- [SPARK-40292] Correction des noms de colonnes dans la fonction arrays_zip lorsque des tableaux sont référencés à partir de structures imbriquées
- Mises à jour de sécurité du système d’exploitation
1 novembre 2022
- Correction d’un problème où, si une table Delta comportait une colonne définie par l’utilisateur nommée _change_type, mais que l’option Modifier le flux de données était désactivée pour cette table, les données de cette colonne étaient incorrectement remplies avec des valeurs NULL lors de l’exécution de MERGE.
- Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé
- [SPARK-40697] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- [SPARK-40468] Correction de la taille des colonnes au format CSV quand _corrupt_record est sélectionné.
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- Les utilisateurs peuvent définir spark.conf.set(spark.databricks.io.listKeysWithPrefix.azure.enabled, true) pour réactiver la liste intégrée du chargeur automatique sur ADLS. La fonctionnalité de liste intégrée était précédemment désactivée en raison de problèmes de performances, mais elle pouvait entraîner une augmentation des coûts de stockage pour les clients.
- [SPARK-40315] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40213] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- [SPARK-40380] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-38404] Améliorer la résolution des CTE lorsqu’un CTE imbriqué fait référence à un CTE externe
- [SPARK-40089] Correction du tri pour certains types décimaux
- [SPARK-39887] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
6 septembre 2022
- [SPARK-40235] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40218] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-39976] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
- [SPARK-40053] Ajouter assume pour annuler de manière dynamique les cas qui nécessitent un environnement d’exécution Python
- [SPARK-35542] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
24 août 2022
- [SPARK-39983] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39775] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39962] Application de la projection lorsque les attributs de groupe sont vides
- [SPARK-37643] lorsque charVarcharAsString a la valeur true, pour que la requête de prédicat de type de données char ignore la règle rpadding
- Mises à jour de sécurité du système d’exploitation
mardi 9 août 2022
- [SPARK-39847] Corriger la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- Mises à jour de sécurité du système d’exploitation
27 juillet 2022
- [SPARK-39625] Ajouter Dataset.as(StructType)
- [SPARK-39689]Prise en charge de 2 caractères lineSep dans la source de données CSV
- [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39570] La table incluse devrait autoriser les expressions avec alias
- [SPARK-39702] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575] ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39476] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- [SPARK-38868] Ne propagez pas les exceptions du prédicat de filtre lors de l’optimisation des jointures externes
- Mises à jour de sécurité du système d’exploitation
20 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39355] Une colonne unique utilise des guillemets pour construire UnresolvedAttribute
- [SPARK-39548] La commande CreateView avec une requête de clause de fenêtre a rencontré un problème introuvable de définition de fenêtre incorrecte
- [SPARK-39419] Corriger ArraySort pour qu’il lance une exception lorsque le comparateur renvoie null
- Désactivation de l'utilisation par Auto Loader des API cloud intégrées pour le listing de répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
5 juillet 2022
- [SPARK-39376] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- Mises à jour de sécurité du système d’exploitation
15 juin 2022
- [SPARK-39283] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
- [SPARK-36718] Corriger la vérification isExtractOnly dans CollapseProject
2 juin 2022
- [SPARK-39093] Éviter une erreur de compilation codegen lors de la division des intervalles d’année-mois ou des intervalles de jours-heures par une intégrale
- [SPARK-38990] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Corrige une fuite de mémoire intégrée potentielle dans Auto Loader.
- [SPARK-38918] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-37593] Réduction de la taille de page par défaut selon LONG_ARRAY_OFFSET si G1GC et ON_HEAP sont utilisé
- [SPARK-39084] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-32268] Ajout de ColumnPruning dans injectBloomFilter
- [SPARK-38974] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
- [SPARK-38931] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
- Mises à jour de sécurité du système d’exploitation
19 avril 2022
- Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
- Correction d’un problème lié aux bibliothèques délimitées aux notebooks qui ne fonctionnaient pas dans les travaux de streaming par lots.
- [SPARK-38616] Suivi du texte de requête SQL dans Catalyst TreeNode
- Mises à jour de sécurité du système d’exploitation
6 avril 2022
- Les fonctions Spark SQL suivantes sont désormais disponibles avec cette version :
  - timestampadd() et dateadd() : Ajoutez une durée dans une unité spécifiée à une expression d’horodatage.
  - timestampdiff() et datediff() : Calculez la différence de temps dans une unité spécifiée entre deux expressions d’horodatage.
- Parquet-MR a été mis à niveau vers la version 1.12.2
- Prise en charge améliorée des schémas complets dans les fichiers Parquet
- [SPARK-38631] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- [SPARK-38509][SPARK-38481] Sélectionnez trois changements timestmapadd/diff.
- [SPARK-38523] Correctif faisant référence à la colonne d’enregistrement endommagé du CSV
- [SPARK-38237] Autoriser ClusteredDistribution à exiger des clés de clustering complètes
- [SPARK-38437] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 9.1 LTS

Consultez Databricks Runtime 9.1 LTS.

29 novembre 2023
- [SPARK-45859] Objets UDF rendus différés dans ml.functions.
- [SPARK-45544] Prise en charge SSL intégrée dans TransportContext.
- [SPARK-45730] Contraintes de temps améliorées pour ReloadingX509TrustManagerSuite.
- Mises à jour de sécurité du système d’exploitation
14 novembre 2023
- [SPARK-45545]SparkTransportConf hérite SSLOptions lors de la création.
- [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
- [SPARK-45427] Ajout de paramètres SSL RPC à SSLOptions et SparkTransportConf.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec TakeOrderedAndProjectExec.
- [SPARK-45541] Ajout de SSLFactory.
- [SPARK-42205] Suppression des données cumulées dans les événements de démarrage des étapes et des tâches.
- Mises à jour de sécurité du système d’exploitation
24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de ReloadingX509TrustManager.
- Mises à jour de sécurité du système d’exploitation
13 octobre 2023
- Mises à jour de sécurité du système d’exploitation
10 septembre 2023
- Correctifs divers
30 août 2023
- Mises à jour de sécurité du système d’exploitation
15 août 2023
- Mises à jour de sécurité du système d’exploitation
23 juin 2023
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- [SPARK-43098] Correction d’un bug dans la fonction COUNT lorsque la sous-requête scalaire comporte une clause GROUP BY
- [SPARK-43156][SPARK-43098] Étendre le test du bug lié au nombre de sous-requêtes scalaires avec decorrelateInnerQuery désactivé.
- [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
- Mises à jour de sécurité du système d’exploitation
2 juin 2023
- L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement dans le mode DROPMALFORMED et échoue directement en mode FAILFAST.
- Correction d’un problème dans l’analyse des données récupérées au format JSON afin d’empêcher UnknownFieldException.
- Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-37520] Ajoutez les fonctions de chaîne startswith() et endswith()
- [SPARK-43413] Correction de la nullité des sous-requêtes INListQuery.
- Mises à jour de sécurité du système d’exploitation
17 mai 2023
- Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Mises à jour de sécurité du système d’exploitation
11 avril 2023
- Correction d’un problème où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42967] Corrige SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est lancée après l’annulation de l’étape.
29 mars 2023
- Mises à jour de sécurité du système d’exploitation
14 mars 2023
- [SPARK-42484] Message d’erreur de UnsafeRowUtils amélioré
- Correctifs divers
28 février 2023
- Les utilisateurs peuvent désormais lire et écrire des tables Delta spécifiques nécessitant la version 3 de Reader et la version 7 de Writer, à l’aide de Databricks Runtime 9.1 LTS ou d’une version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- Mises à jour de sécurité du système d’exploitation
31 janv. 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
18 janv. 2023
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Correction d’un problème d’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées sous forme de chaînes (cloudFiles.inferColumnTypes non défini ou défini sur false) et que le JSON contenait des objets imbriqués.
- Mises à jour de sécurité du système d’exploitation
15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers
1 novembre 2022
- Correction d’un problème où, si une table Delta comportait une colonne définie par l’utilisateur nommée _change_type, mais que l’option Modifier le flux de données était désactivée pour cette table, les données de cette colonne étaient incorrectement remplies avec des valeurs NULL lors de l’exécution de MERGE.
- Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé
- [SPARK-40596] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- Correctifs divers
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- Les utilisateurs peuvent définir spark.conf.set(« spark.databricks.io.listKeysWithPrefix.azure.enabled », « true ») pour réactiver la liste intégrée du chargeur automatique sur ADLS. La fonctionnalité de liste intégrée était précédemment désactivée en raison de problèmes de performances, mais elle pouvait entraîner une augmentation des coûts de stockage pour les clients.
- [SPARK-40315] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40089] Correction du tri pour certains types décimaux
- [SPARK-39887] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
6 septembre 2022
- [SPARK-40235] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-35542] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
24 août 2022
- [SPARK-39666] Utiliser UnsafeProjection.create pour respecter spark.sql.codegen.factoryMode dans ExpressionEncoder
- [SPARK-39962] Application de la projection lorsque les attributs de groupe sont vides
- Mises à jour de sécurité du système d’exploitation
9 août 2022
- Mises à jour de sécurité du système d’exploitation
27 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39689] Prise en charge de 2 caractères lineSep dans la source de données CSV
- [SPARK-39575] Ajout de ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer.
- [SPARK-37392] Correction d’une erreur de performance pour l’optimiseur de catalyseur.
- Mises à jour de sécurité du système d’exploitation
13 juillet 2022
- [SPARK-39419]ArraySort lève une exception lorsque le comparateur renvoie null.
- Désactivation de l'utilisation par Auto Loader des API cloud intégrées pour le listing de répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers
15 juin 2022
- [SPARK-39283] Correction de l’interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator.
2 juin 2022
- [SPARK-34554] Implémentation de la méthode copy() dans ColumnarMap.
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Correction d’une fuite de mémoire intégrée potentielle dans Auto Loader.
- Mise à niveau la version du kit SDK AWS de la version 1.11.655 vers la version 1.11.678.
- [SPARK-38918] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-39084] Correction df.rdd.isEmpty() à l’aide de TaskContext pour arrêter l’itérateur à la fin de la tâche
- Mises à jour de sécurité du système d’exploitation
19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers
6 avril 2022
- [SPARK-38631] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
22 mars 2022
- Le répertoire de travail actuel des notebooks sur les clusters à haute concurrence avec le contrôle d’accès aux tables ou le transfert d’informations d’identification activé a été modifié pour pointer vers le répertoire de base de l’utilisateur. Auparavant, le répertoire actif était /databricks/driver.
- [SPARK-38437] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-27442] Suppression d’un champ de vérification lors de la lecture ou de l’écriture de données dans un fichier Parquet.
14 mars 2022
- [SPARK-38236] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-34069] Interruption du thread de tâche si la propriété locale SPARK_JOB_INTERRUPT_ON_CANCEL est définie sur true.
23 février 2022
- [SPARK-37859] Les tables SQL créées avec JDBC avec Spark 3.1 ne sont pas lisibles avec Spark 3.2.
8 février 2022
- [SPARK-27442] Suppression d’un champ de vérification lors de la lecture ou de l’écriture de données dans un fichier Parquet.
- Mises à jour de sécurité du système d’exploitation
1 février 2022
- Mises à jour de sécurité du système d’exploitation
26 janv. 2022
- Correction d’un problème dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un problème à cause duquel la commande OPTIMIZE risquait d’échouer lorsque le dialecte ANSI SQL était activé.
19 janv. 2022
- Correctifs mineurs et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
4 novembre 2021
- Correction d’un problème pouvant entraîner l’échec des flux Structured Streaming avec un ArrayIndexOutOfBoundsException.
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
- Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
20 octobre 2021
- Mise à niveau du connecteur BigQuery de la version 0.18.1 à la version 0.22.2. Cela ajoute la prise en charge du type BigNumeric.

Databricks Runtime 13.0

Consultez Databricks Runtime 13.0 (EoS).

13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 vers 3.13.33.
- [SPARK-42553] [SQL] Veillez à respecter un intervalle d’au moins une unité de temps.
- [SPARK-45178] Revenir à l’exécution d’un seul lot pour Trigger.AvailableNow les sources non prises en charge plutôt que d’utiliser le wrapper.
- [SPARK-44658][CORE] ShuffleStatus.getMapStatus renvoie None au lieu de Some(null).
- [SPARK-42205][CORE] Supprimer la journalisation des éléments accumulables dans les événements de démarrage de tâche/étape dans JsonProtocol.
- Mises à jour de sécurité du système d’exploitation
12 septembre 2023
- [SPARK-44485][SQL] Optimisation de TreeNode.generateTreeString.
- [SPARK-44718] [SQL] Faire correspondre ColumnVector la valeur par défaut du mode mémoire avec la valeur de configuration OffHeapMemoryMode.
- Divers correctifs de bogues.
30 août 2023
- [SPARK-44818][Backport] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de taskThread.
- [SPARK-44714] Assouplir les restrictions relatives à la résolution LCA concernant les requêtes.
- [SPARK-44245][PYTHON] Les doctests pyspark.sql.dataframe sample() sont désormais uniquement indiqués à titre illustratif.
- [SPARK-44871][11.3-13.0][SQL] Correction du comportement de percentile_disc.
- Mises à jour de sécurité du système d’exploitation
15 août 2023
- [SPARK-44643][SQL][PYTHON] Correction de Row.__repr__ lorsque la ligne est vide.
- [SPARK-44504][Backport] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-44479][CONNECT][PYTHON] Correction de la conversion protobuf depuis un type de structure vide.
- [SPARK-44464][SS] Correction de applyInPandasWithStatePythonRunner pour les lignes de sortie qui présentent Null en tant que première valeur de colonne.
- Divers correctifs de bogues.
29 juillet 2023
- Correction d’un bogue où dbutils.fs.ls() renvoyait INVALID_PARAMETER_VALUE.LOCATION_OVERLAP lorsqu’un chemin d’accès à un emplacement de stockage était appelé et entrait en conflit avec un autre emplacement de stockage externe ou géré.
- [SPARK-44199]CacheManager n’actualise plus le fileIndex inutilement.
- Mises à jour de sécurité du système d’exploitation
24 juillet 2023
- [SPARK-44337][PROTOBUF] Correction d’un problème où tout champ défini sur Any.getDefaultInstance causait des erreurs d’analyse.
- [SPARK-44136] [SS] Correction d’un problème où StateManager se matérialisait dans un exécuteur au lieu du pilote dans FlatMapGroupsWithStateExec.
- Rétablir [SPARK-42323][SQL] Attribuer un nom à _LEGACY_ERROR_TEMP_2332.
- Mises à jour de sécurité du système d’exploitation
23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- approx_count_distinct photonisé.
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- [SPARK-43156][SPARK-43098][SQL] Tester le bug lié au nombre de sous-requêtes scalaires avec la fonction decorrelateInnerQuery désactivée
- [SPARK-43779][SQL] ParseToDate se charge désormais EvalMode dans le thread principal.
- [SPARK-42937][SQL] PlanSubqueries doit définir InSubqueryExec#shouldBroadcast sur true
- Mises à jour de sécurité du système d’exploitation
2 juin 2023
- L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement dans le mode DROPMALFORMED et échoue directement en mode FAILFAST.
- Renforcez les performances de la mise à jour incrémentielle avec SHALLOW CLONE Iceberg et Parquet.
- Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-43404][Backport] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur d’incohérence d’ID.
- [SPARK-43340][CORE] Correction du champ stack-trace manquant dans les journaux d’événements.
- [SPARK-43300][CORE] Enveloppe NonFateSharingCache pour Guava Cache.
- [SPARK-43378][CORE] Fermer correctement les objets de flux dans deserializeFromChunkedBuffer.
- [SPARK-16484][SQL] Utiliser des registres 8 bits afin de représenter des DataSketches.
- [SPARK-43522][SQL] Correction de la création du nom de la colonne de structure avec l’index du tableau.
- [SPARK-43413][11.3-13.0][SQL] Correction de la nullité des sous-requêtes INListQuery.
- [SPARK-43043][CORE] Performances de MapOutputTracker.updateMapOutput améliorées.
- [SPARK-16484][SQL] Prise en charge de DataSketches HllSketch.
- [SPARK-43123][SQL] Les métadonnées internes des champs ne fuient plus vers les catalogues.
- [SPARK-42851][SQL] Guard EquivalentExpressions.addExpr() avec supportedExpression().
- [SPARK-43336][SQL] Le cast Timestamp et TimestampNTZ requiert le fuseau horaire.
- [SPARK-43286][SQL] Mise à jour du mode CBC aes_encrypt afin de générer des images virtuelles aléatoires.
- [SPARK-42852][SQL] Annulation des modifications associées à NamedLambdaVariable depuis EquivalentExpressions.
- [SPARK-43541][SQL] Propagation de toutes les balises Project dans la résolution des expressions et des colonnes manquantes.
- [SPARK-43527][PYTHON] Correction de catalog.listCatalogs dans PySpark.
- Mises à jour de sécurité du système d’exploitation
31 mai 2023
- La prise en charge par défaut de l’écriture optimisée pour les tables Delta enregistrées dans Unity Catalog a été étendue pour inclure les instructions CTAS et les opérations INSERT pour les tables partitionnées. Ce comportement correspond aux paramètres par défaut des entrepôts SQL. Consultez Écritures optimisées pour Delta Lake sur Azure Databricks.
17 mai 2023
- Correction d’une régression où _metadata.file_path et _metadata.file_name renvoyait des chaînes mal formatées. Par exemple, un chemin contenant des espaces est désormais représenté comme s3://test-bucket/some%20directory/some%20data.csv au lieu de s3://test-bucket/some directory/some data.csv.
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
- - Si un fichier Avro était lu avec uniquement l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution du schéma failOnNewColumns, les colonnes ayant des types de données différents seraient lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn.
- Auto Loader effectue désormais les opérations suivantes.
- - Lit correctement et ne récupère plus les types Integer, Short et Byte si l’un de ces types de données est fourni, mais que le fichier Avro suggère l’un des deux autres types.
- - Empêche la lecture des types d’intervalle comme des types de date ou d’horodatage afin d’éviter toute corruption des dates.
- - Empêche la lecture des types Decimal dont la précision est moindre.
- [SPARK-43172] [CONNECT] Expose l’hôte et le jeton du client Spark Connect.
- [SPARK-43293][SQL] __qualified_access_only est ignoré dans les colonnes normales.
- [SPARK-43098][SQL] Correction d’un bug d’exactitude COUNT lorsque la sous-requête scalaire est regroupée par clause.
- [SPARK-43085][SQL] Prise en charge de l’attribution des colonnes DEFAULT pour les noms de tables en plusieurs parties.
- [SPARK-43190][SQL] ListQuery.childOutput est désormais cohérent avec les données de sortie secondaires.
- [SPARK-43192] [CONNECT] Suppression de la validation du jeu de caractères de l’agent utilisateur.
25 avril 2023
- Vous pouvez modifier une table Delta afin d’ajouter la prise en charge d’une fonctionnalité de table Delta avec DeltaTable.addFeatureSupport(feature_name).
- La commande SYNC prend désormais en charge les formats de source de données hérités.
- Correction d’un bug lorsque le formateur Python était utilisé avant d’exécuter d’autres commandes dans un notebook Python qui pouvait entraîner la disparition du chemin d’accès au notebook dans sys.path.
- Azure Databricks prend maintenant en charge la spécification de valeurs par défaut pour les colonnes des tables Delta. INSERT, , UPDATEDELETEet MERGE les commandes peuvent faire référence à la valeur par défaut d’une colonne à l’aide du mot clé expliciteDEFAULT. Pour les commandes INSERT avec une liste explicite de colonnes moins nombreuses que la table cible, les valeurs par défaut correspondantes sont substituées aux colonnes restantes (ou NULL si aucune valeur par défaut n’est spécifiée).
Correction d’un bug qui empêchait l’utilisation du terminal Web pour accéder aux fichiers dans /Workspace pour certains utilisateurs.
- Si un fichier Parquet était lu avec uniquement l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution du schéma failOnNewColumns, les colonnes ayant des types de données différents seraient lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn.
- Auto Loader lit désormais correctement et ne récupère plus les typesInteger, Short, Byte si l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données récupérées était précédemment activée, l’incompatibilité des types de données entraînait la récupération des colonnes même si elles étaient lisibles.
- Correction d’un bogue où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42794][SS] Augmenter la valeur lockAcquireTimeoutMs à 2 minutes pour acquérir le magasin d’état RocksDB dans Structure Streaming.
- [SPARK-39221][SQL] Veiller à ce que les informations sensibles soient correctement expurgées dans l’onglet Tâche/étape du serveur de tâches.
- [SPARK-42971][CORE] Passer à l’impression workdir si appDirs est nul lorsque le gestionnaire traite l’événement WorkDirCleanup.
- [SPARK-42936][SQL] Correction d’un bug LCA lorsque la clause having peut être résolue directement par son agrégat enfant.
- [SPARK-43018][SQL] Correction d’un bogue pour les commandes INSERT avec des littéraux d’horodatage.
- Rétablir[SPARK-42754][SQL][UI] Correction d’un problème de compatibilité ascendante dans l’exécution SQL imbriquée.
- Rétablir [SPARK-41498] [SC-119018] Propagation des métadonnées via Union.
- [SPARK-43038][SQL] prend en charge le mode CBC paraes_encrypt()/aes_decrypt().
- [SPARK-42928][SQL] Synchroniser resolvePersistentFunction.
- [SPARK-42521][SQL] Ajoutez des NULL valeurs pour INSERT avec des listes spécifiées par l’utilisateur comportant moins de colonnes que la table cible.
- [SPARK-41391][SQL] Le nom de la colonne de sortie de groupBy.agg(count_distinct) était erroné.
- [SPARK-42548][SQL] Ajout de ReferenceAllColumns pour ignorer les attributs de réécriture.
- [SPARK-42423][SQL] Ajouter les métadonnées début du bloc de fichier et longueur.
- [SPARK-42796][SQL] Prise en charge de l’accès aux colonnes TimestampNTZ dans CachedBatch.
- [SPARK-42266][PYTHON] Supprimez le répertoire parent dans shell.py run lorsque IPython est utilisé.
- [SPARK-43011][SQL] array_insert doit échouer avec 0 index.
- [SPARK-41874][CONNECT][PYTHON] Prise en charge de SameSemantics dans Spark Connect.
- [SPARK-42702][SPARK-42623][SQL] Prise en charge des requêtes paramétrées dans les sous-requêtes et les CTE.
- [SPARK-42967][CORE] Correction SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est lancée après l’annulation de l’étape.
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 12.1

Consultez Databricks Runtime 12.1 (EoS).

23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- approx_count_distinct photonisé.
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- [SPARK-43779][SQL] ParseToDate se charge désormais EvalMode dans le thread principal.
- [SPARK-43156][SPARK-43098][SQL] Tester le bug lié au nombre de sous-requêtes scalaires avec la fonction decorrelateInnerQuery désactivée
- Mises à jour de sécurité du système d’exploitation
2 juin 2023
- L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement dans le mode DROPMALFORMED et échoue directement en mode FAILFAST.
- Renforcez les performances de la mise à jour incrémentielle avec SHALLOW CLONE Iceberg et Parquet.
- Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-43404][Backport] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur d’incohérence d’ID.
- [SPARK-43413][11.3-13.0][SQL] Correction de la nullité des sous-requêtes INListQuery.
- [SPARK-43522][SQL] Correction de la création du nom de la colonne de structure avec l’index du tableau.
- [SPARK-42444][PYTHON] DataFrame.drop traite désormais correctement des colonnes dupliquées.
- [SPARK-43541][SQL] Propagation de toutes les balises Project dans la résolution des expressions et des colonnes manquantes.
- [SPARK-43340][CORE] Correction du champ stack-trace manquant dans les journaux d’événements.
- [SPARK-42937][SQL] PlanSubqueries définit désormais InSubqueryExec#shouldBroadcast sur true.
- [SPARK-43527][PYTHON] Correction de catalog.listCatalogs dans PySpark.
- [SPARK-43378][CORE] Fermer correctement les objets de flux dans deserializeFromChunkedBuffer.
17 mai 2023
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
- Si un fichier Avro était lu avec uniquement l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution du schéma failOnNewColumns, les colonnes ayant des types de données différents seraient lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn.
- Auto Loader effectue désormais les opérations suivantes.
- - Lit correctement et ne récupère plus les types Integer, Short et Byte si l’un de ces types de données est fourni, mais que le fichier Avro suggère l’un des deux autres types.
- - Empêche la lecture des types d’intervalle comme des types de date ou d’horodatage afin d’éviter toute corruption des dates.
- - Empêche la lecture des types Decimal dont la précision est moindre.
- [SPARK-43098][SQL] Correction d’un bug d’exactitude COUNT lorsque la sous-requête scalaire est regroupée par clause.
- [SPARK-43190][SQL] ListQuery.childOutput est désormais cohérent avec les données de sortie secondaires.
- Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet était lu avec uniquement l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution du schéma failOnNewColumns, les colonnes ayant des types de données différents seraient lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn.
- Auto Loader lit désormais correctement et ne récupère plus les typesInteger, Short, Byte si l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données récupérées était précédemment activée, l’incompatibilité des types de données entraînait la récupération des colonnes même si elles étaient lisibles.
- [SPARK-43009][SQL] Paramétrisation de sql() avec des constantes Any.
- [SPARK-42971][CORE] Passer à l’impression workdir si appDirs est nul lorsque le gestionnaire traite l’événement WorkDirCleanup.
- Mises à jour de sécurité du système d’exploitation
mardi 11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande SYNC.
- Corrige un bug dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un référentiel.
- Correction d’un bogue où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42928][SQL] Synchronise resolvePersistentFunction.
- [SPARK-42967][CORE] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche démarre après l’annulation de l’étape.
- Mises à jour de sécurité du système d’exploitation
29 mars 2023
- Auto Loader déclenche désormais au moins un nettoyage synchrone du journal RocksDB pour les flux Trigger.AvailableNow afin de s’assurer que le point de contrôle peut être nettoyé régulièrement pour les flux Auto Loader à exécution rapide. Cela peut entraîner un allongement du temps nécessaire à la fermeture de certains flux, mais cela vous permettra de réduire vos coûts de stockage et d’améliorer l’expérience Auto Loader lors des prochaines exécutions.
- Vous pouvez désormais modifier une table Delta pour ajouter la prise en charge des fonctionnalités de table à l’aide de DeltaTable.addFeatureSupport(feature_name).
- [SPARK-42702][SPARK-42623][SQL] Prise en charge des requêtes paramétrées dans les sous-requêtes et les CTE
- [SPARK-41162][SQL] Correction de l’anti-jointure et de la semi-jointure pour les jointures sur elles-mêmes avec agrégations
- [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON nulles
- [SPARK-42668][SS] Intercepter l’exception lors de l’annulation du flux compressé dans HDFSStateStoreProvider stop
- [SPARK-42794][SS] Augmenter la valeur lockAcquireTimeoutMs à 2 minutes pour acquérir le magasin d’état RocksDB dans Structure Streaming
14 mars 2023
- Un changement de terminologie a été introduit pour ajouter des fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe privilégiée est désormais 'delta.feature.featureName'='supported' au lieu de 'delta.feature.featureName'='enabled'. Pour des raisons de compatibilité ascendante, l’utilisation de 'delta.feature.featureName'='enabled' fonctionne toujours et continuera de fonctionner.
- [SPARK-42622][CORE] Désactiver la substitution dans les valeurs
- [SPARK-42534][SQL] Correction de la clause DB2Dialect Limit
- [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
- [SPARK-42516][SQL] Toujours enregistrer la configuration du fuseau horaire de la session lors de la création de vues
- [SPARK-42484] [SQL] UnsafeRowUtils : message d’erreur amélioré
- [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur des décimales significatives
- Mises à jour de sécurité du système d’exploitation
24 février 2023
- Vous pouvez désormais utiliser un ensemble d’options unifiées (host, port, database, user, password) pour vous connecter aux sources de données prises en charge dans Query Federation (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez que port est facultatif et utilise le numéro de port par défaut pour chaque source de données si celui-ci n’est pas fourni.
Exemple de configuration de connexion PostgreSQL
```
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  database '<database-name>',
  user '<user>',
  password secret('scope', 'key')
);
```
Exemple de configuration de connexion Snowflake
```
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  port '<port-number>',
  database '<database-name>',
  user secret('snowflake_creds', 'my_username'),
  password secret('snowflake_creds', 'my_password'),
  schema '<schema-name>',
  sfWarehouse '<warehouse-name>'
);
```
- [SPARK-41989][PYTHON] Évitez de modifier la configuration de journalisation dans pyspark.pandas.
- [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
- [SPARK-41990][SQL] Utiliser FieldReference.column au lieu de apply dans la conversion de filtre v1 en V2
- Rétablir [SPARK-41848][CORE] Correction d’une tâche surchargée avec TaskResourceProfile
- [SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour la canonisation de grands arbres d’expressions commutatives
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- La commande SYNC prend en charge la synchronisation des tables du metastore Hive recréées. Si une table HMS a déjà été synchronisée avec Unity Catalog, puis supprimée et recréée, une nouvelle synchronisation fonctionnera au lieu de renvoyer le code d’état TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide utilise decimal(1, 0) pour représenter 0
- [SPARK-36173][CORE] Prise en charge de l’obtention du numéro de CPU dans TaskContext
- [SPARK-41848][CORE] Correction d’une tâche surchargée avec TaskResourceProfile
- [SPARK-42286][SQL] Revenir au chemin de code générique précédent pour les expressions complexes avec CAST
31 janvier 2023
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose de privilèges SELECT et MODIFY sur ANY FILE.
- [SPARK-41581][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Corriger le test Kafka afin de vérifier les partitions perdues et tenir compte du ralentissement des opérations Kafka
- [SPARK-41580][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2137
- [SPARK-41666][PYTHON] Prise en charge du SQL paramétré par sql()
- [SPARK-41579][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Followup] Correction d’une régression de synchronisation de code pour ConvertToLocalRelation
- [SPARK-41576][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2054
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 12.0

Consultez Databricks Runtime 12.0 (EoS).

15 juin 2023
- approx_count_distinct photonisé.
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- [SPARK-43156][SPARK-43098][SQL] Tester le bug lié au nombre de sous-requêtes scalaires avec la fonction decorrelateInnerQuery désactivée
- [SPARK-43779][SQL] ParseToDate se charge désormais EvalMode dans le thread principal.
- Mises à jour de sécurité du système d’exploitation
2 juin 2023
- L’analyseur JSON en mode failOnUnknownFields supprime un enregistrement dans le mode DROPMALFORMED et échoue directement en mode FAILFAST.
- Renforcez les performances de la mise à jour incrémentielle avec SHALLOW CLONE Iceberg et Parquet.
- Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-42444][PYTHON] DataFrame.drop traite désormais correctement des colonnes dupliquées.
- [SPARK-43404][Backport] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur d’incohérence d’ID.
- [SPARK-43413][11.3-13.0][SQL] Correction de la nullité des sous-requêtes INListQuery.
- [SPARK-43527][PYTHON] Correction de catalog.listCatalogs dans PySpark.
- [SPARK-43522][SQL] Correction de la création du nom de la colonne de structure avec l’index du tableau.
- [SPARK-43541][SQL] Propagation de toutes les balises Project dans la résolution des expressions et des colonnes manquantes.
- [SPARK-43340][CORE] Correction du champ stack-trace manquant dans les journaux d’événements.
- [SPARK-42937][SQL] PlanSubqueries définit InSubqueryExec#shouldBroadcast sur true.
17 mai 2023
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
- Si un fichier Avro était lu avec uniquement l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution du schéma failOnNewColumns, les colonnes ayant des types de données différents seraient lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn.
- Auto Loader effectue désormais les opérations suivantes.
- - Lit correctement et ne récupère plus les types Integer, Short et Byte si l’un de ces types de données est fourni, mais que le fichier Avro suggère l’un des deux autres types.
- - Empêche la lecture des types d’intervalle comme des types de date ou d’horodatage afin d’éviter toute corruption des dates.
- - Empêche la lecture des types Decimal dont la précision est moindre.
- [SPARK-43172] [CONNECT] Expose l’hôte et le jeton du client Spark Connect.
- [SPARK-41520][SQL] Fractionnez le modèle d’arborescence AND_OR pour dissocier AND et OR.
- [SPARK-43098][SQL] Correction d’un bug d’exactitude COUNT lorsque la sous-requête scalaire est regroupée par clause.
- [SPARK-43190][SQL] ListQuery.childOutput est désormais cohérent avec les données de sortie secondaires.
- Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet était lu avec uniquement l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution du schéma failOnNewColumns, les colonnes ayant des types de données différents seraient lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn.
- Auto Loader lit désormais correctement et ne récupère plus les typesInteger, Short, Byte si l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données récupérées était précédemment activée, l’incompatibilité des types de données entraînait la récupération des colonnes même si elles étaient lisibles.
- [SPARK-42971][CORE] Passer à l’impression workdir si appDirs est nul lorsque le gestionnaire traite l’événement WorkDirCleanup
- Mises à jour de sécurité du système d’exploitation
mardi 11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande SYNC.
- Corrige un bug dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un référentiel.
- Correction d’un bogue où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42928][SQL] Synchronise resolvePersistentFunction.
- [SPARK-42967][CORE] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche démarre après l’annulation de l’étape.
- Mises à jour de sécurité du système d’exploitation
29 mars 2023
- [SPARK-42794][SS] Augmenter la valeur lockAcquireTimeoutMs à 2 minutes pour acquérir le magasin d’état RocksDB dans Structure Streaming
- [SPARK-41162][SQL] Correction de l’anti-jointure et de la semi-jointure pour les jointures sur elles-mêmes avec agrégations
- [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON nulles
- [SPARK-42668][SS] Intercepter l’exception lors de l’annulation du flux compressé dans HDFSStateStoreProvider stop
- Divers correctifs de bogues.
14 mars 2023
- [SPARK-42534][SQL] Correction de la clause DB2Dialect Limit
- [SPARK-42622][CORE] Désactiver la substitution dans les valeurs
- [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur des décimales significatives
- [SPARK-42484] [SQL] UnsafeRowUtils : message d’erreur amélioré
- [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
- [SPARK-42516][SQL] Toujours enregistrer la configuration du fuseau horaire de la session lors de la création de vues
- Mises à jour de sécurité du système d’exploitation
24 février 2023
- Options de connexion standardisées pour la fédération de requêtes
  
  Vous pouvez désormais utiliser un ensemble d’options unifiées (host, port, database, user, password) pour vous connecter aux sources de données prises en charge dans Query Federation (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez que port est facultatif et utilisera le numéro de port par défaut pour chaque source de données si celui-ci n’est pas fourni.
  
  Exemple de configuration de connexion PostgreSQL
```
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  database '<database-name>',
  user '<user>',
  password secret('scope', 'key')
);
```
  Exemple de configuration de connexion Snowflake
```
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  port '<port-number>',
  database '<database-name>',
  user secret('snowflake_creds', 'my_username'),
  password secret('snowflake_creds', 'my_password'),
  schema '<schema-name>',
  sfWarehouse '<warehouse-name>'
);
```
- Rétablir [SPARK-41848][CORE] Correction d’une tâche surchargée avec TaskResourceProfile
- [SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour la canonisation de grands arbres d’expressions commutatives
- [SPARK-41990][SQL] Utiliser FieldReference.column au lieu de apply dans la conversion de filtre v1 en V2
- [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent la version 3 de Reader et la version 7 de Writer, à l’aide de Databricks Runtime 9.1 ou d’une version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- La commande SYNC prend en charge la synchronisation des tables du metastore Hive recréées. Si une table HMS a déjà été synchronisée avec Unity Catalog, puis supprimée et recréée, une nouvelle synchronisation fonctionnera au lieu de renvoyer le code d’état TABLE_ALREADY_EXISTS.
- [SPARK-36173][CORE] Prise en charge de l’obtention du numéro de CPU dans TaskContext
- [SPARK-42286][SQL] Revenir au chemin de code générique précédent pour les expressions complexes avec CAST
- [SPARK-41848][CORE] Correction d’une tâche surchargée avec TaskResourceProfile
- [SPARK-41219][SQL] IntegralDivide utilise decimal(1, 0) pour représenter 0
25 janv. 2023
- [SPARK-41660][SQL] Ne propager les colonnes de métadonnées que si elles sont utilisées
- [SPARK-41379][SS][PYTHON] Fournir une session Spark clonée dans DataFrame dans la fonction utilisateur pour le sink foreachBatch dans PySpark
- [SPARK-41669][SQL] Taille précoce dans canCollapseExpressions
- Mises à jour de sécurité du système d’exploitation
18 janvier 2023
- La commande SQL REFRESH FUNCTION prend désormais en charge les fonctions SQL et les fonctions table SQL. Par exemple, la commande peut être utilisée pour actualiser une fonction SQL persistante qui a été mise à jour dans une autre session SQL.
- La source de données Java Database Connectivity (JDBC) v1 prend désormais en charge la clause pushdown LIMIT afin d’améliorer les performances des requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
- Dans les clusters d’ACL de table héritées, la création de fonctions qui référencent des classes JVM nécessite désormais le privilège MODIFY_CLASSPATH.
- La source de données Java Database Connectivity (JDBC) v1 prend désormais en charge la clause pushdown LIMIT afin d’améliorer les performances des requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné : Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace.
- Le streaming structuré Spark fonctionne désormais avec format(“deltasharing”) comme source sur une table de partage delta.
- [SPARK-38277][SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- [SPARK-41733][SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle ResolveWindowTime
- [SPARK-39591][SS] Suivi de progression asynchrone
- [SPARK-41339][SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41198][SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41539][SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
- [SPARK-41732][SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41199][SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41261][PYTHON][SS] Correction du problème pour applyInPandasWithState quand les colonnes de clés de regroupement ne sont pas placées dans l’ordre à partir du plus vieux
- Mises à jour de sécurité du système d’exploitation
17 mai 2023
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
- Correction d’une régression qui entraînait la persistance des tâches Azure Databricks après l’échec de la connexion au métastore lors de l’initialisation du cluster.
- [SPARK-41520][SQL] Fractionnez le modèle d’arborescence AND_OR pour dissocier AND et OR.
- [SPARK-43190][SQL] ListQuery.childOutput est désormais cohérent avec les données de sortie secondaires.
- Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet était lu avec uniquement l’option failOnUnknownFields ou avec Auto Loader en mode d’évolution du schéma failOnNewColumns, les colonnes ayant des types de données différents seraient lues comme null au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’option rescuedDataColumn.
- Auto Loader lit désormais correctement et ne récupère plus les typesInteger, Short, Byte si l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données récupérées était précédemment activée, l’incompatibilité des types de données entraînait la récupération des colonnes même si elles étaient lisibles.
- [SPARK-42937][SQL] PlanSubqueries définit désormais InSubqueryExec#shouldBroadcast sur true.
- Mises à jour de sécurité du système d’exploitation
mardi 11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande SYNC.
- Corrige un bug dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un référentiel.
- Correction d’un bogue où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42928][SQL] Synchroniser resolvePersistentFunction.
- [SPARK-42967][CORE] Corrige SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est lancée après l’annulation de l’étape.
29 mars 2023
- [SPARK-42794][SS] Augmenter la valeur lockAcquireTimeoutMs à 2 minutes pour acquérir le magasin d’état RocksDB dans Structure Streaming
- [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON nulles
- [SPARK-42668][SS] Intercepter l’exception lors de l’annulation du flux compressé dans HDFSStateStoreProvider stop
- Mises à jour de sécurité du système d’exploitation
14 mars 2023
- [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
- [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur des décimales significatives
- [SPARK-42484] [SQL] UnsafeRowUtils : message d’erreur amélioré
- [SPARK-42534][SQL] Correction de la clause DB2Dialect Limit
- [SPARK-41162][SQL] Correction de l’anti-jointure et de la semi-jointure pour les jointures sur elles-mêmes avec agrégations
- [SPARK-42516][SQL] Toujours enregistrer la configuration du fuseau horaire de la session lors de la création de vues
- Divers correctifs de bogues.
28 février 2023
- Options de connexion standardisées pour la fédération de requêtes
  
  Vous pouvez désormais utiliser un ensemble d’options unifiées (host, port, database, user, password) pour vous connecter aux sources de données prises en charge dans Query Federation (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez que port est facultatif et utilise le numéro de port par défaut pour chaque source de données si celui-ci n’est pas fourni.
  
  Exemple de configuration de connexion PostgreSQL
```
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  database '<database-name>',
  user '<user>',
  password secret('scope', 'key')
);
```
  Exemple de configuration de connexion Snowflake
```
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  port '<port-number>',
  database '<database-name>',
  user secret('snowflake_creds', 'my_username'),
  password secret('snowflake_creds', 'my_password'),
  schema '<schema-name>',
  sfWarehouse '<warehouse-name>'
);
```
- [SPARK-42286][SQL] Revenir au chemin de code générique précédent pour les expressions complexes avec CAST
- [SPARK-41989][PYTHON] Évitez de modifier la configuration de journalisation dans pyspark.pandas.
- [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
- [SPARK-41360][CORE] Éviter de réenregistrer BlockManager si l’exécuteur a été perdu.
- [SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour la canonisation de grands arbres d’expressions commutatives
- [SPARK-41990][SQL] Utiliser FieldReference.column au lieu de apply dans la conversion de filtre v1 en V2
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent la version 3 de Reader et la version 7 de Writer, à l’aide de Databricks Runtime 9.1 ou d’une version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- La commande SYNC prend en charge la synchronisation des tables du metastore Hive recréées. Si une table HMS a déjà été synchronisée avec Unity Catalog, puis supprimée et recréée, une nouvelle synchronisation fonctionnera au lieu de renvoyer le code d’état TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide utilise decimal(1, 0) pour représenter 0
- [SPARK-40382][SQL] Regrouper les expressions agrégées distinctes par enfants sémantiquement équivalents dans RewriteDistinctAggregates
- Mises à jour de sécurité du système d’exploitation
25 janv. 2023
- [SPARK-41379][SS][PYTHON] Fournir une session Spark clonée dans DataFrame dans la fonction utilisateur pour le sink foreachBatch dans PySpark
- [SPARK-41660][SQL] Ne propager les colonnes de métadonnées que si elles sont utilisées
- [SPARK-41669][SQL] Taille précoce dans canCollapseExpressions
- Divers correctifs de bogues.
18 janvier 2023
- La commande SQL REFRESH FUNCTION prend désormais en charge les fonctions SQL et les fonctions table SQL. Par exemple, la commande peut être utilisée pour actualiser une fonction SQL persistante qui a été mise à jour dans une autre session SQL.
- La source de données Java Database Connectivity (JDBC) v1 prend désormais en charge la clause pushdown LIMIT afin d’améliorer les performances des requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
- La source de données Java Database Connectivity (JDBC) v1 prend désormais en charge la clause pushdown LIMIT afin d’améliorer les performances des requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné : Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace.
- [SPARK-41198][SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41539][SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
- [SPARK-39591][SS] Suivi de progression asynchrone
- [SPARK-41199][SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41261][PYTHON][SS] Correction du problème pour applyInPandasWithState quand les colonnes de clés de regroupement ne sont pas placées dans l’ordre à partir du plus vieux
- [SPARK-41339][SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732][SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-38277][SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
  - csvignoreleadingwhitespace, quand est défini sur true, supprime l’espace blanc de début des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
  - csvignoretrailingwhitespace, quand est défini sur true, supprime l’espace blanc de fin des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (cloudFiles.inferColumnTypes n’a pas été définie ou définie sur false) et que le JSON contenait des objets imbriqués.
- Mettez à niveau la dépendance snowflake-jdbcvers la version 3.13.22.
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
- [SPARK-40906][SQL] Mode doit copier les clés avant l’insertion dans Map
- Mises à jour de sécurité du système d’exploitation
15 novembre 2022
- Les ACL de table et les clusters partagés UC autorisent désormais la méthode Dataset.toJSON à partir de Python.
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour activer le comportement amélioré, définissez spark.sql.json.enablePartialResults surtrue. L’indicateur est désactivé par défaut afin de conserver le comportement d’origine
- [SPARK-40903][SQL] Éviter de réorganiser l’ajout décimal pour la canonicalisation si le type de données est modifié
- [SPARK-40618][SQL] Correction d’un bogue dans la règle MergeScalarSubqueries avec des sous-requêtes imbriquées à l’aide du suivi des références
- [SPARK-40697][SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- Mises à jour de sécurité du système d’exploitation
1 novembre 2022
- Flux structuré dans Unity Catalog prend désormais en charge l’actualisation des jetons d’accès temporaires. Les charges de travail de streaming qui s’exécutent avec Unity Catalog tous les clusters d’usage ou de travaux n’échouent plus après l’expiration du jeton initial.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
- Correction d’un problème où l’exécution MERGE et l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution de java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow.
- Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé.
- Mise à niveau d’Apache commons-text vers 1.10.0.
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] Ajout de la prise en charge de la configuration de MetricsLevel CloudWatch
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- [SPARK-40670][SS][PYTHON] Correction de NPE dans applyInPandasWithState lorsque le schéma d’entrée a des colonnes « non nullables »
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 11.2

Consultez Databricks Runtime 11.2 (EoS).

28 février 2023
- [SPARK-42286][SQL] Revenir au chemin de code générique précédent pour les expressions complexes avec CAST
- [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent la version 3 de Reader et la version 7 de Writer, à l’aide de Databricks Runtime 9.1 ou d’une version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- La commande SYNC prend en charge la synchronisation des tables du metastore Hive recréées. Si une table HMS a déjà été synchronisée avec Unity Catalog, puis supprimée et recréée, une nouvelle synchronisation fonctionnera au lieu de renvoyer le code d’état TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide utilise decimal(1, 0) pour représenter 0
- Mises à jour de sécurité du système d’exploitation
31 janv. 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
- [SPARK-41379][SS][PYTHON] Fournir une session Spark clonée dans DataFrame dans la fonction utilisateur pour le sink foreachBatch dans PySpark
18 janv. 2023
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné : Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace.
- [SPARK-41198][SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41539][SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
- [SPARK-41199][SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41339][SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732][SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-38277][SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
  - csvignoreleadingwhitespace, quand est défini sur true, supprime l’espace blanc de début des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
  - csvignoretrailingwhitespace, quand est défini sur true, supprime l’espace blanc de fin des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (cloudFiles.inferColumnTypes n’a pas été définie ou définie sur false) et que le JSON contenait des objets imbriqués.
- [SPARK-40906][SQL] Mode doit copier les clés avant l’insertion dans Map
- Mises à jour de sécurité du système d’exploitation
15 novembre 2022
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour activer le comportement amélioré, définissez spark.sql.json.enablePartialResults surtrue. L’indicateur est désactivé par défaut afin de conserver le comportement d’origine
- [SPARK-40618][SQL] Correction d’un bogue dans la règle MergeScalarSubqueries avec des sous-requêtes imbriquées à l’aide du suivi des références
- [SPARK-40697][SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- Mises à jour de sécurité du système d’exploitation
1 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
- Correction d’un problème où l’exécution MERGE et l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution de java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow.
- Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
19 octobre 2022
- Correction d’un problème lié à l’utilisation de COPY INTO avec des informations d’identification temporaires sur des clusters/entrepôts avec Unity Catalog.
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(« spark.databricks.io.listKeysWithPrefix.azure.enabled », « true ») pour réactiver la liste native du chargeur automatique sur ADLS. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur Databricks Runtime 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- [SPARK-40315][SQL] Prise en charge de l’URL encode/décodage en tant que fonction intégrée et fonctions liées à l’URL de nettoyage
- [SPARK-40156][SQL]url_decode() doit retourner une classe d’erreur
- [SPARK-40169] Ne pas envoyer de filtre Parquet pushdown sans référence au schéma de données
- [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de _metadata
- [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- [SPARK-40055][SQL] listCatalogs doit également retourner spark_catalog même quand l’implémentation de spark_catalog est defaultSessionCatalog
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40389][SQL] Les décimales ne peuvent pas effectuer un upcast en tant que types intégraux si le cast peut dépasser
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-40066][SQL][FOLLOW-UP] Vérification si ElementAt est résolu avant d’obtenir son dataType
- [SPARK-40109][SQL] Nouvelle fonction SQL : get()
- [SPARK-40066][SQL] Mode ANSI : retourne toujours null sur l’accès non valide à la colonne mappée
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-35542][ML] Correctif : Bucketizer créé pour plusieurs colonnes avec des paramètres
- [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
- [SPARK-39912]SPARK-39828[SQL] Affiner CatalogImpl

Databricks Runtime 11.1

Consultez Databricks Runtime 11.1 (EoS).

31 janvier 2023
- [SPARK-41379][SS][PYTHON] Fournir une session Spark clonée dans DataFrame dans la fonction utilisateur pour le sink foreachBatch dans PySpark
- Divers correctifs de bogues.
18 janvier 2023
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné : Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace.
- [SPARK-41198][SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41199][SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41339][SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732][SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-38277][SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
  - csvignoreleadingwhitespace, quand est défini sur true, supprime l’espace blanc de début des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
  - csvignoretrailingwhitespace, quand est défini sur true, supprime l’espace blanc de fin des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (cloudFiles.inferColumnTypes n’a pas été définie ou définie sur false) et que le JSON contenait des objets imbriqués.
- [SPARK-39650][SS] Correction d’un schéma de valeur incorrect dans la déduplication de streaming avec compatibilité descendante
- Mises à jour de sécurité du système d’exploitation
15 novembre 2022
- [SPARK-40646] LL’analyse JSON pour les structures, les cartes et les tableaux a été corrigée afin que, lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement puisse toujours être analysé correctement au lieu de renvoyer des valeurs nulles. Pour activer ce comportement amélioré, définissez spark.sql.json.enablePartialResults sur true. L’indicateur est désactivé par défaut afin de conserver le comportement d’origine
- Mises à jour de sécurité du système d’exploitation
1 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
- Correction d’un problème où l’exécution MERGE et l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution de java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow.
- Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé
- [SPARK-40697][SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
18 octobre 2022
- Correction d’un problème lié à l’utilisation de COPY INTO avec des informations d’identification temporaires sur des clusters/entrepôts avec Unity Catalog.
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(« spark.databricks.io.listKeysWithPrefix.azure.enabled », « true ») pour réactiver la liste native du chargeur automatique sur ADLS. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur Databricks Runtime 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- [SPARK-40169] Ne pas envoyer de filtre Parquet pushdown sans référence au schéma de données
- [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de _metadata
- [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- [SPARK-40055][SQL] listCatalogs doit également retourner spark_catalog même quand l’implémentation de spark_catalog est defaultSessionCatalog
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
6 septembre 2022
- Nous avons mis à jour le modèle d’autorisation dans les contrôles d’accès aux tables (ACL de table) afin que seules les autorisations MODIFY soient nécessaires pour modifier le schéma ou les propriétés de table d’une table avec ALTER TABLE. Auparavant, ces opérations exigeaient qu’un utilisateur soit propriétaire de la table. La propriété est toujours requise pour accorder des autorisations sur une table, et modifier son propriétaire, son emplacement ou son nom. Cette modification rend le modèle d’autorisation pour les listes de contrôle d’accès à la table plus cohérent avec Unity Catalog.
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
- [SPARK-40053][CORE][SQL][TESTS] Ajouter assume aux cas d’annulation dynamique nécessitant un environnement de runtime Python
- [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
24 août 2022
- Les partages, les fournisseurs et les destinataires prennent désormais en charge les commandes SQL pour modifier les propriétaires, les commentaires, renommer
- [SPARK-39983][CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39912][SPARK-39828][SQL] Affiner CatalogImpl
- [SPARK-39775][CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
- [SPARK-39867][SQL] La limite globale ne doit pas hériter de OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- [SPARK-39839][SQL] Gestion du cas spécial de la décimale de longueur de variable null avec offsetAndSize autre que zéro dans la vérification d’intégrité structurelle UnsafeRow
- [SPARK-39713][SQL] Mode ANSI : ajout d’une suggestion d’utilisation de try_element_at pour l’erreur INVALID_ARRAY_INDEX
- [SPARK-39847][SS] Correction de la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731][SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- Mises à jour de sécurité du système d’exploitation
10 août 2022
- Pour des tables Delta avec contrôle d’accès, une évolution automatique du schéma via des instructions DML telles que INSERT et MERGE est désormais disponible pour tous les utilisateurs disposant d’autorisations MODIFY sur ces tables. En outre, les autorisations requises pour opérer l’évolution du schéma avec COPY INTO sont désormais réduites de OWNER à MODIFY pour la cohérence avec d’autres commandes. Ces modifications rendent le modèle de sécurité d’ACL de table plus cohérent avec le modèle de sécurité de Unity Catalog, ainsi qu’avec d’autres opérations telles que le remplacement de table.
- [SPARK-39889] Améliorer le message d’erreur de division par 0
- [SPARK-39795] [SQL] Nouvelle fonction SQL : try_to_timestamp
- [SPARK-39749] Toujours utiliser une représentation sous forme de chaîne simple lors du forçage de type de la chaîne décimale en mode ANSI
- [SPARK-39625] Renommer df.as en df.to
- [SPARK-39787] [SQL] Utiliser la classe d’erreur dans l’erreur d’analyse de la fonction to_timestamp
- [SPARK-39625] [SQL] Ajouter Dataset.as(StructType)
- [SPARK-39689] Prise en charge de 2 caractères lineSep dans la source de données CSV
- [SPARK-39579] [SQL][python][R] Make ListFunctions/getFunctions/functionExists compatible avec l’espace de noms de couche 3
- [SPARK-39702] [CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575] [AVRO] Ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39265] [SQL] Corriger l’échec du test lorsque SPARK_ANSI_SQL_MODE est activé
- [SPARK-39441] [SQL] Accélérer DeduplicateRelations
- [SPARK-39497] [SQL] Amélioration de l’exception d’analyse de colonne clé de carte manquante
- [SPARK-39476] [SQL] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- [SPARK-39434] [SQL] Fournir le contexte de requête d’erreur du runtime lorsque l’index de tableau est hors limite

Databricks Runtime 11.0

Consultez Databricks Runtime 11.0 (EoS).

29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
  - csvignoreleadingwhitespace, quand est défini sur true, supprime l’espace blanc de début des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
  - csvignoretrailingwhitespace, quand est défini sur true, supprime l’espace blanc de fin des valeurs pendant les écritures lorsque tempformat est défini sur CSV ou CSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie sur false. Par défaut, la valeur est true.
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (cloudFiles.inferColumnTypes n’a pas été définie ou définie sur false) et que le JSON contenait des objets imbriqués.
- [SPARK-39650][SS] Correction d’un schéma de valeur incorrect dans la déduplication de streaming avec compatibilité descendante
- Mises à jour de sécurité du système d’exploitation
15 novembre 2022
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour activer le comportement amélioré, définissez spark.sql.json.enablePartialResults surtrue. L’indicateur est désactivé par défaut afin de conserver le comportement d’origine.
1 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
- Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand allowOverwrites est activé
- [SPARK-40697][SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
18 octobre 2022
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(« spark.databricks.io.listKeysWithPrefix.azure.enabled », « true ») pour réactiver la liste native du chargeur automatique sur ADLS. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur Databricks Runtime 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- [SPARK-40169] Ne pas envoyer de filtre Parquet pushdown sans référence au schéma de données
- [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de _metadata
- [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
6 septembre 2022
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
- [SPARK-40053][CORE][SQL][TESTS] Ajouter assume aux cas d’annulation dynamique nécessitant un environnement de runtime Python
- [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
24 août 2022
- [SPARK-39983][CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39775][CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
- [SPARK-39867][SQL] La limite globale ne doit pas hériter de OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- Mises à jour de sécurité du système d’exploitation
9 août 2022
- [SPARK-39713][SQL] Mode ANSI : ajout d’une suggestion d’utilisation de try_element_at pour l’erreur INVALID_ARRAY_INDEX
- [SPARK-39847] Corriger la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731][SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- [SPARK-39889] Améliorer le message d’erreur de division par 0
- [SPARK-39795] [SQL] Nouvelle fonction SQL : try_to_timestamp
- [SPARK-39749] Toujours utiliser une représentation sous forme de chaîne simple lors du forçage de type de la chaîne décimale en mode ANSI
- [SPARK-39625][SQL] Ajouter Dataset.to(StructType)
- [SPARK-39787] [SQL] Utiliser la classe d’erreur dans l’erreur d’analyse de la fonction to_timestamp
- Mises à jour de sécurité du système d’exploitation
27 juillet 2022
- [SPARK-39689] Prise en charge de 2 caractères lineSep dans la source de données CSV
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39702] [CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575] [AVRO] Ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39497] [SQL] Amélioration de l’exception d’analyse de colonne clé de carte manquante
- [SPARK-39441] [SQL] Accélérer DeduplicateRelations
- [SPARK-39476] [SQL] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- [SPARK-39434] [SQL] Fournir le contexte de requête d’erreur du runtime lorsque l’index de tableau est hors limite
- [SPARK-39570][SQL] La table incluse devrait autoriser les expressions avec alias
- Mises à jour de sécurité du système d’exploitation
13 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- Correction d’un problème pour la fonction table (TVF) cloud_files_state lors de l’exécution sur des chemins autres que DBFS.
- Désactivation de l'utilisation par l'Auto Loader des API cloud natives pour le listage des répertoires sur Azure.
- [SPARK-38796][SQL] Mise à jour des fonctions to_number et try_to_number pour autoriser une demande de tirage (PR) avec des nombres positifs
- [SPARK-39272][SQL] Augmentation de la position de début du contexte de requête de 1
- [SPARK-39419][SQL] Correction de ArraySort pour lever une exception lorsque le comparateur retourne null
- Mises à jour de sécurité du système d’exploitation
5 juillet 2022
- Amélioration des messages d’erreur pour une série de classes d’erreurs.
- [SPARK-39451][SQL] Prise en charge du cast des intervalles en entiers en mode ANSI
- [SPARK-39361] N’utilisez pas le modèle de conversion extensible de Log4J2 dans les configurations de journalisation par défaut
- [SPARK-39354][SQL] Affichage de Table or view not found même s’il y a des dataTypeMismatchError relatives à Filter en même temps
- [SPARK-38675][CORE] Correction de la compétition pendant le déverrouillage dans BlockInfoManager
- [SPARK-39392][SQL] Gestion plus fine des messages d’erreur ANSI pour les conseils de la fonction try_*
- [SPARK-39214][SQL][3.3] Amélioration des erreurs liées à CAST
- [SPARK-37939][SQL] Utilisation de classes d’erreurs dans les erreurs d’analyse des propriétés
- [SPARK-39085][SQL] Déplacer le message d’erreur de INCONSISTENT_BEHAVIOR_CROSS_VERSION vers error-classes.json
- [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 10.5

Consultez Databricks Runtime 10.5 (EoS).

1 novembre 2022
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée _change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution de MERGE.
- [SPARK-40697][SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(« spark.databricks.io.listKeysWithPrefix.azure.enabled », « true ») pour réactiver la liste native du chargeur automatique sur ADLS. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur Databricks Runtime 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- reload4j a été mis à niveau vers la version 1.2.19 pour corriger les vulnérabilités.
- [SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de _metadata
- [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-38404][SQL] Amélioration de la résolution CTE lorsqu’un CTE imbriqué fait référence à un CTE externe
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- Mises à jour de sécurité du système d’exploitation
6 septembre 2022
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
- [SPARK-40053][CORE][SQL][TESTS] Ajouter assume aux cas d’annulation dynamique nécessitant un environnement de runtime Python
- [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
24 août 2022
- [SPARK-39983][CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39775][CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- [SPARK-37643][SQL] Lorsque charVarcharAsString a la valeur true, pour que la requête de prédicat de type de données char ignore la règle rpadding
- Mises à jour de sécurité du système d’exploitation
9 août 2022
- [SPARK-39847] Corriger la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731][SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- Mises à jour de sécurité du système d’exploitation
27 juillet 2022
- [SPARK-39625] [SQL] Ajouter Dataset.as(StructType)
- [SPARK-39689] Prise en charge de 2 caractères lineSep dans la source de données CSV
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39570][SQL] La table incluse devrait autoriser les expressions avec alias
- [SPARK-39702] [CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575] [AVRO] Ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39476] [SQL] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- Mises à jour de sécurité du système d’exploitation
13 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39355][SQL] Une colonne unique utilise des guillemets pour construire UnresolvedAttribute
- [SPARK-39548][SQL] La commande CreateView avec une requête de clause de fenêtre a rencontré un problème introuvable de définition de fenêtre incorrecte
- [SPARK-39419][SQL] Correction de ArraySort pour lever une exception lorsque le comparateur retourne null
- Désactivation de l'utilisation par l'Auto Loader des API cloud natives pour le listage des répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
5 juillet 2022
- [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- Mises à jour de sécurité du système d’exploitation
15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
- [SPARK-36718][SQL][FOLLOWUP] Corriger la vérification isExtractOnly dans CollapseProject
2 juin 2022
- [SPARK-39166][SQL] Fournir le contexte de requête d’erreur d’exécution pour l’arithmétique binaire lorsque WSCG est désactivé
- [SPARK-39093][SQL] Éviter une erreur de compilation codegen lors de la division des intervalles d’année-mois ou des intervalles de jours-heures par une intégrale
- [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-38868][SQL]Ne propagez pas les exceptions du prédicat de filtre lors de l’optimisation des jointures externes
- [SPARK-38796][SQL] Implémentation des fonctions SQL to_number et try_to_number selon une nouvelle spécification
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-38929][SQL] Amélioration des messages d’erreur pour les échecs de cast en ANSI
- [SPARK-38926][SQL] Types de sortie dans les messages d’erreur dans le style SQL
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-32268][SQL] Ajout de ColumnPruning dans injectBloomFilter
- [SPARK-38908][SQL] Contexte de requête fourni dans l’erreur d’exécution du cast du type String vers Number/Date/Timestamp/Boolean
- [SPARK-39046][SQL] Retour d’une chaîne de contexte vide si TreeNode.origin est mal défini
- [SPARK-38974][SQL] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
- [SPARK-38762][SQL] Contexte de requête fourni dans les erreurs de dépassement Decimal
- [SPARK-38931][SS] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
- [SPARK-38992][CORE] Non utilisation de bash -c dans ShellBasedGroupsMappingProvider
- [SPARK-38716][SQL] Contexte de requête fourni dans l’erreur indiquant que la clé de carte n’existe pas
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- [SPARK-38698][SQL] Contexte de requête fourni dans l’erreur d’exécution de Divide/Div/Reminder/Pmod
- [SPARK-38823][SQL] Fait en sorte que NewInstance ne peut pas être plié pour corriger le problème de corruption de tampon d’agrégation
- [SPARK-38809][SS] Implémentation de l’option pour ignorer les valeurs Null dans l’implémentation du hachage symétrique des jointures de flux
- [SPARK-38676][SQL] Contexte de requête SQL fourni dans le message d’erreur d’exécution de Add/Substract/Multiply
- [SPARK-38677][PYSPARK] Python MonitorThread doit détecter le blocage en raison des E/S bloquantes
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 10.3

Consultez Databricks Runtime 10.3 (EoS).

27 juillet 2022
- [SPARK-39689] Prise en charge de 2 caractères lineSep dans la source de données CSV
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39702] [CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- Mises à jour de sécurité du système d’exploitation
20 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39476] [SQL] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- [SPARK-39548][SQL] La commande CreateView avec une requête de clause de fenêtre a rencontré un problème introuvable de définition de fenêtre incorrecte
- [SPARK-39419][SQL] Correction de ArraySort pour lever une exception lorsque le comparateur retourne null
- Mises à jour de sécurité du système d’exploitation
5 juillet 2022
- [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- Mises à jour de sécurité du système d’exploitation
15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
- [SPARK-36718][SQL][FOLLOWUP] Corriger la vérification isExtractOnly dans CollapseProject
2 juin 2022
- [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-37593][CORE] Réduction de la taille de page par défaut selon LONG_ARRAY_OFFSET si G1GC et ON_HEAP sont utilisés
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-32268][SQL] Ajout de ColumnPruning dans injectBloomFilter
- [SPARK-38974][SQL] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- Mises à jour de sécurité du système d’exploitation
4 mai 2022
- Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
19 avril 2022
- [SPARK-38616][SQL] Suivi du texte de requête SQL dans Catalyst TreeNode
- Mises à jour de sécurité du système d’exploitation
6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
22 mars 2022
- Le répertoire de travail actuel des notebooks sur les clusters à haute concurrence avec le contrôle d’accès aux tables ou le transfert d’informations d’identification activé a été modifié pour pointer vers le répertoire de base de l’utilisateur. Auparavant, le répertoire de travail était /databricks/driver.
- [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
- [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
23 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet

Databricks Runtime 10.2

Consultez Databricks Runtime 10.2 (EoS).

15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
2 juin 2022
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- [SPARK-38931][SS] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
- Mises à jour de sécurité du système d’exploitation
4 mai 2022
- Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
22 mars 2022
- Le répertoire de travail actuel des notebooks sur les clusters à haute concurrence avec le contrôle d’accès aux tables ou le transfert d’informations d’identification activé a été modifié pour pointer vers le répertoire de base de l’utilisateur. Auparavant, le répertoire de travail était /databricks/driver.
- [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
- [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
23 février 2022
- [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
8 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet.
- Mises à jour de sécurité du système d’exploitation
1 février 2022
- Mises à jour de sécurité du système d’exploitation
26 janv. 2022
- Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
19 janv. 2022
- Introduction de la prise en charge de l’insertion d’informations d’identification temporaires dans COPY INTO pour le chargement des données sources sans nécessiter les autorisations SQL ANY_FILE
- Correctifs de bogues et améliorations de la sécurité
20 décembre 2021
- Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.

Databricks Runtime 10.1

Consultez Databricks Runtime 10.1 (EoS).

15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
2 juin 2022
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- Mises à jour de sécurité du système d’exploitation
19 avril 2022
- [SPARK-37270][SQL] Correction d’envoi pliable dans des branches CaseWhen si elseValue est vide
- Mises à jour de sécurité du système d’exploitation
6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
22 mars 2022
- [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
- [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
23 février 2022
- [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
8 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet.
- Mises à jour de sécurité du système d’exploitation
1 février 2022
- Mises à jour de sécurité du système d’exploitation
26 janv. 2022
- Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
19 janv. 2022
- Introduction de la prise en charge de l’insertion d’informations d’identification temporaires dans COPY INTO pour le chargement des données sources sans nécessiter les autorisations SQL ANY_FILE
- Correction d’un problème de mémoire insuffisante avec la mise en cache des résultats des requêtes dans certaines conditions
- Correction d’un problème avec USE DATABASE lorsqu’un utilisateur change le catalogue actuel pour un catalogue non défini par défaut
- Correctifs de bogues et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
20 décembre 2021
- Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.

Databricks Runtime 10.0

Consultez Databricks Runtime 10.0 (EoS).

19 avril 2022
- [SPARK-37270][SQL] Correction d’envoi pliable dans des branches CaseWhen si elseValue est vide
- Mises à jour de sécurité du système d’exploitation
6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
22 mars 2022
- [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
- [SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
23 février 2022
- [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
8 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet.
- [SPARK-36905][SQL] Correction de la lecture des vues d’une ruche sans nom de colonne explicite
- [SPARK-37859][SQL] Correction du problème selon lequel les tables SQL créées avec JDBC avec Spark 3.1 ne sont pas lisibles avec la version 3.2
- Mises à jour de sécurité du système d’exploitation
1 février 2022
- Mises à jour de sécurité du système d’exploitation
26 janv. 2022
- Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
19 janv. 2022
- Correctifs de bogues et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
20 décembre 2021
- Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.
9 novembre 2021
- Introduction d’indicateurs de configuration supplémentaires pour permettre un contrôle affiné des comportements ANSI
4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
- Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
30 novembre 2021
- Correction d’un problème avec l’analyse des timestamps où une chaîne de fuseau horaire sans deux-points était considérée comme non valide
- Correction d’un problème de mémoire insuffisante avec la mise en cache des résultats des requêtes dans certaines conditions
- Correction d’un problème avec USE DATABASE lorsqu’un utilisateur change le catalogue actuel pour un catalogue non défini par défaut

Databricks Runtime 9.0

Consultez Databricks Runtime 9.0 (EoS).

8 février 2022
- Mises à jour de sécurité du système d’exploitation
1 février 2022
- Mises à jour de sécurité du système d’exploitation
26 janv. 2022
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
19 janv. 2022
- Correctifs de bogues et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
- Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
22 septembre 2021
- Correction d’un bogue dans le tableau Spark de conversion avec NULL en chaîne
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
8 septembre 2021
- Ajout de la prise en charge du nom de schéma (format databaseName.schemaName.tableName) comme nom de table cible pour le connecteur Azure Synapse
- Ajout de la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- [SPARK-33527][SQL] Extension de la fonction de décodage pour être cohérent avec les bases de données classiques
- [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
- Correction du lien rompu vers le meilleur notebook d’essai sur la page d’expérience AutoML

Databricks Runtime 8.4

Consultez Databricks Runtime 8.4 (EoS).

19 janvier 2022
- Mises à jour de sécurité du système d’exploitation
4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
- Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
22 septembre 2021
- Le pilote JDBC de Spark a été mis à niveau vers la version 2.6.19.1030
- [SPARK-36734][SQL] Mise à niveau d’ORC vers la version 1.5.1
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Mises à jour de sécurité du système d’exploitation
8 septembre 2021
- [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
- Correction d’un bogue dans le passage des informations d’identification causé par la nouvelle optimisation des prérécupérations de Parquet, où les informations d’identification directes de l’utilisateur peuvent ne pas être trouvées pendant l’accès au fichier.
11 août 2021
- Corrige un problème d’incompatibilité avec RocksDB qui empêchait l’utilisation de l’ancienne version Databricks Runtime 8.4. Cela corrige la compatibilité ascendante pour les applications Auto Loader, COPY INTO et de streaming avec état
- Corrige un bogue lors de l’utilisation d’Auto Loader pour lire des fichiers CSV dont les fichiers d’en-tête ne correspondent pas. Si les noms des colonnes ne correspondent pas, la colonne est remplie de valeurs NULL. Désormais, si un schéma est fourni, il suppose que le schéma est le même et n’enregistre les différences de colonnes que si les colonnes de données récupérées sont activées
- Ajoute une nouvelle option appelée externalDataSource dans le connecteur Azure Synapse pour supprimer l’exigence d’autorisation CONTROL sur la base de données pour la lecture de PolyBase
29 juillet 2021
- [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option connectionProvider

Databricks Runtime 8.3

Consultez Databricks Runtime 8.3 (EoS).

19 janvier 2022
- Mises à jour de sécurité du système d’exploitation
4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
22 septembre 2021
- Le pilote JDBC de Spark a été mis à niveau vers la version 2.6.19.1030
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Mises à jour de sécurité du système d’exploitation
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
- [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
- Correction d’un bogue dans le passage des informations d’identification causé par la nouvelle optimisation des prérécupérations de Parquet, où les informations d’identification directes de l’utilisateur peuvent ne pas être trouvées pendant l’accès au fichier.
11 août 2021
- Corrige un bogue lors de l’utilisation d’Auto Loader pour lire des fichiers CSV dont les fichiers d’en-tête ne correspondent pas. Si les noms des colonnes ne correspondent pas, la colonne est remplie de valeurs NULL. Désormais, si un schéma est fourni, il suppose que le schéma est le même et n’enregistre les différences de colonnes que si les colonnes de données récupérées sont activées
29 juillet 2021
- Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
- [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option connectionProvider
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Introduction du format database.schema.table pour le connecteur Synapse
- Ajout d’une prise en charge pour fournir le format databaseName.schemaName.tableName comme table cible au lieu de seulement schemaName.tableName ou tableName
15 juin 2021
- Correction d’un bogue NoSuchElementException dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
- Ajoute les commandes SQL CREATE GROUP, DROP GROUP, ALTER GROUP, SHOW GROUPS et SHOW USERS Pour plus d’informations, consultez Instructions de sécurité et Instructions d’affichage.

Databricks Runtime 8.2

Consultez Databricks Runtime 8.2 (EoS).

22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
- [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
- Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option connectionProvider
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Introduction du format database.schema.table pour le connecteur Synapse
- Ajout d’une prise en charge pour fournir le format databaseName.schemaName.tableName comme table cible au lieu de seulement schemaName.tableName ou tableName
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
15 juin 2021
- Corrige un bogue NoSuchElementException dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs

26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- Correction d’un problème de mémoire insuffisante lorsqu’Auto Loader rapporte les métriques de progression de Structured Streaming

Databricks Runtime 8.1

Consultez Databricks Runtime 8.1 (EoS).

22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
- [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
- Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option connectionProvider
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
15 juin 2021
- Corrige un bogue NoSuchElementException dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs

26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- Correction d’un problème de mémoire insuffisante lorsqu’Auto Loader rapporte les métriques de progression de Structured Streaming
27 avril 2021
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- [SPARK-34856][SQL] Mode ANSI : Autorise le cast de types complexes en type de chaîne
- [SPARK-35014] Corrige le modèle PhysicalAggregation pour ne pas réécrire les expressions pliables
- [SPARK-34769][SQL] AnsiTypeCoercion : renvoie le type convertible le plus étroit parmi TypeCollection
- [SPARK-34614][SQL] Mode ANSI : Le cast d’une valeur Chaîne en Booléenne déclenche une exception en cas d’erreur d’analyse
- [SPARK-33794][SQL] Mode ANSI : Corrige l’expression NextDay pour qu’elle lève l’exception IllegalArgumentException lors de la réception d’une entrée non valide dans le cadre de l’exécution

Databricks Runtime 8.0

Consultez Databricks Runtime 8.0 (EoS).

15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
- [SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option connectionProvider
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta

26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
24 mars 2021
- [SPARK-34681][SQL] Corrige le bogue lié à une jointure hachée aléatoire externe complète lors de la création du côté gauche avec une condition non égale
- [SPARK-34534] Corrige l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
- [SPARK-34613][SQL] Corrige la vue ne capturant pas la configuration du conseil de désactivation
9 mars 2021
- [SPARK-34543][SQL] Respect de la configuration spark.sql.caseSensitive lors de la résolution des spécifications de partition dans SET LOCATION version 1
- [SPARK-34392][SQL] Prise en charge de ZoneOffset +h:mm dans DateTimeUtils. getZoneId
- [UI] Corrige le lien href de la visualisation DAG de Spark
- [SPARK-34436][SQL] DPP prend en charge l’expression LIKE ANY/ALL

Databricks Runtime 7.6

Consultez Databricks Runtime 7.6 (EoS).

11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
- [SPARK-32998][BUILD] Ajout de la possibilité de remplacer les référentiels distants par défaut par des référentiels internes uniquement
14 juillet 2021
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Corrige l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
9 mars 2021
- (Azure uniquement) Correction d’un bogue lié à Auto Loader pouvant entraîner une exception NullPointerException lors de l’utilisation de Databricks Runtime 7.6 pour exécuter un ancien flux Auto Loader créé dans Databricks Runtime 7.2
- [UI] Corrige le lien href de la visualisation DAG de Spark
- Le SparkPlan de nœud terminal inconnu n’est pas traité correctement dans SizeInBytesOnlyStatsSparkPlanVisitor
- Restaure le schéma de sortie de SHOW DATABASES
- [Delta] [8.0, 7.6] Correction d’un bogue de calcul dans la logique de réglage automatique de la taille des fichiers
- Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- Désactive la prise en charge du type char dans les chemins de code non SQL
- Évite un NPE dans DataFrameReader.schema
- Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
- Corrige un bogue de lecture de flux fermé dans Azure Auto Loader
- [SQL] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui entraînait le retour de résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet étaient différentes du schéma Spark.
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
- [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-34260][SQL] Correction de UnresolvedException lors de la création d’une vue temporaire à deux reprises

Databricks Runtime 7.5

Consultez Databricks Runtime 7.5 (EoS).

26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Corrige l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
9 mars 2021
- (Azure uniquement) Correction d’un bogue lié à Auto Loader pouvant entraîner une exception NullPointerException lors de l’utilisation de Databricks Runtime 7.5 pour exécuter un ancien flux Auto Loader créé dans Databricks Runtime 7.2
- [UI] Corrige le lien href de la visualisation DAG de Spark
- Le SparkPlan de nœud terminal inconnu n’est pas traité correctement dans SizeInBytesOnlyStatsSparkPlanVisitor
- Restaure le schéma de sortie de SHOW DATABASES
- Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- Désactive la prise en charge du type char dans les chemins de code non SQL
- Évite un NPE dans DataFrameReader.schema
- Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
- Corrige un bogue de lecture de flux fermé dans Azure Auto Loader
24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui entraînait le retour de résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet étaient différentes du schéma Spark.
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
- [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-34260][SQL] Correction de UnresolvedException lors de la création d’une vue temporaire à deux reprises
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée
- Introduction de vérifications du temps d’écriture dans le client Hive pour empêcher l’endommagement des métadonnées dans le metastore Hive pour les tables Delta
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
  - Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
  - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
  - La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
12 janvier 2021
- Mise à niveau du Kit de développement logiciel (SDK) Stockage Azure de la version 2.3.8 à la version 2.3.9
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33480][SQL] Mise à jour du message d’erreur de la vérification de la longueur d’insertion des tables char/varchar

Databricks Runtime 7.3 LTS

Consultez Databricks Runtime 7.3 LTS (EoS).

10 septembre 2023
- Divers correctifs de bogues.
30 août 2023
- Mises à jour de sécurité du système d’exploitation
15 août 2023
- Mises à jour de sécurité du système d’exploitation
23 juin 2023
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- [SPARK-43413][SQL] Correction de la nullité des sous-requêtes INListQuery.
- Mises à jour de sécurité du système d’exploitation
2 juin 2023
- Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
17 mai 2023
- Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Mises à jour de sécurité du système d’exploitation
mardi 11 avril 2023
- [SPARK-42967][CORE] Corrige SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est lancée après l’annulation de l’étape.
- Divers correctifs de bogues.
29 mars 2023
- Mises à jour de sécurité du système d’exploitation
14 mars 2023
- Divers correctifs de bogues.
28 février 2023
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- Mises à jour de sécurité du système d’exploitation
31 janvier 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
18 janvier 2023
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Divers correctifs de bogues.
15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
1 novembre 2022
- [SPARK-38542][SQL] UnsafeHashedRelation doit sérialiser numKeys
18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- Divers correctifs de bogues.
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
6 septembre 2022
- [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
24 août 2022
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- Mises à jour de sécurité du système d’exploitation
mardi 9 août 2022
- Mises à jour de sécurité du système d’exploitation
27 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
13 juillet 2022
- [SPARK-32680][SQL] Ne pas préprocesser V2 CTAS avec une requête non résolue
- Désactivation de l'utilisation par l'Auto Loader des API cloud natives pour le listage des répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
2 juin 2022
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Mise à niveau la version du kit SDK AWS de la version 1.11.655 vers la version 1.11.678.
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
6 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
14 mars 2022
- Suppression des classes vulnérables du jar de log4j 1.2.17
- Divers correctifs de bogues.
23 février 2022
- [SPARK-37859][SQL] Ne vérifie pas les métadonnées pendant la comparaison des schémas
8 Février 2022
- Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
- Mises à jour de sécurité du système d’exploitation
1er février 2022
- Mises à jour de sécurité du système d’exploitation
26 janvier 2022
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
19 janvier 2022
- Le canal Conda par défaut est supprimé de la version 7.3 ML LTS
- Mises à jour de sécurité du système d’exploitation
7 décembre 2021
- Mises à jour de sécurité du système d’exploitation
4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: No FileSystem for scheme ou qui pouvait faire que les modifications apportées à sparkContext.hadoopConfiguration n’entrent pas en vigueur dans les requêtes.
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Mises à jour de sécurité du système d’exploitation
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
- [SPARK-36532][CORE][3.1] Correction du blocage dans CoarseGrainedExecutorBackend.onDisconnected pour éviter executorsconnected afin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
29 juillet 2021
- [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
- [SPARK-34508][BUILD] Ignore HiveExternalCatalogVersionsSuite si le réseau est en panne
14 juillet 2021
- Introduction du format database.schema.table pour le connecteur Azure Synapse
- Ajout d’une prise en charge pour fournir le format databaseName.schemaName.tableName comme table cible au lieu de seulement schemaName.tableName ou tableName
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
15 juin 2021
- Corrige un bogue NoSuchElementException dans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- [SPARK-35045][SQL] Ajoute une option interne pour contrôler la mémoire tampon d’entrée dans univocity
24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Corrige l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
- [SPARK-33118][SQL]CREATE TEMPORARY TABLE échoue avec la localisation
9 mars 2021
- Le pilote de système de fichiers blob Azure mis à jour pour Azure Data Lake Storage est désormais activé par défaut. Il apporte plusieurs améliorations en matière de stabilité
- Correction du séparateur de chemin sous Windows pour databricks-connect get-jar-dir
- [UI] Corrige le lien href de la visualisation DAG de Spark
- [DBCONNECT] Ajout de la prise en charge de FlatMapCoGroupsInPandas dans Databricks Connect 7.3
- Restaure le schéma de sortie de SHOW DATABASES
- [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SQL] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui entraînait le retour de résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet étaient différentes du schéma Spark.
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
- [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-33579][UI] Correction de la page blanche de l’exécuteur derrière un proxy
- [SPARK-20044][UI] Prise en charge de l’interface utilisateur Spark derrière le proxy inverse frontal à l’aide d’un préfixe de chemin d’accès
- [SPARK-33277][PYSPARK][SQL] Utilise ContextAwareIterator pour arrêter la consommation après la fin de la tâche
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
  - Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
  - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
  - La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33592][ML][PYTHON] Les paramètres du validateur ML de Pyspark dans estimatorParamMaps peuvent être perdus après enregistrement et rechargement
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-33587][CORE] Tuer l’exécuteur en cas d’erreurs irrécupérables imbriquées
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33316][SQL] Prise en charge du schéma Avro pouvant accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique ne pouvant pas accepter la valeur Null dans l’écriture Avro
- Les travaux Spark lancés à l’aide de Databricks Connecter peuvent se bloquer indéfiniment avec Executor$TaskRunner.$anonfun$copySessionState dans la trace de l’exécuteur
- Mises à jour de sécurité du système d’exploitation

1er décembre 2020
- [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression date_trunc
- [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream

5 novembre 2020
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie lorsque le lecteur Avro lit les octets MAGIC
- Ajout de la prise en charge du USAGE privilège
- Amélioration des performances pour la vérification des privilèges dans le contrôle d’accès aux tables
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- Vous pouvez lire et écrire à partir de DBFS à l’aide du montage FUSE au niveau de /dbfs/ lorsque vous êtes sur un cluster à forte concurrence et dont le passage des informations d’identification est activé. Les montages ordinaires sont pris en charge, mais les montages nécessitant des informations d’identification directes ne le sont pas encore
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- [SPARK-32585][SQL] Prise en charge de l’énumération scala dans ScalaReflection
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
29 septembre 2020
- [SPARK-32718][SQL] Suppression des mots clés inutiles pour les unités d’intervalle
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration sur Long.MAX_VALUE pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêche java.lang.IndexOutOfBoundsException dans les cas particuliers
25 avril 2023
- Mises à jour de sécurité du système d’exploitation
mardi 11 avril 2023
- Divers correctifs de bogues.
29 mars 2023
- Divers correctifs de bogues.
14 mars 2023
- Mises à jour de sécurité du système d’exploitation
28 février 2023
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- Mises à jour de sécurité du système d’exploitation
31 janvier 2023
- Divers correctifs de bogues.
18 janvier 2023
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Mises à jour de sécurité du système d’exploitation
15 novembre 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
1 novembre 2022
- Mises à jour de sécurité du système d’exploitation
18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
  - Mises à jour de sécurité du système d’exploitation
- 24 août 2022
  - Mises à jour de sécurité du système d’exploitation
- 9 août 2022
  - Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
  - Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
  - Mises à jour de sécurité du système d’exploitation
- 2 juin 2022
  - Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
  - Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
  - Mises à jour de sécurité du système d’exploitation
  - Divers correctifs de bogues.
- 6 avril 2022
  - Mises à jour de sécurité du système d’exploitation
  - Divers correctifs de bogues.
- 14 mars 2022
  - Divers correctifs de bogues.
- 23 février 2022
  - Divers correctifs de bogues.
- 8 février 2022
  - Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
  - Mises à jour de sécurité du système d’exploitation
- 1 février 2022
  - Mises à jour de sécurité du système d’exploitation
- 19 janv. 2022
  - Mises à jour de sécurité du système d’exploitation
- 22 septembre 2021
  - Mises à jour de sécurité du système d’exploitation
- 30 avril 2021
  - Mises à jour de sécurité du système d’exploitation
  - [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- 12 janv. 2021
  - Mises à jour de sécurité du système d’exploitation
- 8 décembre 2020
  - [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
  - Mises à jour de sécurité du système d’exploitation
- 1er décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- 3 novembre 2020
  - Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
  - Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- 13 octobre 2020
  - Mises à jour de sécurité du système d’exploitation

Support étendu de Databricks Runtime 6.4

Voir Databricks Runtime 6.4 (EoS) et Databricks Runtime 6.4 Support étendu (EoS).

5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
2 juin 2022
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Mises à jour de sécurité du système d’exploitation
19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
6 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
14 mars 2022
- Suppression des classes vulnérables du jar de log4j 1.2.17
- Divers correctifs de bogues.
23 février 2022
- Divers correctifs de bogues.
8 février 2022
- Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
- Mises à jour de sécurité du système d’exploitation
1 février 2022
- Mises à jour de sécurité du système d’exploitation
26 janv. 2022
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
19 janv. 2022
- Mises à jour de sécurité du système d’exploitation
8 décembre 2021
- Mises à jour de sécurité du système d’exploitation
22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
15 juin 2021
- [SPARK-35576][SQL] Suppression des informations sensibles dans le résultat de la commande Set
7 juin 2021
- Ajout d’une nouvelle configuration appelée spark.sql.maven.additionalRemoteRepositories, une configuration de chaîne délimitée par des virgules du miroir Maven distant supplémentaire facultatif. La valeur est https://maven-central.storage-download.googleapis.com/maven2/ par défaut
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit

9 mars 2021
- Portage de HADOOP-17215 au pilote Azure Blob File System (prise en charge du remplacement conditionnel)
- Correction du séparateur de chemin sous Windows pour databricks-connect get-jar-dir
- Ajout de la prise en charge des versions 2.3.5, 2.3.6 et 2.3.7 du metastore Hive
- La flèche « totalResultsCollected » a été signalée de manière incorrecte après le déversement
24 février 2021
- Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [Runtime 6.4 ML GPU] Nous avons précédemment installé une version incorrecte (2.7.8-1+cuda11.1) de NCCL. Cette version la corrige en 2.4.8-1+cuda10.0 qui est compatible avec CUDA 10.0
- Mises à jour de sécurité du système d’exploitation

1er décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-32635][SQL] Correction de la propagation pliable

3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
24 septembre 2020
- Correction d’une limitation précédente où la connexion directe sur un cluster standard restreignait toujours l’utilisation de l’implémentation du système de fichiers. Désormais, les utilisateurs peuvent accéder aux systèmes de fichiers locaux sans aucune restriction.
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
- Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
25 août 2020
- Correction de la résolution des attributs ambigus dans l’auto-fusion
18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
- Mises à jour de sécurité du système d’exploitation
7 juillet 2020
- Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
10 mars 2020
- L’autoscaling optimisé est désormais utilisé par défaut sur les clusters interactifs du plan Sécurité.
- Le connecteur Snowflake (spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9. snowflake-jdbc est mis à jour vers la version 3.12.0

Databricks Runtime 5.5 LTS

Voir Databricks Runtime 5.5 LTS (EoS) et Databricks Runtime 5.5 Support étendu (EoS).

8 décembre 2021
- Mises à jour de sécurité du système d’exploitation
22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
25 août 2021
- Passage à une version antérieure de certains packages Python précédemment mis à niveau dans la version 5.5 ML Support étendu afin de maintenir une meilleure parité avec la version 5.5 ML LTS (désormais déconseillée). Voir [_]/release-notes/runtime/5.5xml.md) pour connaître les différences mises à jour entre les deux versions
15 juin 2021
- [SPARK-35576][SQL] Suppression des informations sensibles dans le résultat de la commande Set
7 juin 2021
- Ajout d’une nouvelle configuration appelée spark.sql.maven.additionalRemoteRepositories, une configuration de chaîne délimitée par des virgules du miroir Maven distant supplémentaire facultatif. La valeur est https://maven-central.storage-download.googleapis.com/maven2/ par défaut
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit

9 mars 2021
- Portage de HADOOP-17215 au pilote Azure Blob File System (prise en charge du remplacement conditionnel)
24 février 2021
- Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
- Correctif pour [HADOOP-17130]
8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- Mises à jour de sécurité du système d’exploitation

1er décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-32635][SQL] Correction de la propagation pliable

29 octobre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
24 septembre 2020
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
3 août 2020
- Mises à jour de sécurité du système d’exploitation
7 juillet 2020
- Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
25 mars 2020
- Le connecteur Snowflake (spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9. snowflake-jdbc est mis à jour vers la version 3.12.0
10 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark spark.databricks.driver.disableScalaOutput sur true. Par défaut, la valeur de l’indicateur est false. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
18 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- La transmission des informations d'identification avec ADLS entraîne une dégradation des performances en raison d'une mauvaise gestion des variables locales de thread lorsque la prérécupération du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
28 janvier 2020
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation.
mardi 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
19 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
- La version de R a involontairement été mise à niveau de la version 3.6.0 vers la version 3.6.1. Nous l’avons rétablie à la version 3.6.0.
5 novembre 2019
- Mise à jour de Java de la version 1.8.0_212 vers la version 1.8.0_222
23 octobre 2019
- [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la version 2.6.10 du pilote ODBC Apache Spark de Simba)
- Correction d’un problème concernant l’utilisation de la commande Optimize avec des clusters dont la liste de contrôle d’accès des tables est activée.
- Correction d’un problème où les bibliothèques pyspark.ml échouaient en raison d’une erreur UDF Scala interdite sur les clusters dont la liste de contrôle d’accès des tables et le passage des informations d’identification sont activés
- Les méthodes SerDe et SerDeUtil ont été ajoutées à une liste d’autorisation pour le passage des informations d’identification
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
24 septembre 2019
- Amélioration de la stabilité de l’enregistreur Parquet
- Correction du problème où la requête Thrift annulée avant qu’elle ne commence à s’exécuter peut rester bloquée à l’état DÉMARRÉ
10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- [SPARK-27992][SPARK-28881] Permet à Python de se joindre au thread de connexion pour propager les erreurs
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- Amélioration de la suppression des informations d’identification
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642]Masquer les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
27 août 2019
- [SPARK-20906][SQL] Autorise le schéma spécifié par l’utilisateur dans l’API to_avro avec le registre de schémas
- [SPARK-27838][SQL] Prise en charge d’un schéma Avro ne pouvant pas accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique pouvant accepter la valeur Null sans enregistrement Null
- Amélioration apportée au voyage dans le temps Delta Lake
- Correction d’un problème concernant certaines expressions transform
- Prend en charge les variables de diffusion lorsque l’isolement des processus est activé
13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28260]Ajout de l’état FERMÉ à ExecutionState
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485]EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
- [SPARK-28355][CORE][PYTHON] Utilise la configuration Spark pour le seuil auquel l’UDF est compressée par diffusion

Databricks Light 2.4 - Support étendu

Voir Databricks Light 2.4 (EoS) et Databricks Light 2.4 Support étendu (EoS).

Databricks Runtime 7.4

Consultez Databricks Runtime 7.4 (EoS).

30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- [SPARK-35045][SQL] Ajoute une option interne pour contrôler la mémoire tampon d’entrée dans univocity et une configuration pour la taille de la mémoire tampon d’entrée CSV
24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Corrige l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
9 mars 2021
- Le pilote de système de fichiers blob Azure mis à jour pour Azure Data Lake Storage est désormais activé par défaut. Il apporte plusieurs améliorations en matière de stabilité
- [ES-67926][ui] Corrige le lien href de la visualisation DAG de Spark
- [ES-65064] Restaure le schéma de sortie de SHOW DATABASES
- [SC-70522][sql] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- [SC-35081] Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SC-70640] Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
- [SC-70220][sql] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui entraînait le retour de résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet étaient différentes du schéma Spark.
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dans FunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
- [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-33579][UI] Correction de la page blanche de l’exécuteur derrière un proxy
- [SPARK-20044][UI] Prise en charge de l’interface utilisateur Spark derrière le proxy inverse frontal à l’aide d’un préfixe de chemin d’accès
- [SPARK-33277][PYSPARK][SQL] Utilise ContextAwareIterator pour arrêter la consommation après la fin de la tâche
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
  - Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
  - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
  - La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-33587][CORE] Tuer l’exécuteur en cas d’erreurs irrécupérables imbriquées
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33316][SQL] Prise en charge du schéma Avro pouvant accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique ne pouvant pas accepter la valeur Null dans l’écriture Avro
- Mises à jour de sécurité du système d’exploitation

1er décembre 2020
- [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression date_trunc
- [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-33272][SQL] Nettoie le mappage des attributs dans QueryPlan.transformUpWithNewOutput

Databricks Runtime 7.2

Consultez Databricks Runtime 7.2 (EoS).

4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
20 janv. 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
  - Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
  - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
  - La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33404][SQL] Correction des résultats incorrects dans l’expression date_trunc
- [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- Mises à jour de sécurité du système d’exploitation

1er décembre 2020
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream

3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
29 septembre 2020
- [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration sur Long.MAX_VALUE pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêche java.lang.IndexOutOfBoundsException dans les cas particuliers
24 septembre 2020
- [SPARK-32764][SQL] -0,0 doit être égal à 0,0
- [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
- [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000

Databricks Runtime 7.1

Consultez Databricks Runtime 7.1 (EoS).

4 février 2021
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
20 janv. 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
  - Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
  - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
  - La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- Les travaux Spark lancés à l’aide de Databricks Connecter peuvent se bloquer indéfiniment avec Executor$TaskRunner.$anonfun$copySessionState dans la trace de l’exécuteur
- Mises à jour de sécurité du système d’exploitation

1er décembre 2020
- [SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression date_trunc
- [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne

3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
29 septembre 2020
- [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration sur Long.MAX_VALUE pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêche java.lang.IndexOutOfBoundsException dans les cas particuliers
24 septembre 2020
- [SPARK-32764][SQL] -0,0 doit être égal à 0,0
- [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
- [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
25 août 2020
- [SPARK-32159][SQL] Correction de l’intégration entre Aggregator[Array[_], _, _] et UnresolvedMapObjects
- [SPARK-32559][SQL] Correction de la logique de découpage dans UTF8String.toInt/toLong, qui n’a pas géré correctement les caractères non ASCII
- [SPARK-32543][R] Supprime l’utilisation de arrow::as_tibble dans SparkR
- [SPARK-32091][CORE] Ignore l’erreur de dépassement de délai lors de la suppression de blocs sur l’exécuteur perdu
- Correction d’un problème concernant le connecteur Azure Synapse avec les informations d’identification MSI
- Correction de la résolution des attributs ambigus dans l’auto-fusion
18 août 2020
- [SPARK-32594][SQL] Correction de la sérialisation des dates insérées dans les tables Hive
- [SPARK-32237][SQL] Résout le conseil dans une expression de table commune
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- [SPARK-32467][UI] Évite d’encoder deux fois l’URL lors d’une redirection HTTPS
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight doit uniquement réécrire les attributs des nœuds ancêtres du plan en conflit
- [SPARK-32234][SQL] Les commandes SQL Spark échouent lors de la sélection des tables ORC
3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.

Databricks Runtime 7.0

Consultez Databricks Runtime 7.0 (EoS).

4 février 2021
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
20 janv. 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
  - Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple : df.join(df.select($"col" as "new_col"), cond)
  - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
  - La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple : df.join(df.drop("a"), df("a") === 1)
12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33404][SQL] Correction des résultats incorrects dans l’expression date_trunc
- [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- Mises à jour de sécurité du système d’exploitation

1er décembre 2020
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne

3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
29 septembre 2020
- [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration sur Long.MAX_VALUE pour ignorer la consolidation des FrameBufferss de réseau, ce qui empêche java.lang.IndexOutOfBoundsException dans les cas particuliers
24 septembre 2020
- [SPARK-32764][SQL] -0,0 doit être égal à 0,0
- [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
- [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
25 août 2020
- [SPARK-32159][SQL] Correction de l’intégration entre Aggregator[Array[_], _, _] et UnresolvedMapObjects
- [SPARK-32559][SQL] Correction de la logique de découpage dans UTF8String.toInt/toLong, qui n’a pas géré correctement les caractères non ASCII
- [SPARK-32543][R] Supprime l’utilisation de arrow::as_tibble dans SparkR
- [SPARK-32091][CORE] Ignore l’erreur de dépassement de délai lors de la suppression de blocs sur l’exécuteur perdu
- Correction d’un problème concernant le connecteur Azure Synapse avec les informations d’identification MSI
- Correction de la résolution des attributs ambigus dans l’auto-fusion
18 août 2020
- [SPARK-32594][SQL] Correction de la sérialisation des dates insérées dans les tables Hive
- [SPARK-32237][SQL] Résout le conseil dans une expression de table commune
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- [SPARK-32467][UI] Évite d’encoder deux fois l’URL lors d’une redirection HTTPS
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight doit uniquement réécrire les attributs des nœuds ancêtres du plan en conflit
- [SPARK-32234][SQL] Les commandes SQL Spark échouent lors de la sélection des tables ORC
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.

Databricks Runtime 6.6

Consultez Databricks Runtime 6.6 (EoS).

1er décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-32635][SQL] Correction de la propagation pliable

3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
24 septembre 2020
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
- Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
25 août 2020
- Correction de la résolution des attributs ambigus dans l’auto-fusion
18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
- [SPARK-31967][UI] Rétablit la version 4.21.0 de vis.js pour corriger la régression du temps de chargement de l’interface utilisateur Travaux
3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
- Mises à jour de sécurité du système d’exploitation

Databricks Runtime 6.5

Consultez Databricks Runtime 6.5 (EoS).

24 septembre 2020
- Correction d’une limitation précédente où la connexion directe sur un cluster standard restreignait toujours l’utilisation de l’implémentation du système de fichiers. Désormais, les utilisateurs peuvent accéder aux systèmes de fichiers locaux sans aucune restriction.
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics, maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit par VARBINARY(maxbinlength). Il peut être défini en utilisant .option("maxbinlength", n), où 0 < n <= 8000
- Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
25 août 2020
- Correction de la résolution des attributs ambigus dans l’auto-fusion
18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
- Mises à jour de sécurité du système d’exploitation
7 juillet 2020
- Mise à jour de Java de la version 1.8.0_242 vers la version 1.8.0_252
21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper

Databricks Runtime 6.3

Consultez Databricks Runtime 6.3 (EoS).

7 juillet 2020
- Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
10 mars 2020
- Le connecteur Snowflake (spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9. snowflake-jdbc est mis à jour vers la version 3.12.0
18 février 2020
- La transmission des informations d'identification avec ADLS entraîne une dégradation des performances en raison d'une mauvaise gestion des variables locales de thread lorsque la prérécupération du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
11 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect
- Ajout de la fonction overwrite à une liste d’autorisation afin que l’élément « MLModels étend MLWriter » puisse appeler la fonction

Databricks Runtime 6.2

Consultez Databricks Runtime 6.2 (EoS).

21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
25 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark spark.databricks.driver.disableScalaOutput sur true. Par défaut, la valeur de l’indicateur est false. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
10 mars 2020
- Le connecteur Snowflake (spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9. snowflake-jdbc est mis à jour vers la version 3.12.0
18 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- La transmission des informations d'identification avec ADLS entraîne une dégradation des performances en raison d'une mauvaise gestion des variables locales de thread lorsque la prérécupération du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
28 janvier 2020
- Ajout de la fonction overwrite de ML Model Writers pour les clusters activés pour le passage des informations d’identification, afin que la sauvegarde des modèles puisse utiliser le mode de remplacement sur les clusters avec passage des informations d’identification.
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation.
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect.
mardi 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
10 décembre 2019
- [SPARK-29904][SQL] Analyse des timestamps avec une précision de l’ordre de la microseconde par des sources de données JSON/CSV

Databricks Runtime 6.1

Consultez Databricks Runtime 6.1 (EoS).

7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
25 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark spark.databricks.driver.disableScalaOutput sur true. Par défaut, la valeur de l’indicateur est false. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
10 mars 2020
- Le connecteur Snowflake (spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9. snowflake-jdbc est mis à jour vers la version 3.12.0
18 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- La transmission des informations d'identification avec ADLS entraîne une dégradation des performances en raison d'une mauvaise gestion des variables locales de thread lorsque la prérécupération du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
28 janvier 2020
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation.
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect.
mardi 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
7 novembre 2019
- [SPARK-29743][SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true.
- Secrets référencés à partir des propriétés de configuration et des variables d’environnement de Spark dans la Préversion publique. Voir Utiliser un secret dans une propriété de configuration ou une variable d’environnement Spark.
5 novembre 2019
- Correction d’un bogue dans DBFS FUSE pour gérer les points de montage ayant // dans son chemin
- [SPARK-29081] Remplace les appels à SerializationUtils.clone sur les propriétés par une implémentation plus rapide
- [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
- (6.1 ML) La bibliothèque mkl version 2019.4 a été installée par inadvertance. Nous l’avons rétablie à la version 2019.3 de mkl pour qu’elle corresponde à Anaconda Distribution 2019.03

Databricks Runtime 6.0

Consultez Databricks Runtime 6.0 (EoS).

25 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark spark.databricks.driver.disableScalaOutput sur true. Par défaut, la valeur de l’indicateur est false. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
18 février 2020
- La transmission des informations d'identification avec ADLS entraîne une dégradation des performances en raison d'une mauvaise gestion des variables locales de thread lorsque la prérécupération du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
11 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
28 janvier 2020
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation.
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect.
mardi 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
19 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
5 novembre 2019
- dbutils.tensorboard.start() prend désormais en charge TensorBoard 2.0 (s’il est installé manuellement).
- Correction d’un bogue dans DBFS FUSE pour gérer les points de montage ayant // dans son chemin
- [SPARK-29081] Remplace les appels à SerializationUtils.clone sur les propriétés par une implémentation plus rapide
23 octobre 2019
- [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la version 2.6.10 du pilote ODBC Apache Spark de Simba)
- Correction d’un problème concernant l’utilisation de la commande Optimize avec des clusters dont la liste de contrôle d’accès des tables est activée.
- Correction d’un problème où les bibliothèques pyspark.ml échouaient en raison d’une erreur UDF Scala interdite sur les clusters dont la liste de contrôle d’accès des tables et le passage des informations d’identification sont activés
- Les méthodes SerDe/SerDeUtil ont été ajoutées à une liste d’autorisation pour le passage des informations d’identification
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
- Correction du problème où les informations d’identification de l’utilisateur n’étaient pas transférées aux travaux créés par dbutils.notebook.run()

Databricks Runtime 5.4 ML

Consultez Databricks Runtime 5.4 pour ML (EoS).

18 juin 2019
- Amélioration de la gestion des exécutions actives de MLflow dans l’intégration de Hyperopt
- Amélioration des messages dans Hyperopt
- Mise à jour du package Marchkdown de la version 3.1 vers la version 3.1.1

Databricks Runtime 5.4

Consultez Databricks Runtime 5.4 (EoS).

19 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642]Masquer les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
- [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
27 août 2019
- Correction d’un problème concernant certaines expressions transform
13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485]EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
2 juillet 2019
- Mise à jour de snappy-java de la version 1.1.7.1 vers la version 1.1.7.3
18 juin 2019
- Amélioration de la gestion des exécutions actives de MLflow dans l’intégration de MLlib
- Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta

Databricks Runtime 5.3

Consultez Databricks Runtime 5.3 (EoS).

7 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642]Masquer les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
- [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
27 août 2019
- Correction d’un problème concernant certaines expressions transform
13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485]EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
18 juin 2019
- Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
28 mai 2019
- Amélioration de la stabilité de Delta
- Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
  - Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
7 mai 2019
- Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage
- Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage
- Correction d’un bogue concernant les listes de contrôle d’accès des tables
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- S’assure que la mise en cache n’est pas désactivée lorsque les listes de contrôle d’accès des tables sont activées
- [SPARK-27494][ss] Les clés/valeurs Null ne fonctionnent pas dans la source Kafka v2
- [SPARK-27446][r] Utilise la configuration Spark existante si elle est disponible
- [SPARK-27454][spark-27454][ML][sql] Échec de la source de données d’image Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][sql] Correction de DecimalType lors de la génération de filtres orc
- [SPARK-27338][core] Corriger le blocage entre UnsafeExternalSorter et TaskMemoryManager

Databricks Runtime 5.2

Consultez Databricks Runtime 5.2 (EoS).

10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642]Masquer les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
- [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
27 août 2019
- Correction d’un problème concernant certaines expressions transform
13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485]EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
2 juillet 2019
- Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
18 juin 2019
- Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
28 mai 2019
- Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
7 mai 2019
- Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage
- Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- S’assure que la mise en cache n’est pas désactivée lorsque les listes de contrôle d’accès des tables sont activées
- [SPARK-27494][ss] Les clés/valeurs Null ne fonctionnent pas dans la source Kafka v2
- [SPARK-27454][spark-27454][ML][sql] Échec de la source de données d’image Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][sql] Correction de DecimalType lors de la génération de filtres orc
- [SPARK-27338][core] Corriger le blocage entre UnsafeExternalSorter et TaskMemoryManager
26 mars 2019
- Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
- [SPARK-26665][CORE] Correction d’un bogue qui fait que BlockTransferService.fetchBlockSync peut se bloquer indéfiniment
- [SPARK-27134][SQL] La fonction array_distinct ne fonctionne pas correctement avec des colonnes contenant un tableau de tableau
- [SPARK-24669][SQL] Invalidation des tables en cas de DROP DATABASE CASCADE.
- [SPARK-26572][SQL] Correction de l’évaluation des résultats de l’agrégat de codegen
- Correction d’un bogue touchant certaines UDF Python
26 février 2019
- [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
- [SPARK-26887][PYTHON] Crée datetime.date directement au lieu de créer datetime64 comme donnée intermédiaire
- Correction d’un bogue touchant le serveur JDBC/ODBC
- Correction d’un bogue touchant PySpark
- Exclut les fichiers cachés lors de la génération de HadoopRDD
- Correction d’un bogue dans Delta qui causait des problèmes de sérialisation
12 février 2019
- Correction d’un problème affectant l’utilisation de Delta avec des points de montage Azure ADLS.
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
30 janvier 2019
- Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
- [SPARK-26706][SQL] Correction de illegalNumericPrecedence pour ByteType
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Les sources de données CSV/JSON doivent éviter les chemins d’accès de globbing lors de l’inférence du schéma
- Correction de l’inférence de contrainte sur l’opérateur Window
- Correction d’un problème concernant l’installation de bibliothèques egg avec des clusters dont la liste de contrôle d’accès des tables est activée

Databricks Runtime 5.1

Consultez Databricks Runtime 5.1 (EoS).

13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485]EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
2 juillet 2019
- Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
18 juin 2019
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
28 mai 2019
- Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
7 mai 2019
- Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage
- Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- [SPARK-27494][ss] Les clés/valeurs Null ne fonctionnent pas dans la source Kafka v2
- [SPARK-27454][spark-27454][ML][sql] Échec de la source de données d’image Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][sql] Correction de DecimalType lors de la génération de filtres orc
- [SPARK-27338][core] Corriger le blocage entre UnsafeExternalSorter et TaskMemoryManager
26 mars 2019
- Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
- Correction d’un bogue touchant certaines UDF Python
26 février 2019
- [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
- Correction d’un bogue touchant le serveur JDBC/ODBC
- Exclut les fichiers cachés lors de la génération de HadoopRDD
12 février 2019
- Correction d’un problème concernant l’installation de bibliothèques egg avec des clusters dont la liste de contrôle d’accès des tables est activée
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
- [SPARK-26706][SQL] Correction de illegalNumericPrecedence pour ByteType
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Correction de l’inférence de contrainte sur l’opérateur Window
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener df.rdd.count() avec UDT à renvoyer une réponse incorrecte dans certains cas
- Correction d’un problème concernant l’installation de répertoires wheelhouse
- [SPARK-26267]Nouvelle tentative lors de la détection de décalages incorrects provenant de Kafka.
- Correction d’un bogue concernant plusieurs sources de flux de fichiers dans une requête de streaming
- Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
8 janvier 2019
- Correction du problème à l’origine de l’erreur org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
- [SPARK-26352]La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie.
- [SPARK-26366]ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Amélioration de la stabilité de Delta Lake
- Delta Lake est activé
- Correction du problème qui empêchait l'accès à Azure Data Lake Storage lorsque la transmission des informations d'identification de Microsoft Entra ID est activée pour Azure Data Lake Storage Gen1.
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires

Databricks Runtime 5.0

Consultez Databricks Runtime 5.0 (EoS).

18 juin 2019
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
7 mai 2019
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- [SPARK-27494][ss] Les clés/valeurs Null ne fonctionnent pas dans la source Kafka v2
- [SPARK-27454][spark-27454][ML][sql] Échec de la source de données d’image Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][sql] Correction de DecimalType lors de la génération de filtres orc
  - [SPARK-27338][core] Corriger le blocage entre UnsafeExternalSorter et TaskMemoryManager
26 mars 2019
- Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
- Correction d’un bogue touchant certaines UDF Python
12 mars 2019
- [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
26 février 2019
- Correction d’un bogue touchant le serveur JDBC/ODBC
- Exclut les fichiers cachés lors de la génération de HadoopRDD
12 février 2019
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
- [SPARK-26706][SQL] Correction de illegalNumericPrecedence pour ByteType
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Correction de l’inférence de contrainte sur l’opérateur Window
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener df.rdd.count() avec UDT à renvoyer une réponse incorrecte dans certains cas
- [SPARK-26267]Nouvelle tentative lors de la détection de décalages incorrects provenant de Kafka.
- Correction d’un bogue concernant plusieurs sources de flux de fichiers dans une requête de streaming
- Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
8 janvier 2019
- Correction du problème à l’origine de l’erreur org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
- [SPARK-26352]La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie.
- [SPARK-26366]ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Amélioration de la stabilité de Delta Lake
- Delta Lake est activé
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
18 décembre 2018
- [SPARK-26293]Exception de cast lors de la présence d’une UDF Python dans une sous-requête
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
6 décembre 2018
- Correction d’un problème qui provoquait un résultat de requête incorrect lors de l’utilisation d’orderBy, suivi immédiatement de groupBy avec la clé group-by comme partie de début de la clé sort-by
- Mise à niveau du connecteur Snowflake pour Spark de la version 2.4.9.2-spark_2.4_pre_release vers la version 2.4.10
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur spark.sql.files.ignoreCorruptFiles ou spark.sql.files.ignoreMissingFiles est activé
- Correction d’un problème touchant certaines requêtes d’auto-union
- Correction d’un bogue avec le serveur thrift où les sessions sont parfois divulguées lorsqu’elles sont annulées
- [SPARK-26307]Correction de CTAS lorsque INSERT une table partitionnée en utilisant Hive SerDe.
- [SPARK-26147]Les UDF Python dans les conditions de jointure échouent même en utilisant les colonnes d’un seul côté de la jointure
- [SPARK-26211]Correction de InSet pour les binaires et struct et array avec Null
- [SPARK-26181] La méthode hasMinMaxStats de ColumnStatsMap n’est pas correcte
- Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
20 novembre 2018
- Correction d’un problème qui rendait impossible l’utilisation d’un notebook après l’annulation d’une requête de streaming
- Correction d’un problème touchant certaines requêtes qui utilisent des fonctions de fenêtre
- Correction d’un problème touchant un flux provenant de Delta avec plusieurs modifications de schéma
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches

Databricks Runtime 4.3

Consultez Databricks Runtime 4.3 (EoS).

9 avril 2019
- [SPARK-26665][CORE] Correction d’un bogue pouvant entraîner le blocage permanent de BlockTransferService.fetchBlockSync
- [SPARK-24669][SQL] Invalidation des tables en cas de DROP DATABASE CASCADE.
12 mars 2019
- Correction d’un bogue touchant la génération de code
- Correction d’un bogue touchant Delta
26 février 2019
- Correction d’un bogue touchant le serveur JDBC/ODBC
12 février 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Exclusion des fichiers cachés lors de la génération de HadoopRDD
- Correction de la conversion du filtre Parquet pour le prédicat IN lorsque sa valeur est vide
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener df.rdd.count() avec UDT à renvoyer une réponse incorrecte dans certains cas
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
8 janvier 2019
- Correction du problème à l’origine de l’erreur org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
- Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
- [SPARK-26352]La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie.
- [SPARK-26366]ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Delta Lake est activé
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
18 décembre 2018
- [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- [SPARK-26307]Correction de CTAS lorsque INSERT une table partitionnée en utilisant Hive SerDe.
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur spark.sql.files.ignoreCorruptFiles ou spark.sql.files.ignoreMissingFiles est activé
- [SPARK-26181] La méthode hasMinMaxStats de ColumnStatsMap n’est pas correcte
- Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
- Correction d’un problème de performances dans l’analyseur de requêtes
- Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
- Correction d’un problème touchant certaines requêtes d’auto-union
20 novembre 2018
- [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
- [SPARK-25387] Correction d’un bogue NPE causé par une entrée CSV incorrecte
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
6 novembre 2018
- [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
- Correction d’un problème concernant le nettoyage des objets temporaires dans le connecteur Synapse Analytics
- [SPARK-25816] Correction de la résolution des attributs dans les extracteurs imbriqués

16 octobre 2018
- Correction d’un bogue touchant la sortie de l’exécution de SHOW CREATE TABLE sur les tables Delta
- Correction d’un bogue touchant l’opération Union

25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de NotSerializableException dans la source de données Avro
11 septembre 2018
- [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque failOnDataLoss=false
- [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
- La réduction du filtre doit gérer correctement la valeur Null
- Amélioration de la stabilité du moteur d’exécution
28 août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
- [SPARK-25142] Ajout de messages d’erreur lorsque le Worker Python ne pouvait pas ouvrir de socket dans _load_from_socket
23 août 2018
- [SPARK-23935] mapEntry lève l’exception org.codehaus.commons.compiler.CompileException
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- [SPARK-25051][SQL] FixNullability ne doit pas s’arrêter sur AnalysisBarrier
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
- [SPARK-25096] Assouplissement de la possibilité d’accepter la valeur Null si le cast est forcé à accepter la valeur Null
- Diminution du nombre de threads par défaut utilisés par la commande Delta Lake Optimize, ce qui réduit la surcharge de mémoire et accélère la validation des données
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
- Correction de la révision du gestionnaire de secrets lorsque la commande réussit partiellement

Databricks Runtime 4.2

Consultez Databricks Runtime 4.2 (EoS).

26 février 2019
- Correction d’un bogue touchant le serveur JDBC/ODBC
12 février 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Exclusion des fichiers cachés lors de la génération de HadoopRDD
- Correction de la conversion du filtre Parquet pour le prédicat IN lorsque sa valeur est vide
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener df.rdd.count() avec UDT à renvoyer une réponse incorrecte dans certains cas
8 janvier 2019
- Correction du problème à l’origine de l’erreur org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
- Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
- [SPARK-26352]La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie.
- [SPARK-26366]ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Delta Lake est activé
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
18 décembre 2018
- [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- [SPARK-26307]Correction de CTAS lorsque INSERT une table partitionnée en utilisant Hive SerDe.
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur spark.sql.files.ignoreCorruptFiles ou spark.sql.files.ignoreMissingFiles est activé
- [SPARK-26181] La méthode hasMinMaxStats de ColumnStatsMap n’est pas correcte
- Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
- Correction d’un problème de performances dans l’analyseur de requêtes
- Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
- Correction d’un problème touchant certaines requêtes d’auto-union
20 novembre 2018
- [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
6 novembre 2018
- [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur

16 octobre 2018
- Correction d’un bogue touchant la sortie de l’exécution de SHOW CREATE TABLE sur les tables Delta
- Correction d’un bogue touchant l’opération Union

25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de NotSerializableException dans la source de données Avro
11 septembre 2018
- [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque failOnDataLoss=false
- [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
- La réduction du filtre doit gérer correctement la valeur Null
28 août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
23 août 2018
- Correction de l’erreur NoClassDefError pour l’instantané Delta
- [SPARK-23935] mapEntry lève l’exception org.codehaus.commons.compiler.CompileException
- [SPARK-24957][SQL] La moyenne avec décimale suivie d’une agrégation renvoie un résultat incorrect. Les résultats incorrects de AVERAGE peuvent être renvoyés. Le CAST ajouté dans l’opérateur Average sera contourné si le résultat de Divide est du même type que celui vers lequel il est casté
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
- [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
- [SPARK-24934][SQL] Ajoute explicitement sur une liste d’autorisation les types pris en charge dans les limites supérieures/inférieures pour le nettoyage des partitions en mémoire. Lorsque des types de données complexes sont utilisés dans des filtres de requête sur des données en cache, Spark renvoie toujours un jeu de résultats vide. Le nettoyage basé sur les statistiques en mémoire génère des résultats incorrects, car la valeur Null est définie comme limites supérieure/inférieure pour les types complexes. La correction consiste à ne pas utiliser le nettoyage basé sur les statistiques en mémoire pour les types complexes
- Correction de la révision du gestionnaire de secrets lorsque la commande réussit partiellement
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
2 août 2018
- Ajout de l’API writeStream.table en Python
- Correction d’un problème touchant les points de contrôle Delta
- [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes
- Correction d’un problème qui pouvait amener la commande mergeInto à produire des résultats incorrects
- Amélioration de la stabilité lors de l’accès à Azure Data Lake Storage Gen1
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
- [SPARK-24878][SQL] Correction de la fonction inverse pour le type de tableau de type primitif contenant la valeur Null
11 juillet 2018
- Correction d’un bogue dans l’exécution des requêtes qui faisait que les agrégations sur des colonnes décimales avec des précisions différentes renvoyaient des résultats incorrects dans certains cas
- Correction d’un bogue NullPointerException qui était lancé lors d’opérations d’agrégation avancées comme le regroupement d’ensembles

Databricks Runtime 4.1 ML

Consultez Databricks Runtime 4.1 ML (EoS).

31 juillet 2018
- Ajout d’Azure Synapse Analytics à ML Runtime 4.1
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Correction d’un bogue touchant la génération de code
- Correction d’un bogue (java.lang.NoClassDefFoundError) touchant Delta Lake
- Amélioration de la gestion des erreurs dans Delta Lake
- Correction d’un bogue qui entraînait la collecte de statistiques incorrectes relatives au saut de données pour les colonnes de chaîne de 32 caractères ou plus

Databricks Runtime 4.1

Consultez Databricks Runtime 4.1 (EoS).

8 janv. 2019
- [SPARK-26366]ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Delta Lake est activé
18 décembre 2018
- [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- [SPARK-26307]Correction de CTAS lorsque INSERT une table partitionnée en utilisant Hive SerDe.
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur spark.sql.files.ignoreCorruptFiles ou spark.sql.files.ignoreMissingFiles est activé
- Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
- Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
- Correction d’un problème touchant certaines requêtes d’auto-union
20 novembre 2018
- [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
6 novembre 2018
- [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur

16 octobre 2018
- Correction d’un bogue touchant la sortie de l’exécution de SHOW CREATE TABLE sur les tables Delta
- Correction d’un bogue touchant l’opération Union

25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de NotSerializableException dans la source de données Avro
11 septembre 2018
- [SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque failOnDataLoss=false
- [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
- La réduction du filtre doit gérer correctement la valeur Null
28 août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
- [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
23 août 2018
- Correction de l’erreur NoClassDefError pour l’instantané Delta
- [SPARK-24957][SQL] La moyenne avec décimale suivie d’une agrégation renvoie un résultat incorrect. Les résultats incorrects de AVERAGE peuvent être renvoyés. Le CAST ajouté dans l’opérateur Average sera contourné si le résultat de Divide est du même type que celui vers lequel il est casté
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- [SPARK-24934][SQL] Ajoute explicitement sur une liste d’autorisation les types pris en charge dans les limites supérieures/inférieures pour le nettoyage des partitions en mémoire. Lorsque des types de données complexes sont utilisés dans des filtres de requête sur des données en cache, Spark renvoie toujours un jeu de résultats vide. Le nettoyage basé sur les statistiques en mémoire génère des résultats incorrects, car la valeur Null est définie comme limites supérieure/inférieure pour les types complexes. La correction consiste à ne pas utiliser le nettoyage basé sur les statistiques en mémoire pour les types complexes
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- Correction de la rédaction du gestionnaire de secrets lorsque la commande réussit partiellement
2 août 2018
- [SPARK-24613][SQL] Le cache avec UDF n’a pas pu être mis en correspondance avec les caches dépendants suivants. Enveloppe le plan logique dans un élément AnalysisBarrier pour la compilation du plan d’exécution dans CacheManager, afin d’éviter que le plan soit à nouveau analysé. Il s’agit également d’une régression de Spark 2.3
- Correction d’un problème de connecteur Synapse Analytics touchant la conversion du fuseau horaire pour l’écriture de données DateType
- Correction d’un problème touchant les points de contrôle Delta
- Correction d’un problème qui pouvait amener la commande mergeInto à produire des résultats incorrects
- [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
11 juillet 2018
- Correction d’un bogue dans l’exécution des requêtes qui faisait que les agrégations sur des colonnes décimales avec des précisions différentes renvoyaient des résultats incorrects dans certains cas
- Correction d’un bogue NullPointerException qui était lancé lors d’opérations d’agrégation avancées comme le regroupement d’ensembles
28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table

7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Correction d’un bogue touchant la génération de code
- Correction d’un bogue (java.lang.NoClassDefFoundError) touchant Delta Lake
- Amélioration de la gestion des erreurs dans Delta Lake
17 mai 2018
- Correction d’un bogue qui entraînait la collecte de statistiques incorrectes relatives au saut de données pour les colonnes de chaîne de 32 caractères ou plus

Databricks Runtime 4.0

Consultez Databricks Runtime 4.0 (EoS).

6 novembre 2018
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur

16 octobre 2018
- Correction d’un bogue touchant l’opération Union

25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de NotSerializableException dans la source de données Avro
11 septembre 2018
- La réduction du filtre doit gérer correctement la valeur Null
28 août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
23 août 2018
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- Correction de la rédaction du gestionnaire de secrets lorsque la commande réussit partiellement
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
2 août 2018
- [SPARK-24452] Évite tout dépassement possible dans int add ou multiple
- [SPARK-24588] La jointure en continu doit nécessiter HashClusteredPartitioning des enfants
- Correction d’un problème qui pouvait amener la commande mergeInto à produire des résultats incorrects
- [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table

7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Amélioration de la gestion des erreurs dans Delta Lake

17 mai 2018
- Correction de bogues pour la gestion des secrets Databricks
- Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
- Correction d’un bogue concernant la mise en cache des RDD
- Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
24 avril 2018
- Mise à niveau du Kit de développement logiciel (SDK) Azure Data Lake Store de la version 2.0.11 vers la version 2.2.8 pour améliorer la stabilité de l’accès à Azure Data Lake Store
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque spark.databricks.io.hive.fastwriter.enabled a la valeur false
- Correction d’un problème qui faisait échouer la sérialisation des tâches
- Amélioration de la stabilité de Delta Lake
14 mars 2018
- Empêche les mises à jour inutiles des métadonnées lors de l’écriture dans Delta Lake
- Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie

Databricks Runtime 3.5 LTS

Consultez Databricks Runtime 3.5 LTS (EoS).

7 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
10 septembre 2019
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
9 avril 2019
- [SPARK-26665][CORE] Correction d’un bogue pouvant entraîner le blocage permanent de BlockTransferService.fetchBlockSync
12 février 2019
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque spark.network.crypto.enabled est défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener df.rdd.count() avec UDT à renvoyer une réponse incorrecte dans certains cas
18 décembre 2018
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur spark.sql.files.ignoreCorruptFiles ou spark.sql.files.ignoreMissingFiles est activé
- Correction d’un problème touchant certaines requêtes d’auto-union
20 novembre 2018
- [SPARK-25816] Correction de la résolution des attributs dans les extracteurs imbriqués
6 novembre 2018
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur

16 octobre 2018
- Correction d’un bogue touchant l’opération Union

25 septembre 2018
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de NotSerializableException dans la source de données Avro
11 septembre 2018
- La réduction du filtre doit gérer correctement la valeur Null
28 août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
23 août 2018
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table

7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Amélioration de la gestion des erreurs dans Delta Lake

17 mai 2018
- Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
- Correction d’un bogue concernant la mise en cache des RDD
- Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
- Correction d’un bogue touchant certaines agrégations dans les requêtes de streaming
24 avril 2018
- Mise à niveau du Kit de développement logiciel (SDK) Azure Data Lake Store de la version 2.0.11 vers la version 2.2.8 pour améliorer la stabilité de l’accès à Azure Data Lake Store
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque spark.databricks.io.hive.fastwriter.enabled a la valeur false
- Correction d’un problème qui faisait échouer la sérialisation des tâches
09 mars 2018
- Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie
01 mars 2018
- Amélioration de l’efficacité de la gestion des flux dont l’arrêt peut prendre beaucoup de temps
- Correction d’un problème concernant l’autocomplétion en Python
- Application des correctifs de sécurité Ubuntu
- Correction d’un problème touchant certaines requêtes qui utilisent des UDF Python et des fonctions de fenêtre
- Correction d’un problème concernant l’utilisation des UDF sur un cluster dont le contrôle d’accès aux tables est activé
29 janvier 2018
- Correction d’un problème concernant la manipulation de tables stockées dans Stockage Blob Azure
- Correction de l’agrégation après l’opération dropDuplicates sur un DataFrame vide

Databricks Runtime 3.4

Consultez Databricks Runtime 3.4 (EoS).

7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Amélioration de la gestion des erreurs dans Delta Lake

17 mai 2018
- Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
- Correction d’un bogue concernant la mise en cache des RDD
- Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
24 avril 2018
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque spark.databricks.io.hive.fastwriter.enabled a la valeur false
09 mars 2018
- Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie
13 décembre 2017
- Correction d’un problème concernant les UDF en Scala
- Correction d’un problème concernant l’utilisation d’un index de saut de données sur les tables de sources de données stockées sous des chemins non DBFS
07 décembre 2017
- Amélioration de la stabilité de la lecture aléatoire

Versions non prises en charge de Databricks Runtime

Pour les notes de publication d’origine, suivez le lien situé sous le sous-titre.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-12-30