Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page archivée répertorie les mises à jour de maintenance publiées pour les versions de Databricks Runtime qui ne sont plus prises en charge. Pour ajouter une mise à jour de maintenance à un cluster existant, redémarrez le cluster.
Importante
Cette documentation a été mise hors service et peut ne pas être mise à jour. Les produits, services ou technologies mentionnés dans ce contenu ont atteint leur fin de support. Consultez les versions et la compatibilité des notes de publication de Databricks Runtime.
Note
Cet article contient des références au terme liste verte, un terme qu’Azure Databricks n’utilise pas. Lorsque le terme sera supprimé du logiciel, nous le supprimerons de cet article.
Versions de Databricks Runtime
Mises à jour de maintenance par version :
- Databricks Runtime 16.3
- Databricks Runtime 16.1
- Databricks Runtime 16.0
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.1
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0
- Databricks Runtime 12.1
- Databricks Runtime 12.0
- Databricks Runtime 11.2
- Databricks Runtime 11.1
- Databricks Runtime 11.0
- Databricks Runtime 10.5
- Databricks Runtime 10.3
- Databricks Runtime 10.2
- Databricks Runtime 10.1
- Databricks Runtime 10.0
- Databricks Runtime 9.0
- Databricks Runtime 8.4
- Databricks Runtime 8.3
- Databricks Runtime 8.2
- Databricks Runtime 8.1
- Databricks Runtime 8.0
- Databricks Runtime 7.6
- Databricks Runtime 7.5
- Databricks Runtime 7.3 LTS
- Prise en charge étendue de Databricks Runtime 6.4
- Databricks Runtime 5.5 LTS
- Databricks Light 2.4 - Support étendu
- Databricks Runtime 7.4
- Databricks Runtime 7.2
- Databricks Runtime 7.1
- Databricks Runtime 7.0
- Databricks Runtime 6.6
- Databricks Runtime 6.5
- Databricks Runtime 6.3
- Databricks Runtime 6.2
- Databricks Runtime 6.1
- Databricks Runtime 6.0
- Databricks Runtime 5.4 ML
- Databricks Runtime 5.4
- Databricks Runtime 5.3
- Databricks Runtime 5.2
- Databricks Runtime 5.1
- Databricks Runtime 5.0
- Databricks Runtime 4.3
- Databricks Runtime 4.2
- Databricks Runtime 4.1 ML
- Databricks Runtime 4.1
- Databricks Runtime 4.0
- Databricks Runtime 3.5 LTS
- Databricks Runtime 3.4
Pour voir les mises à jour de maintenance sur les versions de Databricks Runtime prises en charge, consultez Mises à jour de maintenance de Databricks Runtime.
Databricks Runtime 16.3
Consultez Databricks Runtime 16.3 (EoS).
- 16 septembre 2025
- Le connecteur Snowflake utilise désormais la
INFORMATION_SCHEMAtable au lieu de laSHOW SCHEMAScommande pour répertorier les schémas. Cette modification supprime la limite de 10 000 schémas de l’approche précédente et améliore la prise en charge des bases de données avec un grand nombre de schémas. - Mises à jour de sécurité du système d’exploitation
- Le connecteur Snowflake utilise désormais la
- 9 septembre 2025
- Correction d’un problème qui pouvait entraîner le blocage indéfini du chargeur automatique.
- Correction d’une erreur temporaire dans le chargeur automatique qui peut entraîner l’échec des travaux.
- [SPARK-51821][CORE] Interruption d’appel () sans tenir uninterruptibleLock pour éviter le blocage possible
- [SPARK-49872][CORE] Supprimer la limitation de longueur de chaîne JSON jackson
- Mises à jour de sécurité du système d’exploitation
- 26 août 2025
- [SPARK-52482][SQL][CORE] Améliorer la gestion des exceptions pour la lecture de certains fichiers zstd endommagés
- [SPARK-53192][CONNECT] Mettent toujours en cache une source de données dans le cache du plan Spark Connect
- Mises à jour de sécurité du système d’exploitation
- 14 août 2025
- [SPARK-51011][CORE] Ajouter la journalisation pour savoir si une tâche va être interrompue lors de la mort
- Mises à jour de sécurité du système d’exploitation
- 29 juillet 2025
- Mises à jour de sécurité du système d’exploitation
- 15 juillet 2025
- Correction d’un problème de perte de données non déterministe lors de l’utilisation de Spark Structured Streaming pour diffuser des données à partir de Pulsar.
- [SPARK-52553][SS] Correction de NumberFormatException lors de la lecture du journal des modifications v1
- Mises à jour de sécurité du système d’exploitation
- 1 juillet 2025
- Prise en charge de la décompression ZStandard pour les lecteurs de sources de données de fichier (json, csv, xml et texte.)
- [SPARK-52482][SQL][CORE] Prise en charge de la version ZStandard pour le lecteur de la version sources de la version données de la version fichiers
- [SPARK-52312][SQL] Ignorer V2WriteCommand lors de la mise en cache du DataFrame
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL]
Right#replacementne doit pas accéder dynamiquement à SQLConf - Mises à jour de sécurité du système d’exploitation
- 17 juin 2025
- Correction de la limitation selon laquelle la fonction table de valeur (TVF)
cloud_files_statene peut pas être utilisée pour lire l’état au niveau du fichier des tables de streaming entre les pipelines. - [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference doit conserver l’ID de plan
- Mises à jour de sécurité du système d’exploitation
- Correction de la limitation selon laquelle la fonction table de valeur (TVF)
- 3 juin 2025
- Bibliothèques Python mises à jour :
- cryptographie de 41.0.7, 41.0.7, 42.0.5 à 42.0.5
- empaquetage de 24.0, 24.1 à 24.1
- platformdirs de 3.10.0, 4.2.2 à 3.10.0
- pyparsing de la version 3.0.9 et 3.1.1 à la version 3.0.9
- Ajout de la commande automatique 2.2.2
- Ajout de backports.tarfile 1.2.0
- Ajout de importlib_resources 6.4.0
- Ajout d’inflect 7.3.1
- Ajout de jaraco.context 5.3.0
- Ajout de jaraco.functools 4.0.1
- Ajouté le module jaraco.text 3.12.1
- Ajout de more-itertools 10.3.0
- Ajout de pip 24.2
- Ajout de setuptools 74.0.0
- Ajout de tomli 2.0.1
- Ajout de Typeguard version 4.3.0
- Ajout de wcwidth 0.2.5
- Ajout de la roue 0.43.0
- Suppression de la version 1.9.0
- Suppression de distro-info 1.7+build1
- Suppression de python-apt 2.7.7+ubuntu4
- [SPARK-52195][PYTHON][SS] Correction du problème de suppression de colonne d’état initiale pour Python TWS
- [SPARK-52159][SQL] Gérer correctement la vérification de l’existence de la table pour les dialectes jdbc
- Mises à jour de sécurité du système d’exploitation
- Bibliothèques Python mises à jour :
- 20 mai 2025
- Bibliothèques Java mises à jour :
- io.delta-sharing-client_2.12 de 1.2.6 à 1.2.7
- org.apache.avro.avro de 1.11.3 à 1.11.4
- org.apache.avro.avro-ipc de 1.11.3 à 1.11.4
- org.apache.avro.avro-mapred de 1.11.3 à 1.11.4
- La session clonée de streaming sera utilisée à l’intérieur de la fonction utilisateur foreachBatch dans les Clusters partagés et Serverless. Cela s’aligne sur le comportement dans les clusters classiques (clusters affectés).
- La session clonée de streaming sera utilisée à l’intérieur de la fonction utilisateur foreachBatch dans les Clusters partagés et Serverless. Cela s’aligne sur le comportement dans les clusters classiques (clusters affectés).
- Avant cette modification, les espaces blancs et les onglets de début dans les chemins d’accès de l’expression
variant_getétaient ignorés avec Photon désactivé. Par exemple,select variant_get(parse_json('{"key": "value"}'), '$['key']')ne serait pas efficace dans l’extraction de la valeur de"key". Toutefois, les utilisateurs pourront extraire ces clés maintenant. - [SPARK-51921][SS][PYTHON] Utilisation du type long pour la durée de vie en millisecondes dans transformWithState
- [SPARK-51935][SQL] Corriger le comportement différé des itérateurs dans df.collect() interprété
- Mises à jour de sécurité du système d’exploitation
- Bibliothèques Java mises à jour :
- 22 avril 2025
- Le suivi des schémas delta exposera les erreurs d'évolution de schéma avec
DELTA_STREAMING_CANNOT_CONTINUE_PROCESSING_POST_SCHEMA_EVOLUTIONpour être cohérent avec d'autres exceptions de changement de schéma non additifs, au lieu deDELTA_STREAMING_CANNOT_CONTINUE_PROCESSING_TYPE_WIDENING. - [SPARK-51589][SQL] Correction d’un petit bogue qui ne parvient pas à vérifier les fonctions d’agrégation dans |>SELECT
- [SPARK-51645][SQL] Fix CREATE OR REPLACE TABLE ... CLASSEMENT PAR DÉFAUT ... requête
- Annuler « [SPARK-47895][SQL] group by alias doit être idempotent » dans les versions 15.4, 16.0, 16.1, 16.2 et 16.3
- [SPARK-51717][SS][RocksDB] Corriger l’altération de l’incompatibilité SST qui peut se produire pour la deuxième capture instantanée créée pour une nouvelle requête
- Le suivi des schémas delta exposera les erreurs d'évolution de schéma avec
- 26 mars 2025
- [SPARK-51624][SQL] Propager les métadonnées de GetStructField dans le type de données CreateNamedStruct.
- [SPARK-51505][SQL] Enregistrer les métriques du nombre de partitions vides dans AQE coalesce
- [SPARK-47895][SQL] group by alias doit être idempotent
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 16.1
Consultez Databricks Runtime 16.1 (EoS).
- 12 août 2025
- Mises à jour de sécurité du système d’exploitation
29 juillet 2025
- Mises à jour de sécurité du système d’exploitation
15 juillet 2025
- Mises à jour de sécurité du système d’exploitation
1er juillet 2025
- Prise en charge de la décompression ZStandard pour les lecteurs de sources de données de fichier (json, csv, xml et texte.)
- [SPARK-52482][SQL][CORE] Prise en charge de la version ZStandard pour le lecteur de la version sources de la version données de la version fichiers
- [15.4-16.4][spark-52521]](https://issues.apache.org/jira/browse/SPARK-52521)[SQL]
Right#replacementne doit pas accéder dynamiquement à SQLConf - [SPARK-52312][SQL] Ignorer V2WriteCommand lors de la mise en cache du DataFrame
- Mises à jour de sécurité du système d’exploitation
17 juin 2025
- Correction de la limitation selon laquelle la fonction table de valeur (TVF)
cloud_files_statene peut pas être utilisée pour lire l’état au niveau du fichier des tables de streaming entre les pipelines. - [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference doit conserver l’ID de plan
- Mises à jour de sécurité du système d’exploitation
- Correction de la limitation selon laquelle la fonction table de valeur (TVF)
- 3 juin 2025
- Bibliothèques Python mises à jour :
- cryptographie de 41.0.7, 41.0.7, 42.0.5 à 42.0.5
- empaquetage de 24.0, 24.1 à 24.1
- platformdirs de 3.10.0, 4.2.2 à 3.10.0
- pyparsing de la version 3.0.9 et 3.1.1 à la version 3.0.9
- Ajout de la commande automatique 2.2.2
- Ajout de backports.tarfile 1.2.0
- Ajout de importlib_resources 6.4.0
- Ajout d’inflect 7.3.1
- Ajout de jaraco.context 5.3.0
- Ajout de jaraco.functools 4.0.1
- Ajouté le module jaraco.text 3.12.1
- Ajout de more-itertools 10.3.0
- Ajout de pip 24.2
- Ajout de setuptools 74.0.0
- Ajout de tomli 2.0.1
- Ajout de Typeguard version 4.3.0
- Ajout de wcwidth 0.2.5
- Ajout de la roue 0.43.0
- Suppression de la version 1.9.0
- Suppression de distro-info 1.7+build1
- Suppression de python-apt 2.7.7+ubuntu4
- Bibliothèques Java mises à jour :
- com.github.fommil.netlib.native_ref-java de 1.1, 1.1-natives à 1.1, 1.1
- com.github.fommil.netlib.native_system-java de 1.1, 1.1-natives à 1.1, 1.1
- com.github.fommil.netlib.netlib-native_ref-linux-x86_64 de 1.1-natives à 1.1
- com.github.fommil.netlib.netlib-native_system-linux-x86_64 de 1.1-natives à 1.1
- io.netty.netty-tcnative-boringssl-static de 2.0.61.Final-db-r16, 2.0.61.Final-db-r16-linux-aarch_64, 2.0.61.Final-db-r16-linux-x86_64, 2.0.61.Final-db-r16-osx-aarch_64, 2.0.61.Final-db-r16-osx-x86_64, 2.0.61.Final-db-r16-windows-x86_64 à 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16, 2.0.61.Final-db-r16
- io.netty.netty-transport-native-epoll from 4.1.108.Final, 4.1.108.Final-linux-aarch_64, 4.1.108.Final-linux-riscv64, 4.1.108.Final-linux-x86_64 à 4.1.108.Final, 4.1.108.Final, 4.1.1.108.Final, 4.1.108.Final
- io.netty.netty-transport-native-kqueue de 4.1.108.Final-osx-aarch_64, 4.1.108.Final-osx-x86_64 à 4.1.108.Final, 4.1.108.Final
- org.apache.orc.orc-core de 1.9.2-shaded-protobuf à 1.9.2
- Mise à jour de org.apache.orc.orc-mapreduce de la version 1.9.2-shaded-protobuf à la version 1.9.2
- software.amazon.cryptools.AmazonCorrettoCryptoProvider de 2.4.1-linux-x86_64 à 2.4.1
- [SPARK-52159][SQL] Gérer correctement la vérification de l’existence de la table pour les dialectes jdbc
- Mises à jour de sécurité du système d’exploitation
- Bibliothèques Python mises à jour :
- 20 mai 2025
- Bibliothèques Java mises à jour :
- io.delta-sharing-client_2.12 de 1.2.5 à 1.2.7
- org.apache.avro.avro de 1.11.3 à 1.11.4
- org.apache.avro.avro-ipc de 1.11.3 à 1.11.4
- org.apache.avro.avro-mapred de 1.11.3 à 1.11.4
- La session clonée de streaming sera utilisée à l’intérieur de la fonction utilisateur foreachBatch dans les Clusters partagés et Serverless. Cela s’aligne sur le comportement dans les clusters classiques (clusters affectés).
- Avant cette modification, les espaces blancs et les onglets de début dans les chemins d’accès de l’expression
variant_getétaient ignorés avec Photon désactivé. Par exemple,select variant_get(parse_json('{"key": "value"}'), '$['key']')ne serait pas efficace dans l’extraction de la valeur de"key". Toutefois, les utilisateurs pourront extraire ces clés maintenant. - [SPARK-51935][SQL] Corriger le comportement différé des itérateurs dans df.collect() interprété
- Mises à jour de sécurité du système d’exploitation
- Bibliothèques Java mises à jour :
- 22 avril 2025
- Annuler « [SPARK-47895][SQL] group by alias doit être idempotent » dans les versions 15.4, 16.0, 16.1, 16.2 et 16.3
- [SPARK-50682][SQL] L’alias interne doit être canonique
- [SPARK-51717][SS][RocksDB] Corriger l’altération de l’incompatibilité SST qui peut se produire pour la deuxième capture instantanée créée pour une nouvelle requête
- Mises à jour de sécurité du système d’exploitation
- 9 avril 2025
- Bibliothèques Java mises à jour :
- Suppression de io.starburst.openjson.openjson 1.8-e.12
- Suppression de io.starburst.openx.data.json-serde 1.3.9-e.12
- Suppression de io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-51505][SQL] Enregistrer les métriques du nombre de partitions vides dans AQE coalesce
- [SPARK-51624][SQL] Propager les métadonnées de GetStructField dans le type de données CreateNamedStruct.
- [SPARK-47895][SQL] group by alias doit être idempotent
- Mises à jour de sécurité du système d’exploitation
- Bibliothèques Java mises à jour :
- 11 mars 2025
- Databricks Runtime 14.3 LTS et versions ultérieures incluent un correctif pour un problème qui provoquait des incompatibilités binaires avec du code qui a instancié une classe
SparkListenerApplicationEndet qui a été compilé avec Apache Spark. Cette incompatibilité a entraîné la fusion de SPARK-46399 dans Apache Spark. Cette fusion inclut une modification qui a ajouté un argument par défaut auSparkListenerApplicationEndconstructeur. Pour restaurer la compatibilité binaire, ce correctif ajoute un constructeur d’argument unique à laSparkListenerApplicationEndclasse. - [SPARK-51084][SQL] Affecter la classe d’erreur appropriée pour negativeScaleNotAllowedError
- Rétablir [SPARK-48273][SQL] Corriger la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-51222][SQL] Optimiser ReplaceCurrentLike
- [SPARK-50985][SS] Classifier l’erreur d’incompatibilité des décalages de timestamp Kafka au lieu d’affirmer et de lever une erreur pour le serveur manquant dans KafkaTokenProvider
- [SPARK-50791][SQL] Correction de NPE dans la gestion des erreurs du Magasin d’états
- Mises à jour de sécurité du système d’exploitation
- Databricks Runtime 14.3 LTS et versions ultérieures incluent un correctif pour un problème qui provoquait des incompatibilités binaires avec du code qui a instancié une classe
- 11 février 2025
- Cette version inclut un correctif pour un problème affectant la conversion de certains types de données lors de la sérialisation de colonnes de données XML sauvées. Les types de données affectés sont des dates, des horodatages non NTZ et des décimales lorsqu’ils
prefersDecimalsont activés. Pour en savoir plus sur la colonne de données sauvées, consultez Qu’est-ce que la colonne de données sauvée ?. - [SPARK-50492][SS] Correction de java.util.NoSuchElementException lorsque la colonne d’heure de l’événement est supprimée après dropDuplicatesWithinWatermark
- Mises à jour de sécurité du système d’exploitation
- Cette version inclut un correctif pour un problème affectant la conversion de certains types de données lors de la sérialisation de colonnes de données XML sauvées. Les types de données affectés sont des dates, des horodatages non NTZ et des décimales lorsqu’ils
- 27 novembre 2024
- Cette version inclut un correctif pour un problème pouvant entraîner la suppression de la clé primaire d’une table Delta dans certains cas particuliers liés à la compactage automatique en arrière-plan.
- Cette version inclut un correctif pour un problème affectant la conversion de certains types de données lors de la sérialisation de colonnes de données XML sauvées. Les types de données affectés sont des dates, des horodatages non NTZ et des décimales lorsqu’ils
prefersDecimalsont activés. Pour en savoir plus sur la colonne de données sauvées, consultez Qu’est-ce que la colonne de données sauvée ?. - Avec cette version, la taille du cache utilisée par un disque SSD dans un nœud de calcul Databricks s’étend dynamiquement à la taille initiale du disque SSD et diminue si nécessaire, jusqu’à la
spark.databricks.io.cache.maxDiskUsagelimite. Consultez Optimisation des performances avec la mise en cache sur Azure Databricks. - [SPARK-50338][CORE] Rendre les exceptions LazyTry moins détaillées
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 16.0
Consultez Databricks Runtime 16.0 (EoS).
- 22 avril 2025
- Annuler « [SPARK-47895][SQL] group by alias doit être idempotent » dans les versions 15.4, 16.0, 16.1, 16.2 et 16.3
- Mises à jour de sécurité du système d’exploitation
- 9 avril 2025
- Bibliothèques Java mises à jour :
- Suppression de io.starburst.openjson.openjson 1.8-e.12
- Suppression de io.starburst.openx.data.json-serde 1.3.9-e.12
- Suppression de io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-47895][SQL] group by alias doit être idempotent
- [SPARK-51624][SQL] Propager les métadonnées de GetStructField dans le type de données CreateNamedStruct.
- Mises à jour de sécurité du système d’exploitation
- Bibliothèques Java mises à jour :
- 11 mars 2025
- Databricks Runtime 14.3 et versions ultérieures incluent un correctif pour un problème qui a provoqué des incompatibilités binaires avec du code qui instanciait une
SparkListenerApplicationEndclasse et qui a été compilé sur Apache Spark. Cette incompatibilité a entraîné la fusion de SPARK-46399 dans Apache Spark. Cette fusion inclut une modification qui a ajouté un argument par défaut auSparkListenerApplicationEndconstructeur. Pour restaurer la compatibilité binaire, ce correctif ajoute un constructeur d’argument unique à laSparkListenerApplicationEndclasse. - [SPARK-51084][SQL] Affecter la classe d’erreur appropriée pour negativeScaleNotAllowedError
- [SPARK-51222][SQL] Optimiser ReplaceCurrentLike
- [SPARK-50985][SS] Classifier l’erreur d’incompatibilité des décalages de timestamp Kafka au lieu d’affirmer et de lever une erreur pour le serveur manquant dans KafkaTokenProvider
- [SPARK-50791][SQL] Correction de NPE dans la gestion des erreurs du Magasin d’états
- Mises à jour de sécurité du système d’exploitation
- Databricks Runtime 14.3 et versions ultérieures incluent un correctif pour un problème qui a provoqué des incompatibilités binaires avec du code qui instanciait une
- 11 février 2025
- Cette version inclut un correctif pour un problème affectant la conversion de certains types de données lors de la sérialisation de colonnes de données XML sauvées. Les types de données affectés sont des dates, des horodatages non NTZ et des décimales lorsqu’ils
prefersDecimalsont activés. Pour en savoir plus sur la colonne de données sauvées, consultez Qu’est-ce que la colonne de données sauvée ?. -
[SPARK-50705][SQL] Rendre
QueryPlanle verrou libre - [SPARK-50492][SS] Correction de java.util.NoSuchElementException lorsque la colonne d’heure de l’événement est supprimée après dropDuplicatesWithinWatermark
- Mises à jour de sécurité du système d’exploitation
- Cette version inclut un correctif pour un problème affectant la conversion de certains types de données lors de la sérialisation de colonnes de données XML sauvées. Les types de données affectés sont des dates, des horodatages non NTZ et des décimales lorsqu’ils
- 4 décembre 2024
- L’instruction
USE CATALOGprend désormais en charge la clauseIDENTIFIER. Avec cette prise en charge, vous pouvez paramétrer le catalogue actuel en fonction d’une variable de chaîne ou d’un marqueur de paramètre. - Cette version inclut un correctif pour un problème pouvant entraîner la suppression de la clé primaire d’une table Delta dans certains cas particuliers liés à la compactage automatique en arrière-plan.
- Avec cette version, la taille du cache utilisée par un disque SSD dans un nœud de calcul Databricks s’étend dynamiquement à la taille initiale du disque SSD et diminue si nécessaire, jusqu’à la
spark.databricks.io.cache.maxDiskUsagelimite. Consultez Optimisation des performances avec la mise en cache sur Azure Databricks. - [SPARK-50322][SQL] Correction de l’identificateur paramétrable dans une sous-requête
-
[SPARK-50034][CORE] Correction du mauvais signalement des erreurs fatales en tant qu’exceptions interceptées dans
SparkUncaughtExceptionHandler - [SPARK-47435][SQL] Correction du problème de dépassement de capacité de MySQL UNSIGNED TINYINT
- [SPARK-49757][SQL] Prendre en charge l’expression IDENTIFIER dans l’instruction SETCATALOG
- [SPARK-50426][PYTHON] Éviter la recherche statique de source de données Python lors de l’utilisation de sources de données intégrées ou Java
- [SPARK-50338][CORE] Rendre les exceptions LazyTry moins détaillées
- Mises à jour de sécurité du système d’exploitation
- L’instruction
- 10 décembre 2024
- (Changement majeur) Dans Databricks Runtime 15.4 et versions ultérieures, la gestion des expressions régulières dans Photon a été mise à jour afin de correspondre au comportement de la gestion des expressions régulières dans Apache Spark. Auparavant, les fonctions d’expression régulière exécutées par Photon, telles que
split()etregexp_extract(), acceptaient certaines expressions régulières rejetées par l’analyseur Spark. Pour maintenir la cohérence avec Apache Spark, les requêtes Photon échouent désormais pour les expressions régulières que Spark considère non valides. En raison de cette modification, vous pouvez voir des erreurs si votre code Spark inclut des expressions régulières non valides. Par exemple, l’expressionsplit(str_col, '{'), qui contient une accolade sans correspondance et qui a été précédemment acceptée par Photon, échoue désormais. Pour corriger cette expression, vous pouvez échapper au caractère d’accolades :split(str_col, '\\{'). Le comportement de Photon et de Spark diffère également pour certaines correspondances d’expressions régulières avec des caractères non ASCII. Ceci est également mis à jour afin que Photon corresponde au comportement d’Apache Spark. - Avec cette version, vous pouvez maintenant interroger la fonction
vector_searchà l’aide dequery_textpour l’entrée de texte ouquery_vectorpour l’incorporation d’entrée. - Vous pouvez maintenant définir un délai d’expiration pour les requêtes Spark Connect à l’aide de la propriété de configuration Spark
spark.databricks.execution.timeout. Pour les notebooks s’exécutant sur le calcul sans serveur, la valeur par défaut est9000(secondes). Les travaux exécutés sur le calcul serverless et le calcul avec le mode d’accès standard n’ont pas de délai d’expiration, sauf si cette propriété de configuration est définie. Une exécution qui dure plus longtemps que le délai d’expiration spécifié entraîne une erreurQUERY_EXECUTION_TIMEOUT_EXCEEDED. - [SPARK-49843][SQL] Correction du commentaire de modification sur les colonnes char/varchar
-
[SPARK-49924][SQL] Conserver
containsNullaprès le remplacement deArrayCompact - [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-48780][SQL] Effectuer des erreurs dans le générique NamedParametersSupport pour gérer les fonctions et les procédures
- [SPARK-49876][CONNECT] Se débarrasser des verrous globaux à partir du service Spark Connect
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-49615] Correctif de bogue : Rendre la validation du schéma de colonne ML conforme à la configuration Spark spark.sql.caseSensitive
- [SPARK-48782][SQL] Ajouter la prise en charge de l’exécution de procédures dans les catalogues
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- Rétablir « [SPARK-49002][SQL] Gérer de manière cohérente les emplacements non valides dans WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY »
- [SPARK-50028][CONNECT] Remplacer les verrous globaux dans l’écouteur de serveur Spark Connect par des verrous affinés
- [SPARK-49615] [ML] Rendre la validation du schéma des jeux de données de tous les transformateurs de fonctionnalités ML conforme au paramètre « spark.sql.caseSensitive ».
- [SPARK-50124][SQL] LIMIT/OFFSET doivent conserver l’ordre des données
- Mises à jour de sécurité du système d’exploitation
- (Changement majeur) Dans Databricks Runtime 15.4 et versions ultérieures, la gestion des expressions régulières dans Photon a été mise à jour afin de correspondre au comportement de la gestion des expressions régulières dans Apache Spark. Auparavant, les fonctions d’expression régulière exécutées par Photon, telles que
Databricks Runtime 15.3
Consultez Databricks Runtime 15.3 (EoS).
- 26 novembre 2024
- Avec cette version, vous pouvez maintenant interroger la fonction
vector_searchà l’aide dequery_textpour l’entrée de texte ouquery_vectorpour l’incorporation d’entrée. - Mises à jour de sécurité du système d’exploitation
- Avec cette version, vous pouvez maintenant interroger la fonction
- 5 novembre 2024
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-49867][SQL] Améliorer le message d’erreur lorsque l’index est hors limites lors de l’appel de GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-46632][SQL] Correction de l’élimination des sous-expressions lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
- 22 octobre 2024
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-49867][SQL] Améliorer le message d’erreur lorsque l’index est hors limites lors de l’appel de GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-46632][SQL] Correction de l’élimination des sous-expressions lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- [SPARK-49688][CONNECT] Correction d’un conflit d’accès entre une interruption et un plan d’exécution
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs du schéma lors de l’élagage GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- Mises à jour de sécurité du système d’exploitation
- 25 septembre 2024
- [SPARK-49492][CONNECT] Réattachement tenté sur ExecutionHolder inactif
- [SPARK-49628][SQL] ConstantFolding devrait copier les expressions avec état avant de les évaluer
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- [SPARK-49458][CONNECT][PYTHON] Fournir l’identifiant de session côté serveur via ReattachExecute
-
[SPARK-48719][SQL] Corriger le bogue de calcul de
RegrSlope&RegrInterceptlorsque le premier paramètre a la valeur Null - Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- SPARK-49336[CONNECT] Limitation du niveau d’imbrication lors de la troncation d’un message protobuf
- [SPARK-49526][CONNECT][15.3.5] Prise en charge des chemins d’accès de style Windows dans ArtifactManager
- [SPARK-49366][CONNECT] Traiter le nœud Union comme une feuille dans la résolution de colonne du dataframe
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic de corruption du shuffle
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion cohérente des options de lecture des Dataframes booléens
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer correctement les valeurs null.
-
[SPARK-48862][PYTHON][CONNECT] Éviter d’appeler
_proto_to_stringlorsque le niveau INFO n’est pas activé - [SPARK-49146][SS] Déplacer les erreurs d’assertion liées à l’absence de filigrane dans les requêtes de streaming en mode append vers le cadre d’erreurs.
- 14 août 2024
- [SPARK-48941][SPARK-48970] Corrections du lecteur/rédacteur ML Backport
- [SPARK-48706][PYTHON] Les fonctions UDF Python dans les fonctions d’ordre supérieur ne doivent pas générer d’erreur interne
- [SPARK-48954] try_mod() remplace try_remainder()
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-49047][PYTHON] [CONNECT] Tronquer le message pour la journalisation
- [SPARK-48740][SQL] Détecter rapidement les erreurs de spécification de fenêtre manquantes
- 1 août 2024
- [Changement cassant] Dans Databricks Runtime 15.3 et versions ultérieures, l’appel de toute fonction définie par l’utilisateur Python (UDF), la fonction d’agrégation définie par l’utilisateur (UDAF) ou la fonction de table définie par l’utilisateur (UDTF) qui utilise un type de
VARIANTcomme argument ou valeur de retour lève une exception. Cette modification est apportée pour empêcher les problèmes qui peuvent se produire en raison d’une valeur non valide retournée par l’une de ces fonctions. Pour en savoir plus sur le typeVARIANT, consultez pour utiliser les VARIANTs afin de stocker des données semi-structurées. - Sur le calcul serverless pour les notebooks et les tâches, le mode ANSI SQL est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- La sortie d’une instruction
SHOW CREATE TABLEinclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne. - Sur les ordinateurs configurés en mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumises aux mêmes restrictions que celles documentées pour Structured Streaming. Voir Limitations de la diffusion en continu.
- [SPARK-46957][CORE] Les fichiers shuffle migrés et désactivés devraient pouvoir être nettoyés à partir de l’exécuteur
- [SPARK-48648][PYTHON][CONNECT] Rendre SparkConnectClient.tags correctement threadlocal
- [SPARK-48896][SPARK-48909][SPARK-48883] Corrections apportées au rédacteur ML Spark
- [SPARK-48713][SQL] Ajouter une vérification de plage d’index pour UnsafeRow.pointTo lorsque baseObject est un tableau d’octets
- [SPARK-48834][SQL] Désactiver les entrées/sorties variables pour les fonctions scalaires UDF, UDTF et UDAF Python lors de la compilation des requêtes
- [SPARK-48934][SS] Types de dates et heures Python mal convertis pour définir le délai d’expiration dans applyInPandasWithState
- [SPARK-48705][PYTHON] Utiliser explicitement worker_main lorsqu’il démarre avec pyspark.
- [SPARK-48544][SQL] Réduire la pression mémoire des BitSets TreeNode vides
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant la fin
- [SPARK-49054][SQL] La valeur par défaut de la colonne doit prendre en charge les fonctions current_*.
- [SPARK-48653][PYTHON] Correction des références de classe d’erreur de source de données Python non valides
- [SPARK-48463] Ajouter la prise en charge des colonnes d’entrée imbriquées dans StringIndexer
- [SPARK-48810][CONNECT] L’API session stop() doit être idempotente et ne doit pas échouer si la session est déjà fermée par le serveur
- [SPARK-48873][SQL] Utiliser UnsafeRow dans l’analyseur JSON.
- Mises à jour de sécurité du système d’exploitation
- [Changement cassant] Dans Databricks Runtime 15.3 et versions ultérieures, l’appel de toute fonction définie par l’utilisateur Python (UDF), la fonction d’agrégation définie par l’utilisateur (UDAF) ou la fonction de table définie par l’utilisateur (UDTF) qui utilise un type de
- 11 juillet 2024
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()pour conserver l’état d’une table pendant toute la durée de vie d’un DataFrame. - Le pilote JDBC Snowflake a été mis à jour vers la version 3.16.1.
- Cette version corrige un problème qui empêchait l’onglet Environnement de l’interface utilisateur Spark de s’afficher correctement lors de l’exécution dans Databricks Container Services.
- Pour ignorer les partitions non valides lors de la lecture des données, les sources de données basées sur des fichiers, telles que Parquet, ORC, CSV ou JSON, peuvent définir l’option de source de données ignoreInvalidPartitionPaths sur true. Par exemple : spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)’. Vous pouvez aussi utiliser la configuration SQL spark.sql.files.ignoreInvalidPartitionPaths. Cependant, l’option de source de données a priorité sur la configuration SQL. Par défaut, ce paramètre par défaut est défini sur false.
- [SPARK-48100][SQL] Correction de problèmes liés au saut des champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-47463][SQL] Utiliser V2Predicate pour encapsuler une expression avec un type de retour booléen
- [SPARK-48292][CORE] Rétablir [SPARK-39195][SQL] Spark OutputCommitCoordinator doit interrompre l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48475][PYTHON] Optimiser _get_jvm_function dans PySpark.
- [SPARK-48286] Correction de l’analyse de la colonne avec l’expression par défaut « existe » - Ajout d’un message d’erreur destiné à l’utilisateur
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan aux ensembles de données en streaming
- Rétablir «[SPARK-47406][SQL] Gérer TIMESTAMP et DATETIME dans MYSQLDialect »
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- [SPARK-48503][14.3-15.3][SQL] Corrigez les sous-requêtes scalaires non valides avec regroupement sur des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48445][SQL] Ne pas intégrer les UDF (fonctions définies par l’utilisateur) avec des composants enfants coûteux
- [SPARK-48252][SQL] Mise à jour de CommonExpressionRef si nécessaire
- [SPARK-48273][master][SQL] Corriger la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48566][PYTHON] Correction d’un bug où les indices de partition sont incorrects lorsque UDTF analyze() utilise à la fois select et partitionColumns
- [SPARK-48556][SQL] Corriger un message d’erreur incorrect pointant vers UNSUPPORTED_GROUPING_EXPRESSION
- Mises à jour de sécurité du système d’exploitation
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
Databricks Runtime 15.2
Consultez Databricks Runtime 15.2 (EoS).
- 26 novembre 2024
- Mises à jour de sécurité du système d’exploitation
- 5 novembre 2024
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-46632][SQL] Correction de l’élimination des sous-expressions lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
- 22 octobre 2024
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-46632][SQL] Correction de l’élimination des sous-expressions lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- [BACKPORT] [SPARK-49474][SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs du schéma lors de l’élagage GetArrayStructFields
- [SPARK-49688][CONNECT] Correction d’un conflit d’accès entre une interruption et un plan d’exécution
- Mises à jour de sécurité du système d’exploitation
- 25 septembre 2024
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- [SPARK-48719][SQL] Correction du bug de calcul de RegrSlope et RegrIntercept lorsque le premier paramètre est nul.
- [SPARK-49458][CONNECT][PYTHON] Fournir l’identifiant de session côté serveur via ReattachExecute
- [SPARK-49628][SQL] ConstantFolding devrait copier les expressions avec état avant de les évaluer
- [SPARK-49492][CONNECT] Réattachement tenté sur ExecutionHolder inactif
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- SPARK-49336[CONNECT] Limitation du niveau d’imbrication lors de la troncation d’un message protobuf
- [SPARK-49526][CONNECT] Prise en charge des chemins d’accès de style Windows dans ArtifactManager
- [SPARK-49366][CONNECT] Traiter le nœud Union comme une feuille dans la résolution de colonne du dataframe
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic de corruption du shuffle
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer correctement les valeurs null.
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
-
[SPARK-48862][PYTHON][CONNECT] Éviter d’appeler
_proto_to_stringlorsque le niveau INFO n’est pas activé - [SPARK-49263][CONNECT] Client Python Spark Connect : gestion cohérente des options de lecture des Dataframes booléens
- [SPARK-49146][SS] Déplacer les erreurs d’assertion liées à l’absence de filigrane dans les requêtes de streaming en mode append vers le cadre d’erreurs.
- 14 août 2024
- [SPARK-48941][SPARK-48970] Corrections du lecteur/rédacteur ML Backport
- [SPARK-48050][SS] Enregistrer le plan logique au début de la requête
- [SPARK-48706][PYTHON] Les fonctions UDF Python dans les fonctions d’ordre supérieur ne doivent pas générer d’erreur interne
- [SPARK-48740][SQL] Détecter rapidement les erreurs de spécification de fenêtre manquantes
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-49047][PYTHON] [CONNECT] Tronquer le message pour la journalisation
- 1 août 2024
- Sur le calcul serverless pour les notebooks et les tâches, le mode ANSI SQL est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Sur les ordinateurs configurés en mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumises aux mêmes restrictions que celles documentées pour Structured Streaming. Voir Limitations de la diffusion en continu.
- La sortie d’une instruction
SHOW CREATE TABLEinclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne. - Sur les ordinateurs configurés en mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumises aux mêmes restrictions que celles documentées pour Structured Streaming. Voir Limitations de la diffusion en continu.
- La sortie d’une instruction
SHOW CREATE TABLEinclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne. - [SPARK-48705][PYTHON] Utiliser explicitement worker_main lorsqu’il démarre avec pyspark.
- [SPARK-48047][SQL] Réduire la pression mémoire des balises TreeNode vides
- [SPARK-48810][CONNECT] L’API session stop() doit être idempotente et ne doit pas échouer si la session est déjà fermée par le serveur
- [SPARK-48873][SQL] Utiliser UnsafeRow dans l’analyseur JSON.
- [SPARK-46957][CORE] Les fichiers shuffle migrés et désactivés devraient pouvoir être nettoyés à partir de l’exécuteur
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant la fin
- [SPARK-48713][SQL] Ajouter une vérification de plage d’index pour UnsafeRow.pointTo lorsque baseObject est un tableau d’octets
- [SPARK-48896][SPARK-48909][SPARK-48883] Corrections apportées au rédacteur ML Spark
- [SPARK-48544][SQL] Réduire la pression mémoire des BitSets TreeNode vides
- [SPARK-48934][SS] Types de dates et heures Python mal convertis pour définir le délai d’expiration dans applyInPandasWithState
- [SPARK-48463] Ajouter la prise en charge des colonnes d’entrée imbriquées dans StringIndexer
- Mises à jour de sécurité du système d’exploitation
- 11 juillet 2024
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()pour conserver l’état d’une table pendant toute la durée de vie d’un DataFrame. - Le pilote JDBC Snowflake a été mis à jour vers la version 3.16.1.
- Cette version corrige un problème qui empêchait l’onglet Environnement de l’interface utilisateur Spark de s’afficher correctement lors de l’exécution dans Databricks Container Services.
- Sur les blocs-notes et les travaux serverless, le mode SQL ANSI est activé par défaut et prend en charge les noms courts
- Pour ignorer les partitions non valides lors de la lecture des données, les sources de données basées sur des fichiers, telles que Parquet, ORC, CSV ou JSON, peuvent définir l’option de source de données ignoreInvalidPartitionPaths sur true. Par exemple : spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)’. Vous pouvez aussi utiliser la configuration SQL spark.sql.files.ignoreInvalidPartitionPaths. Cependant, l’option de source de données a priorité sur la configuration SQL. Par défaut, ce paramètre par défaut est défini sur false.
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48292][CORE] Rétablir [SPARK-39195][SQL] Spark OutputCommitCoordinator doit interrompre l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48100][SQL] Correction de problèmes liés au saut des champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-48286] Correction de l’analyse de la colonne avec l’expression par défaut « existe » - Ajout d’un message d’erreur destiné à l’utilisateur
- [SPARK-48294][SQL] Gérer les minuscules dans nestedTypeMissingElementTypeError
- [SPARK-48556][SQL] Corriger un message d’erreur incorrect pointant vers UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] Rendre SparkConnectClient.tags correctement threadlocal
- [SPARK-48503][SQL] Corrigez les sous-requêtes scalaires non valides avec regroupement sur des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48252][SQL] Mise à jour de CommonExpressionRef si nécessaire
- [SPARK-48475][PYTHON] Optimiser _get_jvm_function dans PySpark.
- [SPARK-48566][PYTHON] Correction d’un bug où les indices de partition sont incorrects lorsque UDTF analyze() utilise à la fois select et partitionColumns
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan aux ensembles de données en streaming
- [SPARK-47463][SQL] Utiliser V2Predicate pour encapsuler une expression avec un type de retour booléen
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- [SPARK-48445][SQL] Ne pas intégrer les UDF (fonctions définies par l’utilisateur) avec des composants enfants coûteux
- Mises à jour de sécurité du système d’exploitation
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
-
applyInPandasWithState()est disponible sur des clusters partagés. - Correction d’un bug où l’optimisation de la fenêtre de classement à l’aide de Photon TopK gérait incorrectement les partitions avec des structures.
- Correction d’un bug dans la fonction try_divide() où les entrées contenant des décimales entraînaient des exceptions inattendues.
- [SPARK-48197][SQL] Éviter les erreurs d’assertion pour les fonctions lambda non valides
-
[SPARK-48276][PYTHON][CONNECT] Ajouter la méthode
__repr__manquante pourSQLExpression - [SPARK-48014][SQL] Modifier l’erreur makeFromJava dans EvaluatePython en une erreur visible par l’utilisateur
- [SPARK-48016][SQL] Correction d’un bug dans la fonction try_divide en présence de décimales
- [SPARK-47986][CONNECT] [PYTHON] Impossible de créer une nouvelle session lorsque la session par défaut est fermée par le serveur
- [SPARK-48173][SQL] CheckAnalysis devrait afficher l’intégralité du plan de requête
- [SPARK-48056][CONNECT][PYTHON] Réexécuter le plan si une erreur SESSION_NOT_FOUND est levée et qu’aucune réponse partielle n’a été reçue
- [SPARK-48172][SQL] Correction des problèmes d’échappement dans JDBCDialects, rétroportés vers la version 15.2
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- [SPARK-48288] Ajout d’un type de données source pour l’expression de conversion du connecteur
- [SPARK-48310][PYTHON][CONNECT] Les propriétés mises en cache doivent renvoyer des copies
- [SPARK-48277] Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT] [PYTHON] Impossible de créer une nouvelle session lorsque la session par défaut est fermée par le serveur
- Rétablir «[SPARK-47406][SQL] Gérer TIMESTAMP et DATETIME dans MYSQLDialect »
- [SPARK-47994][SQL] Correction d’un bug avec le filtrage de colonne CASE WHEN dans SQLServer
- [SPARK-47764][CORE][SQL] Nettoyer les dépendances de réorganisation en fonction du mode ShuffleCleanupMode
- [SPARK-47921][CONNECT] Correction de la création d’ExecuteJobTag dans ExecuteHolder
- [SPARK-48010][SQL] Éviter les appels répétés à conf.resolver dans resolveExpression
- [SPARK-48146][SQL] Correction de la fonction d’agrégation dans l’assertion enfant de l’expression With
- [SPARK-48180][SQL] Améliorer l’erreur lorsque l’appel UDTF avec TABLE l’argument oublie les parenthèses autour de plusieurs PARTITION/ORDER BY expressions
- Mises à jour de sécurité du système d’exploitation
-
Databricks Runtime 15.1
Consultez Databricks Runtime 15.1 (EoS).
- 22 octobre 2024
- [SPARK-49863][SQL] Corriger NormalizeFloatingNumbers afin de préserver la nullabilité des structures imbriquées.
- [SPARK-46632][SQL] Correction de l’élimination des sous-expressions lorsque des expressions ternaires équivalentes ont des enfants différents
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- [SPARK-49829] Réviser l’optimisation lors de l’ajout d’entrées dans le magasin d’état dans la jointure stream-stream (correction d’une erreur)
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- [SPARK-49688][CONNECT] Correction d’un conflit d’accès entre une interruption et un plan d’exécution
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs du schéma lors de l’élagage GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- Mises à jour de sécurité du système d’exploitation
- 25 septembre 2024
- [SPARK-49628][SQL] ConstantFolding devrait copier les expressions avec état avant de les évaluer
- [SPARK-48719][SQL] Correction du bug de calcul de RegrSlope et RegrIntercept lorsque le premier paramètre est nul.
- [SPARK-49492][CONNECT] Réattachement tenté sur ExecutionHolder inactif
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- [SPARK-49458][CONNECT][PYTHON] Fournir l’identifiant de session côté serveur via ReattachExecute
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- SPARK-49336[CONNECT] Limitation du niveau d’imbrication lors de la troncation d’un message protobuf
- [SPARK-49526][CONNECT] Prise en charge des chemins d’accès de style Windows dans ArtifactManager
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic de corruption du shuffle
- [SPARK-49366][CONNECT] Traiter le nœud Union comme une feuille dans la résolution de colonne du dataframe
- 29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion cohérente des options de lecture des Dataframes booléens
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer correctement les valeurs null.
-
[SPARK-48862][PYTHON][CONNECT] Éviter d’appeler
_proto_to_stringlorsque le niveau INFO n’est pas activé - [SPARK-49146][SS] Déplacer les erreurs d’assertion liées à l’absence de filigrane dans les requêtes de streaming en mode append vers le cadre d’erreurs.
- 14 août 2024
- [SPARK-48941][SPARK-48970] Corrections du lecteur/rédacteur ML Backport
- [SPARK-48050][SS] Enregistrer le plan logique au début de la requête
- [SPARK-48706][PYTHON] Les fonctions UDF Python dans les fonctions d’ordre supérieur ne doivent pas générer d’erreur interne
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-49047][PYTHON] [CONNECT] Tronquer le message pour la journalisation
- [SPARK-48740][SQL] Détecter rapidement les erreurs de spécification de fenêtre manquantes
- 1 août 2024
- Sur le calcul serverless pour les notebooks et les tâches, le mode ANSI SQL est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Sur les ordinateurs configurés en mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumises aux mêmes restrictions que celles documentées pour Structured Streaming. Voir Limitations de la diffusion en continu.
- La sortie d’une instruction
SHOW CREATE TABLEinclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne. - Sur les ordinateurs configurés en mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumises aux mêmes restrictions que celles documentées pour Structured Streaming. Voir Limitations de la diffusion en continu.
- La sortie d’une instruction
SHOW CREATE TABLEinclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne. - [SPARK-48544][SQL] Réduire la pression mémoire des BitSets TreeNode vides
- [SPARK-46957][CORE] Les fichiers shuffle migrés et désactivés devraient pouvoir être nettoyés à partir de l’exécuteur
- [SPARK-47202][PYTHON] Correction d’une faute de frappe qui perturbait les dates et heures avec tzinfo
- [SPARK-48713][SQL] Ajouter une vérification de plage d’index pour UnsafeRow.pointTo lorsque baseObject est un tableau d’octets
- [SPARK-48896][SPARK-48909][SPARK-48883] Corrections apportées au rédacteur ML Spark
- [SPARK-48810][CONNECT] L’API session stop() doit être idempotente et ne doit pas échouer si la session est déjà fermée par le serveur
- [SPARK-48873][SQL] Utiliser UnsafeRow dans l’analyseur JSON.
- [SPARK-48934][SS] Types de dates et heures Python mal convertis pour définir le délai d’expiration dans applyInPandasWithState
- [SPARK-48705][PYTHON] Utiliser explicitement worker_main lorsqu’il démarre avec pyspark.
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant la fin
- [SPARK-48047][SQL] Réduire la pression mémoire des balises TreeNode vides
- [SPARK-48463] Ajouter la prise en charge des colonnes d’entrée imbriquées dans StringIndexer
- Mises à jour de sécurité du système d’exploitation
- 11 juillet 2024
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()pour conserver l’état d’une table pendant toute la durée de vie d’un DataFrame. - Le pilote JDBC Snowflake a été mis à jour vers la version 3.16.1.
- Cette version corrige un problème qui empêchait l’onglet Environnement de l’interface utilisateur Spark de s’afficher correctement lors de l’exécution dans Databricks Container Services.
- Sur le calcul serverless pour les notebooks et les tâches, le mode ANSI SQL est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Pour ignorer les partitions non valides lors de la lecture des données, les sources de données basées sur des fichiers, telles que Parquet, ORC, CSV ou JSON, peuvent définir l’option de source de données ignoreInvalidPartitionPaths sur true. Par exemple : spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)’. Vous pouvez aussi utiliser la configuration SQL spark.sql.files.ignoreInvalidPartitionPaths. Cependant, l’option de source de données a priorité sur la configuration SQL. Par défaut, ce paramètre par défaut est défini sur false.
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan aux ensembles de données en streaming
- [SPARK-48100][SQL] Correction de problèmes liés au saut des champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-47463][SQL] Utiliser V2Predicate pour encapsuler une expression avec un type de retour booléen
- [SPARK-48445][SQL] Ne pas intégrer les UDF (fonctions définies par l’utilisateur) avec des composants enfants coûteux
- [SPARK-48292][CORE] Rétablir [SPARK-39195][SQL] Spark OutputCommitCoordinator doit interrompre l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48566][PYTHON] Correction d’un bug où les indices de partition sont incorrects lorsque UDTF analyze() utilise à la fois select et partitionColumns
- [SPARK-48648][PYTHON][CONNECT] Rendre SparkConnectClient.tags correctement threadlocal
- [SPARK-48503][SQL] Corrigez les sous-requêtes scalaires non valides avec regroupement sur des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48252][SQL] Mise à jour de CommonExpressionRef si nécessaire
- [SPARK-48475][PYTHON] Optimiser _get_jvm_function dans PySpark.
- [SPARK-48294][SQL] Gérer les minuscules dans nestedTypeMissingElementTypeError
- [SPARK-48286] Correction de l’analyse de la colonne avec l’expression par défaut « existe » - Ajout d’un message d’erreur destiné à l’utilisateur
- [SPARK-47309][SQL] XML : Ajouter des tests d’inférence de schéma pour les balises de valeur
- [SPARK-47309][SQL][XML] Ajouter des tests unitaires d’inférence de schéma
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- Mises à jour de sécurité du système d’exploitation
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
-
applyInPandasWithState()est disponible sur des clusters partagés. - Correction d’un bug où l’optimisation de la fenêtre de classement à l’aide de Photon TopK gérait incorrectement les partitions avec des structures.
- [SPARK-48310][PYTHON][CONNECT] Les propriétés mises en cache doivent renvoyer des copies
-
[SPARK-48276][PYTHON][CONNECT] Ajouter la méthode
__repr__manquante pourSQLExpression - [SPARK-48277] Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- [SPARK-47764][CORE][SQL] Nettoyer les dépendances de réorganisation en fonction du mode ShuffleCleanupMode
- Mises à jour de sécurité du système d’exploitation
-
- 21 mai 2024
- Correction d’un bug dans la fonction try_divide() où les entrées contenant des décimales entraînaient des exceptions inattendues.
- [SPARK-48173][SQL] CheckAnalysis devrait afficher l’intégralité du plan de requête
- [SPARK-48016][SQL] Correction d’un bug dans la fonction try_divide en présence de décimales
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- [SPARK-48197][SQL] Éviter les erreurs d’assertion pour les fonctions lambda non valides
- [SPARK-48180][SQL] Améliorer l’erreur lorsque l’appel UDTF avec TABLE l’argument oublie les parenthèses autour de plusieurs PARTITION/ORDER BY expressions
- [SPARK-48014][SQL] Modifier l’erreur makeFromJava dans EvaluatePython en une erreur visible par l’utilisateur
- [SPARK-48056][CONNECT][PYTHON] Réexécuter le plan si une erreur SESSION_NOT_FOUND est levée et qu’aucune réponse partielle n’a été reçue
- [SPARK-48146][SQL] Correction de la fonction d’agrégation dans l’assertion enfant de l’expression With
- [SPARK-47994][SQL] Correction d’un bug avec le filtrage de colonne CASE WHEN dans SQLServer
- Mises à jour de sécurité du système d’exploitation
- 9 mai 2024
- [SPARK-47543][CONNECT][PYTHON] Déduire dict comme MapType à partir d’un DataFrame Pandas pour permettre la création d’un DataFrame
- [SPARK-47739][SQL] Inscrire un type d’Avro logique
-
[SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming -
[SPARK-47855][CONNECT] Ajout de
spark.sql.execution.arrow.pyspark.fallback.enableddans la liste non prise en charge - [SPARK-48010][SQL] Éviter les appels répétés à conf.resolver dans resolveExpression
- [SPARK-47941] [SS] [Connect] Propager les erreurs d’initialisation du travailleur ForeachBatch aux utilisateurs pour PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0] Utiliser un rappel asynchrone pour le nettoyage de l’exécution
- [SPARK-47956][SQL] Vérification de cohérence pour référence LCA non résolue
- [SPARK-47839][SQL] Correction d’un bug d’agrégation dans RewriteWithExpression
- [SPARK-48018][SS] Correction du groupe null provoquant une erreur de paramètre manquant lors du lancement de KafkaException.couldNotReadOffsetRange
- [SPARK-47371][SQL] XML : Ignorer les balises de ligne trouvées dans CDATA
- [SPARK-47907][SQL] Mettre bang sous une configuration
- [SPARK-47895][SQL] le regroupement par tous doit être idempotent.
- [SPARK-47973][CORE] Enregistrer l’appel dans SparkContext.stop(), puis dans SparkContext.assertNotStopped().
- [SPARK-47986][CONNECT] [PYTHON] Impossible de créer une nouvelle session lorsque la session par défaut est fermée par le serveur
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 15.0
Consultez Databricks Runtime 15.0 (EoS).
- 30 mai 2024
- (Changement de comportement) La fonction
dbutils.widgets.getAll()est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook.
- (Changement de comportement) La fonction
- 25 avril 2024
- [SPARK-47786]SELECT DISTINCT () ne doit pas devenir SELECT DISTINCT struct() (rétablir le comportement précédent)
- [SPARK-47802][SQL] Rétablir () de meaning struct() vers meaning *
- [SPARK-47509][SQL] Bloquer les expressions de sous-requêtes dans les fonctions lambda et de ordre supérieur
- [SPARK-47722] Attendre que le travail d’arrière-plan RocksDB soit terminé avant de fermer
- [SPARK-47081][CONNECT][FOLLOW] Amélioration de la convivialité du gestionnaire de progression
- [SPARK-47694][CONNECT] Rendre la taille maximale des messages configurable côté client
-
[SPARK-47669][SQL][CONNECT][PYTHON] Ajouter
Column.try_cast - [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] Valider le nom de colonne avec le schéma mis en cache
- [SPARK-47818][CONNECT][Cherry-pick-15.0] Intégrer le cache de plan dans SparkConnectPlanner afin d’améliorer les performances des requêtes d’analyse
- [SPARK-47704][SQL] L’analyse JSON échoue avec l’erreur « java.lang.ClassCastException » lorsque spark.sql.json.enablePartialResults est activé.
- [SPARK-47755][CONNECT] Le pivot doit échouer lorsque le nombre de valeurs distinctes est trop important
- [SPARK-47713][SQL][CONNECT] Correction d’une erreur d’auto-jointure
- [SPARK-47812][CONNECT] Sérialisation de SparkSession pour le worker ForEachBatch
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwriteéchoue avec un plan non valide - [SPARK-47862][PYTHON][CONNECT] Corriger la génération des fichiers proto
- [SPARK-47800][SQL] Créer une nouvelle méthode pour la conversion de l’identifiant vers tableIdentifier
- Mises à jour de sécurité du système d’exploitation
- 3 avril 2024
- (Changement de comportement) Pour garantir un comportement cohérent entre les différents types de calcul, les UDF PySpark sur les clusters partagés correspondent désormais au comportement des UDF sur les clusters sans isolation et attribués. Cette mise à jour comprend les modifications suivantes qui pourraient perturber le fonctionnement du code existant :
- Les fonctions définies par l’utilisateur avec un
stringtype de retour ne convertissent plus implicitement les valeurs nonstringen valeursstring. Auparavant, les fonctions définies par l’utilisateur avec un type de retourstrencapsulaient la valeur de retour avec une fonctionstr(), quel que soit le type de données réel de la valeur retournée. - Les fonctions définies par l’utilisateur avec des
timestamptypes de retour n’appliquent plus implicitement de conversion detimestampavectimezone. - Les configurations de cluster Spark
spark.databricks.sql.externalUDF.*ne s’appliquent plus aux fonctions définies par l’utilisateur PySpark sur les clusters partagés. - La configuration du cluster Spark
spark.databricks.safespark.externalUDF.plan.limitn’affecte plus les fonctions définies par l’utilisateur PySpark, supprimant ainsi la limitation de la préversion publique de 5 fonctions définies par l’utilisateur par requête pour les fonctions définies par l’utilisateur PySpark. - La configuration de cluster Spark
spark.databricks.safespark.sandbox.size.default.mibne s’applique plus aux fonctions définies par l’utilisateur PySpark sur les clusters partagés. Au lieu de cela, la mémoire disponible sur le système est utilisée. Pour limiter la mémoire des fonctions définies par l’utilisateur PySpark, utilisezspark.databricks.pyspark.udf.isolation.memoryLimitavec une valeur minimale de100m.
- Les fonctions définies par l’utilisateur avec un
- Le type de données
TimestampNTZest désormais pris en charge en tant que colonne de clustering avec clustering liquide. Consultez Utilisation de Liquid Clustering pour les tables. - [SPARK-47218][SQL] XML : Ignorer les balises de ligne commentées dans le tokenizer XML
- [SPARK-46990][SQL] Corriger le chargement des fichiers Avro vides émis par les hubs d’événements
- [SPARK-47033][SQL] Correction EXECUTE IMMEDIATE USING ne reconnaît pas les noms de variables de session
- [SPARK-47368][SQL] Supprimer la vérification de la configuration inferTimestampNTZ dans ParquetRowConverter
- [SPARK-47561][SQL] Corriger des problèmes d’ordre des règles d’analyse concernant les alias
- [SPARK-47638][PS][CONNECT] Ignorer la validation du nom de colonne dans PS
- [SPARK-46906][BACKPORT][SS] Ajouter une vérification pour le changement d’opérateur avec état pour le streaming
- [SPARK-47569][SQL] Interdire la comparaison des variantes.
- [SPARK-47241][SQL] Correction des problèmes d’ordre des règles pour ExtractGenerator
- [SPARK-47218] [SQL] XML : Modification de SchemaOfXml pour échouer en mode DROPMALFORMED
-
[SPARK-47300][SQL]
quoteIfNeededdoit citer l’identifiant commençant par des chiffres - [SPARK-47009][SQL][Collation] Activer la prise en charge de la création de tables pour le classement
-
[SPARK-47322][PYTHON][CONNECT] Rendre
withColumnsRenamedla gestion des doublons dans les noms de colonnes cohérente avecwithColumnRenamed - [SPARK-47544][PYTHON] La méthode SparkSession builder est incompatible avec l’IntelliSense de Visual Studio Code
- [SPARK-47511][SQL] Canonicaliser avec des expressions en réattribuant des ID
- [SPARK-47385] Correction des encodeurs de tuples avec des entrées Option.
- [SPARK-47200][SS] Classe d’erreur pour l’erreur de la fonction utilisateur du collecteur de lots Foreach
- [SPARK-47135][SS] Implémenter des classes d’erreurs pour les exceptions de perte de données Kafka
- [SPARK-38708][SQL] Mettre à niveau le client Metastore Hive de Hive 3.1 vers la version 3.1.3
- [SPARK-47305][SQL] Corriger PruneFilters pour marquer correctement l’indicateur isStreaming de LocalRelation lorsque le plan comporte à la fois un traitement par lots et un traitement en continu
- [SPARK-47380][CONNECT] S’assurer que SparkSession est identique côté serveur.
- Mises à jour de sécurité du système d’exploitation
- (Changement de comportement) Pour garantir un comportement cohérent entre les différents types de calcul, les UDF PySpark sur les clusters partagés correspondent désormais au comportement des UDF sur les clusters sans isolation et attribués. Cette mise à jour comprend les modifications suivantes qui pourraient perturber le fonctionnement du code existant :
Databricks Runtime 14.2
Consultez Databricks Runtime 14.2 (EoS).
- 22 octobre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs du schéma lors de l’élagage GetArrayStructFields
- [BACKPORT] [SPARK-49474][SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- 25 septembre 2024
- [SPARK-48719][SQL] Corriger le bogue de calcul de ’ RegrS...
- [SPARK-49628][SQL] ConstantFolding devrait copier les expressions avec état avant de les évaluer
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic de corruption du shuffle
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- [SPARK-49526][CONNECT] Prise en charge des chemins d’accès de style Windows dans ArtifactManager
- 29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion cohérente des options de lecture des Dataframes booléens
- [SPARK-49146][SS] Déplacer les erreurs d’assertion liées à l’absence de filigrane dans les requêtes de streaming en mode append vers le cadre d’erreurs.
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer correctement les valeurs null.
- 14 août 2024
- [SPARK-48050][SS] Enregistrer le plan logique au début de la requête
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48706][PYTHON] Les fonctions UDF Python dans les fonctions d’ordre supérieur ne doivent pas générer d’erreur interne
- 1 août 2024
- Cette version inclut un correctif de bogue pour les classes
ColumnVectoretColumnarArrayde l’interface Java Spark. Avant ce correctif, uneArrayIndexOutOfBoundsExceptionpouvait être levée, ou des données incorrectes pouvaient être retournées lorsqu’une instance de l’une de ces classes contenait des valeursnull. - La sortie d’une instruction
SHOW CREATE TABLEinclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne. - [SPARK-47202][PYTHON] Correction d’une faute de frappe qui perturbait les dates et heures avec tzinfo
- [SPARK-48705][PYTHON] Utiliser explicitement worker_main lorsqu’il démarre avec pyspark.
- Mises à jour de sécurité du système d’exploitation
- Cette version inclut un correctif de bogue pour les classes
- 11 juillet 2024
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()pour conserver l’état d’une table pendant toute la durée de vie d’un DataFrame. - Le pilote JDBC Snowflake a été mis à jour vers la version 3.16.1
- Cette version corrige un problème qui empêchait l’onglet Environnement de l’interface utilisateur Spark de s’afficher correctement lors de l’exécution dans Databricks Container Services.
- [SPARK-48292][CORE] Rétablir [SPARK-39195][SQL] Spark OutputCommitCoordinator doit interrompre l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48503][SQL] Corrigez les sous-requêtes scalaires non valides avec regroupement sur des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan aux ensembles de données en streaming
- [SPARK-48475][PYTHON] Optimiser _get_jvm_function dans PySpark.
- [SPARK-48100][SQL] Correction de problèmes liés au saut des champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-48445][SQL] Ne pas intégrer les UDF (fonctions définies par l’utilisateur) avec des composants enfants coûteux
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- Mises à jour de sécurité du système d’exploitation
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
- Correction d’un bug où l’optimisation de la fenêtre de classement à l’aide de Photon TopK gérait incorrectement les partitions avec des structures.
-
[SPARK-48276][PYTHON][CONNECT] Ajouter la méthode
__repr__manquante pourSQLExpression - [SPARK-48277] Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- (Changement de comportement) La fonction
dbutils.widgets.getAll()est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook. - [SPARK-48173][SQL] CheckAnalysis devrait afficher l’intégralité du plan de requête
- [SPARK-48197][SQL] Éviter les erreurs d’assertion pour les fonctions lambda non valides
- [SPARK-47994][SQL] Correction d’un bug avec le filtrage de colonne CASE WHEN dans SQLServer
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- Mises à jour de sécurité du système d’exploitation
- (Changement de comportement) La fonction
- 9 mai 2024
-
[SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming - [SPARK-47956][SQL] Vérification de cohérence pour référence LCA non résolue
- [SPARK-47371][SQL] XML : Ignorer les balises de ligne trouvées dans CDATA
- [SPARK-47812][CONNECT] Sérialisation de SparkSession pour le worker ForEachBatch
- [SPARK-47895][SQL] le regroupement par tous doit être idempotent.
- [SPARK-47973][CORE] Enregistrer l’appel dans SparkContext.stop(), puis dans SparkContext.assertNotStopped().
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-48044][PYTHON][CONNECT] Cache
- 25 avril 2024
- [SPARK-47704][SQL] L’analyse JSON échoue avec l’erreur « java.lang.ClassCastException » lorsque spark.sql.json.enablePartialResults est activé.
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwriteéchoue avec un plan non valide - Mises à jour de sécurité du système d’exploitation
- 11 avril 2024
- [SPARK-47309][SQL][XML] Ajouter des tests unitaires d’inférence de schéma
- [SPARK-46990][SQL] Corriger le chargement des fichiers Avro vides émis par les hubs d’événements
- [SPARK-47638][PS][CONNECT] Ignorer la validation du nom de colonne dans PS
- [SPARK-47509][SQL] Bloquer les expressions de sous-requêtes dans les fonctions lambda et de ordre supérieur
- [SPARK-38708][SQL] Mettre à niveau le client Metastore Hive de Hive 3.1 vers la version 3.1.3
- Mises à jour de sécurité du système d’exploitation
- 1 avril 2024
-
[SPARK-47322][PYTHON][CONNECT] Rendre
withColumnsRenamedla gestion des doublons dans les noms de colonnes cohérente avecwithColumnRenamed - [SPARK-47385] Correction des encodeurs de tuples avec des entrées Option.
- [SPARK-47070] Correction d’une agrégation non valide après la réécriture d’une sous-requête
- [SPARK-47218] [SQL] XML : Modification de SchemaOfXml pour échouer en mode DROPMALFORMED
- [SPARK-47305][SQL] Corriger PruneFilters pour marquer correctement l’indicateur isStreaming de LocalRelation lorsque le plan comporte à la fois un traitement par lots et un traitement en continu
- [SPARK-47218][SQL] XML : Ignorer les balises de ligne commentées dans le tokenizer XML
- Rétablir « [SPARK-46861] [CORE] Éviter les blocages dans DAGScheduler
-
[SPARK-47300][SQL]
quoteIfNeededdoit citer l’identifiant commençant par des chiffres - [SPARK-47368][SQL] Supprimer la vérification de la configuration inferTimestampNTZ dans ParquetRowConverter
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-47322][PYTHON][CONNECT] Rendre
- 14 mars 2024
- [SPARK-47035][SS][CONNECT] Protocole pour l’écouteur côté client
- [SPARK-47121][CORE] Éviter RejectedExecutionExceptions lors de l’arrêt de StandaloneSchedulerBackend
- [SPARK-47145][SQL] Transmettre l’identifiant de la table au scan exec de la source de données de ligne pour la stratégie V2.
- [SPARK-47176][SQL] Disposer d’une fonction d’aide ResolveAllExpressionsUpWithPruning
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
-
[SPARK-47129][CONNECT][SQL] Faire en sorte que le cache
ResolveRelationsse connecte correctement au plan - [SPARK-47044][SQL] Ajouter la requête exécutée pour les sources de données externes JDBC afin d’expliquer la sortie
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la métrique d’opération numSourceRows de rapporter le double du nombre correct de lignes.
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose de privilèges SELECT et MODIFY sur ANY FILE.
- Vous pouvez désormais ingérer des fichiers XML à l’aide du chargeur automatique, de read_files, COPY INTO, des pipelines déclaratifs Lakeflow Spark et de DBSQL. La prise en charge des fichiers XML permet de déduire et de faire évoluer automatiquement les schémas, de récupérer les données présentant des incompatibilités de types, de valider les fichiers XML à l’aide de XSD et de prendre en charge les expressions SQL telles que from_xml, schema_of_xml et to_xml. Consultez Prise en charge de fichiers XML 1.3 pour en savoir plus. Si vous utilisiez auparavant le package externe spark-xml, consultez ici pour obtenir des conseils sur la migration.
- [SPARK-46954][SQL] XML : Wrap InputStreamReader avec BufferedReader
- [SPARK-46630][SQL] XML : Validation du nom de l’élément XML durant l’écriture
- [SPARK-46248][SQL] XML : Prise en charge des options ignoreCorruptFiles et ignoreMissingFiles
- [SPARK-46954][SQL] XML : Optimiser la recherche d’index de schéma
- [SPARK-47059][SQL] Attacher un contexte d’erreur pour la commande ALTER COLUMN v1
- [SPARK-46993][SQL] Correction du pliage constant pour les variables de session
- 8 février 2024
- Les requêtes CDF (Change Data Feed) sur les vues matérialisées Unity Catalog ne sont pas prises en charge. Toute tentative d’exécution d’une requête CDF avec une vue matérialisée Unity Catalog renvoie une erreur. Les tables Unity Catalog Streaming prennent en charge les requêtes CDF sur des tables CDC non automatiques dans Databricks Runtime 14.1 et versions ultérieures. Les requêtes CDF ne sont pas prises en charge avec les tables Unity Catalog Streaming dans Databricks Runtime 14.0 et versions antérieures.
- [SPARK-46930] Ajout de la prise en charge d’un préfixe personnalisé pour les champs de type Union dans Avro.
- [SPARK-46822] Respecter spark.sql.legacy.charVarcharAsString lors de la conversion du type jdbc en type catalyst dans jdbc.
- [SPARK-46952] XML : limiter la taille des enregistrements corrompus.
- [SPARK-46644] Modifiez « add » et « merge » dans SQLMetric pour utiliser « isZero ».
- [SPARK-46861] Éviter le blocage dans DAGScheduler.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- [SPARK-46933] Ajouter la métrique du temps d’exécution des requêtes aux connecteurs qui utilisent JDBCRDD.
- Mises à jour de sécurité du système d’exploitation
- 31 janv. 2024
-
[SPARK-46382] XML : Mise à jour de la documentation de
ignoreSurroundingSpaces. - [SPARK-46382] XML : Capturer les valeurs intercalées entre les éléments.
- [SPARK-46763] Corriger une erreur d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs en double.
- Rétablir [SPARK-46769] Affiner l’inférence de schéma associée au horodatage.
-
[SPARK-46677] Régler la résolution de
dataframe["*"]. - [SPARK-46382] XML : ignoreSurroundingSpaces défini par défaut sur true.
- [SPARK-46633] Correction du lecteur Avro pour gérer les blocs de longueur nulle.
- [SPARK-45964] Supprimer l’accesseur SQL privé dans les paquets XML et JSON sous le paquet catalyst.
- [SPARK-46581] Mettre à jour le commentaire sur isZero dans AccumulatorV2.
- [SPARK-45912] Amélioration de l’API XSDToSchema : modification de l’API HDFS pour l’accessibilité au stockage cloud.
- [SPARK-45182] Ignorer l’achèvement des tâches de l’ancienne étape après avoir réessayé l’étape parent indéterminée, comme déterminé par la somme de contrôle.
- [SPARK-46660] ReattachExecute demande la mise à jour de la validité de SessionHolder.
- [SPARK-46610] La création d’une table doit générer une exception lorsqu’aucune valeur n’est définie pour une clé dans les options.
-
[SPARK-46383] Réduire l’utilisation de la mémoire heap du pilote en réduisant la durée de vie de
TaskInfo.accumulables(). - [SPARK-46769] Affiner l’inférence du schéma lié à l’horodatage.
- [SPARK-46684] Correction de CoGroup.applyInPandas/Arrow pour transmettre correctement les arguments.
- [SPARK-46676] dropDuplicatesWithinWatermark ne devrait pas échouer lors de la canonicalisation du plan.
-
[SPARK-45962] Supprimer
treatEmptyValuesAsNullset utiliser l’optionnullValueà la place dans XML. - [SPARK-46541] Corriger la référence de colonne ambiguë dans l’auto-jointure.
- [SPARK-46599] XML : Utiliser TypeCoercion.findTightestCommonType pour vérifier la compatibilité.
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-46382] XML : Mise à jour de la documentation de
- 17 janv. 2024
- Le nœud
shuffledu plan d’exécution renvoyé par une requête Photon est mis à jour pour ajouter l’indicateurcausedBroadcastJoinBuildOOM=truelorsqu’une erreur de mémoire insuffisante se produit pendant un remaniement faisant partie d’une jointure de diffusion. - Pour éviter une augmentation de la latence lors des communications via TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 afin de corriger le bogue JDK-8293562.
-
[SPARK-46261]
DataFrame.withColumnsRenameddoit conserver l’ordre dict/map. -
[SPARK-46538] Corriger le problème de référence de colonne ambiguë dans
ALSModel.transform. - [SPARK-46145] spark.catalog.listTables ne génère pas d’exception lorsque la table ou la vue est introuvable.
-
[SPARK-46484] Faites en sorte
resolveOperatorsque les fonctions d’aide conservent l’identifiant du plan. -
[SPARK-46394] Correction des problèmes liés à spark.catalog.listDatabases() sur les schémas contenant des caractères spéciaux lorsque
spark.sql.legacy.keepCommandOutputSchemaest définie sur true. - [SPARK-46609] Éviter l’explosion exponentielle dans PartitioningPreservingUnaryExecNode.
- [SPARK-46446] Désactivez les sous-requêtes corrélées OFFSET pour corriger un bug d’exactitude.
- [SPARK-46152] XML : Ajouter la prise en charge du type DecimalType dans l’inférence de schéma XML.
-
[SPARK-46602] Propagation de
allowExistinglors de la création d’une vue quand la vue ou la table n’existe pas. - [SPARK-45814] Faire en sorte que ArrowConverters.createEmptyArrowBatch appelle close() pour éviter les fuites de mémoire.
- [SPARK-46058] Ajouter un indicateur distinct pour privateKeyPassword.
- [SPARK-46132] Prise en charge des mots de passe des clés JKS pour RPC SSL.
- [SPARK-46600] Déplacer le code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
- [SPARK-46478] Rétablir SPARK-43049 pour utiliser oracle varchar(255) pour les chaînes de caractères.
- [SPARK-46417] Ne pas échouer lors de l’appel de hive.getTable et throwException est défini sur false.
- [SPARK-46153] XML : Ajouter la prise en charge de TimestampNTZType.
- [SPARK-46056][BACKPORT] Correction de l’erreur NPE de lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
- [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais effectuer de rebase pour l’horodatage ntz.
-
[SPARK-46260]
DataFrame.withColumnsRenameddoit respecter l’ordre des dict. - [SPARK-46036] Suppression de la classe d’erreur de la fonction raise_error.
- [SPARK-46294] Nettoyer la sémantique de init par rapport à la valeur zéro.
- [SPARK-46173] Ignorer l’appel trimAll pendant l’analyse de la date.
- [SPARK-46250] Défléchir test_parity_listener.
- [SPARK-46587] XML : Corriger la conversion des grands entiers XSD.
- [SPARK-46396] L’inférence de l’horodatage ne doit pas générer d’exception.
- [SPARK-46241] Corrigez la routine de gestion des erreurs afin qu’elle ne tombe pas en récursivité infinie.
- [SPARK-46355] XML : Fermer InputStreamReader à la fin d’une lecture.
- [SPARK-46370] Correction d’un bug lors de l’interrogation d’une table après modification des valeurs par défaut des colonnes.
- [SPARK-46265] Les assertions dans AddArtifact RPC rendent le client connect incompatible avec les clusters plus anciens.
- [SPARK-46308] Interdire la gestion récursive des erreurs.
-
[SPARK-46337] Faire en sorte que
CTESubstitutionconserve lePLAN_ID_TAG.
- Le nœud
- 14 décembre 2023
- [SPARK-46141] Modifier la valeur par défaut de spark.sql.legacy.ctePrecedencePolicy en CORRECTED.
- [SPARK-45730] Rendre ReloadingX509TrustManagerSuite moins instable.
- [SPARK-45852] Gérer avec élégance les erreurs de récursivité lors de la journalisation.
- [SPARK-45808] Meilleure gestion des erreurs pour les exceptions SQL.
- [SPARK-45920] group by ordinal doit être idempotent.
- Annuler « [SPARK-45649] Unification de l’infrastructure de préparation pour
OffsetWindowFunctionFrame». - [SPARK-45733] Prise en charge plusieurs stratégies de nouvelle tentative.
- [SPARK-45509] Correction du comportement de référence de colonne df pour Spark Connect.
- [SPARK-45655] Autoriser les expressions non déterministes dans les fonctions AggregateFunctions dans CollectMetrics.
- [SPARK-45905] Le type le moins commun entre les types décimaux doit conserver en premier les chiffres entiers.
- [SPARK-45136] Améliorer ClosureCleaner grâce à la prise en charge d’Ammonite.
- [SPARK-46255] Prise en charge de la conversion de chaînes -> de type complexe.
- [SPARK-45859] Objets UDF différés dans ml.functions.
-
[SPARK-46028] Faire en sorte que
Column.__getitem__accepte la colonne d’entrée. - [SPARK-45798] Valider l’ID de session côté serveur.
-
[SPARK-45892] Refactoriser la validation du plan de l’optimiseur pour découpler
validateSchemaOutputetvalidateExprIdUniqueness. - [SPARK-45844] Implémenter l’insensibilité à la casse pour XML.
-
[SPARK-45770] Introduction du plan
DataFrameDropColumnspourDataframe.drop. - [SPARK-44790] XML : Implémenter to_xml et les liaisons pour Python, les connexions et SQL.
- [SPARK-45851] Prendre en charge plusieurs stratégies dans le client Scala.
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfixpour corriger une vulnérabilité PyArrow RCE. - Correction d’un problème où les traits de soulignement échappés dans les opérations
getColumnsprovenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques. -
[SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite. - [SPARK-45852] Le client Python pour Spark Connect détecte désormais les erreurs de récursivité lors de la conversion de texte.
- [SPARK-45808] Gestion améliorée des erreurs pour les exceptions SQL.
-
[SPARK-45920]
GROUP BYordinal ne remplace pas ordinal. - Rétablir [SPARK-45649].
- [SPARK-45733] Ajout de la prise en charge de plusieurs stratégies de nouvelle tentative.
-
[SPARK-45509] Correction
dfdu comportement de référence de colonne df pour Spark Connect. -
[SPARK-45655] Autorisation des expressions non déterministes dans
AggregateFunctionsdansCollectMetrics. - [SPARK-45905] Le type le moins commun entre les types décimaux doit désormais conserver en premier les chiffres entiers.
-
[SPARK-45136] Améliorer
ClosureCleaneravec la prise en charge d’Ammonite. -
[SPARK-45859] Objets UDF rendus différés dans
ml.functions. -
[SPARK-46028]
Column.__getitem__accepte les colonnes d’entrée. - [SPARK-45798] Valider l’ID de session côté serveur.
-
[SPARK-45892] Refactoriser la validation du plan de l’optimiseur pour découpler
validateSchemaOutputetvalidateExprIdUniqueness. - [SPARK-45844] Implémenter l’insensibilité à la casse pour XML.
-
[SPARK-45770] Correction de la résolution de colonne avec
DataFrameDropColumnspourDataframe.drop. -
[SPARK-44790] Ajout de l’implémentation
to_xmlet de liaisons pour Python, Spark Connect et SQL. - [SPARK-45851] Ajout de la prise en charge de plusieurs stratégies dans le client Scala.
- Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
Databricks Runtime 14.1
Consultez Databricks Runtime 14.1 (EoS).
- 10 décembre 2024
- Mises à jour de sécurité du système d’exploitation
- 26 novembre 2024
- Mises à jour de sécurité du système d’exploitation
- 5 novembre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- 22 octobre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout UnresolvedAttribute avec une sortie enfant
- [SPARK-49905] Utilisez ShuffleOrigin dédié pour l’opérateur avec état afin d’empêcher la modification du shuffle à partir d’AQE
- 10 octobre 2024
- [BACKPORT] [SPARK-49474][SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs du schéma lors de l’élagage GetArrayStructFields
- Mises à jour de sécurité du système d’exploitation
- 25 septembre 2024
- [SPARK-49628][SQL] ConstantFolding devrait copier les expressions avec état avant de les évaluer
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic de corruption du shuffle
- [SPARK-48719][SQL] Corriger le bogue de calcul de ’ RegrS...
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- [SPARK-49526][CONNECT] Prise en charge des chemins d’accès de style Windows dans ArtifactManager
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion cohérente des options de lecture des Dataframes booléens
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer correctement les valeurs null.
- 14 août 2024
- [SPARK-48706][PYTHON] Les fonctions UDF Python dans les fonctions d’ordre supérieur ne doivent pas générer d’erreur interne
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48050][SS] Enregistrer le plan logique au début de la requête
- 1 août 2024
- Cette version inclut un correctif de bogue pour les classes
ColumnVectoretColumnarArrayde l’interface Java Spark. Avant ce correctif, uneArrayIndexOutOfBoundsExceptionpouvait être levée, ou des données incorrectes pouvaient être retournées lorsqu’une instance de l’une de ces classes contenait des valeursnull. - La sortie d’une instruction
SHOW CREATE TABLEinclut désormais tous les filtres de ligne ou masques de colonne définis sur une vue matérialisée ou une table de streaming. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez filtres de lignes et masques de colonne. - [SPARK-48705][PYTHON] Utiliser explicitement worker_main lorsqu’il démarre avec pyspark.
- [SPARK-47202][PYTHON] Correction d’une faute de frappe qui perturbait les dates et heures avec tzinfo
- Mises à jour de sécurité du système d’exploitation
- Cette version inclut un correctif de bogue pour les classes
- 11 juillet 2024
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()pour conserver l’état d’une table pendant toute la durée de vie d’un DataFrame. - Cette version corrige un problème qui empêchait l’onglet Environnement de l’interface utilisateur Spark de s’afficher correctement lors de l’exécution dans Databricks Container Services.
- [SPARK-48475][PYTHON] Optimiser _get_jvm_function dans PySpark.
- [SPARK-48445][SQL] Ne pas intégrer les UDF (fonctions définies par l’utilisateur) avec des composants enfants coûteux
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan aux ensembles de données en streaming
- [SPARK-48292][CORE] Rétablir [SPARK-39195][SQL] Spark OutputCommitCoordinator doit interrompre l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48503][SQL] Corrigez les sous-requêtes scalaires non valides avec regroupement sur des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Correction de problèmes liés au saut des champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- Mises à jour de sécurité du système d’exploitation
- (Modification du comportement) Les DataFrames mis en cache par rapport aux sources de table Delta sont désormais invalidés si la table source est écrasée. Cette modification signifie que toutes les modifications apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
- Correction d’un bug où l’optimisation de la fenêtre de classement à l’aide de Photon TopK gérait incorrectement les partitions avec des structures.
-
[SPARK-48276][PYTHON][CONNECT] Ajouter la méthode
__repr__manquante pourSQLExpression - [SPARK-48277] Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- (Changement de comportement) La fonction
dbutils.widgets.getAll()est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook. - [SPARK-47994][SQL] Correction d’un bug avec le filtrage de colonne CASE WHEN dans SQLServer
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- [SPARK-48173][SQL] CheckAnalysis devrait afficher l’intégralité du plan de requête
- Mises à jour de sécurité du système d’exploitation
- (Changement de comportement) La fonction
- 9 mai 2024
- [SPARK-47371][SQL] XML : Ignorer les balises de ligne trouvées dans CDATA
- [SPARK-47895][SQL] le regroupement par tous doit être idempotent.
- [SPARK-47956][SQL] Vérification de cohérence pour référence LCA non résolue
-
[SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming - [SPARK-47973][CORE] Enregistrer l’appel dans SparkContext.stop(), puis dans SparkContext.assertNotStopped().
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2024
- [SPARK-47704][SQL] L’analyse JSON échoue avec l’erreur « java.lang.ClassCastException » lorsque spark.sql.json.enablePartialResults est activé.
-
[SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwriteéchoue avec un plan non valide - Mises à jour de sécurité du système d’exploitation
- 11 avril 2024
- [SPARK-47638][PS][CONNECT] Ignorer la validation du nom de colonne dans PS
- [SPARK-38708][SQL] Mettre à niveau le client Metastore Hive de Hive 3.1 vers la version 3.1.3
- [SPARK-47309][SQL][XML] Ajouter des tests unitaires d’inférence de schéma
- [SPARK-47509][SQL] Bloquer les expressions de sous-requêtes dans les fonctions lambda et de ordre supérieur
- [SPARK-46990][SQL] Corriger le chargement des fichiers Avro vides émis par les hubs d’événements
- Mises à jour de sécurité du système d’exploitation
- 1 avril 2024
- [SPARK-47305][SQL] Corriger PruneFilters pour marquer correctement l’indicateur isStreaming de LocalRelation lorsque le plan comporte à la fois un traitement par lots et un traitement en continu
- [SPARK-47218][SQL] XML : Ignorer les balises de ligne commentées dans le tokenizer XML
-
[SPARK-47300][SQL]
quoteIfNeededdoit citer l’identifiant commençant par des chiffres - [SPARK-47368][SQL] Supprimer la vérification de la configuration inferTimestampNTZ dans ParquetRowConverter
- [SPARK-47070] Correction d’une agrégation non valide après la réécriture d’une sous-requête
-
[SPARK-47322][PYTHON][CONNECT] Rendre
withColumnsRenamedla gestion des doublons dans les noms de colonnes cohérente avecwithColumnRenamed - [SPARK-47300] Correctif pour DecomposerSuite
- [SPARK-47218] [SQL] XML : Modification de SchemaOfXml pour échouer en mode DROPMALFORMED
- [SPARK-47385] Correction des encodeurs de tuples avec des entrées Option.
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2024
- [SPARK-47176][SQL] Disposer d’une fonction d’aide ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Transmettre l’identifiant de la table au scan exec de la source de données de ligne pour la stratégie V2.
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
-
[SPARK-47129][CONNECT][SQL] Faire en sorte que le cache
ResolveRelationsse connecte correctement au plan - Rétablir « [SPARK-46861] [CORE] Éviter les blocages dans DAGScheduler
- [SPARK-47044][SQL] Ajouter la requête exécutée pour les sources de données externes JDBC afin d’expliquer la sortie
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la métrique d’opération numSourceRows de rapporter le double du nombre correct de lignes.
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose de privilèges SELECT et MODIFY sur ANY FILE.
- Vous pouvez désormais ingérer des fichiers XML à l’aide du chargeur automatique, de read_files, COPY INTO, des pipelines déclaratifs Lakeflow Spark et de DBSQL. La prise en charge des fichiers XML permet de déduire et de faire évoluer automatiquement les schémas, de récupérer les données présentant des incompatibilités de types, de valider les fichiers XML à l’aide de XSD et de prendre en charge les expressions SQL telles que from_xml, schema_of_xml et to_xml. Consultez Prise en charge de fichiers XML 1.3 pour en savoir plus. Si vous utilisiez auparavant le package externe spark-xml, consultez ici pour obtenir des conseils sur la migration.
- [SPARK-46248][SQL] XML : Prise en charge des options ignoreCorruptFiles et ignoreMissingFiles
- [SPARK-47059][SQL] Attacher un contexte d’erreur pour la commande ALTER COLUMN v1
- [SPARK-46954][SQL] XML : Wrap InputStreamReader avec BufferedReader
- [SPARK-46954][SQL] XML : Optimiser la recherche d’index de schéma
- [SPARK-46630][SQL] XML : Validation du nom de l’élément XML durant l’écriture
- Mises à jour de sécurité du système d’exploitation
- 8 février 2024
- Les requêtes CDF (Change Data Feed) sur les vues matérialisées Unity Catalog ne sont pas prises en charge. Toute tentative d’exécution d’une requête CDF avec une vue matérialisée Unity Catalog renvoie une erreur. Les tables de streaming Unity Catalog prennent en charge les requêtes CDF sur des tables CDC non automatiques dans Databricks Runtime 14.1 et versions ultérieures. Les requêtes CDF ne sont pas prises en charge avec les tables de streaming du catalogue Unity dans Databricks Runtime 14.0 et versions antérieures.
- [SPARK-46952] XML : limiter la taille des enregistrements corrompus.
- [SPARK-45182] Ignorer l’achèvement des tâches de l’ancienne étape après avoir réessayé l’étape parent indéterminée, comme déterminé par la somme de contrôle.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46933] Ajouter la métrique du temps d’exécution des requêtes aux connecteurs qui utilisent JDBCRDD.
- [SPARK-46861] Éviter le blocage dans DAGScheduler.
- [SPARK-45582] Assurez-vous que l’instance de magasin n’est pas utilisée après l’appel de commit dans l’agrégation de streaming en mode sortie.
- [SPARK-46930] Ajout de la prise en charge d’un préfixe personnalisé pour les champs de type Union dans Avro.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- [SPARK-46396] L’inférence de l’horodatage ne doit pas générer d’exception.
- [SPARK-46822] Respecter spark.sql.legacy.charVarcharAsString lors de la conversion du type jdbc en type catalyst dans jdbc.
- [SPARK-45957] Éviter de générer un plan d’exécution pour les commandes non exécutables.
- Mises à jour de sécurité du système d’exploitation
- 31 janv. 2024
- [SPARK-46684] Correction de CoGroup.applyInPandas/Arrow pour transmettre correctement les arguments.
- [SPARK-46763] Corriger une erreur d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs en double.
- [SPARK-45498] Followup : Ignorer l’achèvement des tâches provenant d’anciennes tentatives.
-
[SPARK-46382] XML : Mise à jour de la documentation de
ignoreSurroundingSpaces. -
[SPARK-46383] Réduire l’utilisation de la mémoire heap du pilote en réduisant la durée de vie de
TaskInfo.accumulables(). - [SPARK-46382] XML : ignoreSurroundingSpaces défini par défaut sur true.
-
[SPARK-46677] Régler la résolution de
dataframe["*"]. - [SPARK-46676] dropDuplicatesWithinWatermark ne devrait pas échouer lors de la canonicalisation du plan.
- [SPARK-46633] Correction du lecteur Avro pour gérer les blocs de longueur nulle.
- [SPARK-45912] Amélioration de l’API XSDToSchema : modification de l’API HDFS pour l’accessibilité au stockage cloud.
- [SPARK-46599] XML : Utiliser TypeCoercion.findTightestCommonType pour vérifier la compatibilité.
- [SPARK-46382] XML : Capturer les valeurs intercalées entre les éléments.
- [SPARK-46769] Affiner l’inférence du schéma lié à l’horodatage.
- [SPARK-46610] La création d’une table doit générer une exception lorsqu’aucune valeur n’est définie pour une clé dans les options.
- [SPARK-45964] Supprimer l’accesseur SQL privé dans les paquets XML et JSON sous le paquet catalyst.
- Rétablir [SPARK-46769] Affiner l’inférence de schéma associée au horodatage.
-
[SPARK-45962] Supprimer
treatEmptyValuesAsNullset utiliser l’optionnullValueà la place dans XML. - [SPARK-46541] Corriger la référence de colonne ambiguë dans l’auto-jointure.
- Mises à jour de sécurité du système d’exploitation
- 17 janv. 2024
- Le nœud
shuffledu plan d’exécution renvoyé par une requête Photon est mis à jour pour ajouter l’indicateurcausedBroadcastJoinBuildOOM=truelorsqu’une erreur de mémoire insuffisante se produit pendant un remaniement faisant partie d’une jointure de diffusion. - Pour éviter une augmentation de la latence lors des communications via TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 afin de corriger le bogue JDK-8293562.
-
[SPARK-46538] Corriger le problème de référence de colonne ambiguë dans
ALSModel.transform. - [SPARK-46417] Ne pas échouer lors de l’appel de hive.getTable et throwException est défini sur false.
-
[SPARK-46484] Faites en sorte
resolveOperatorsque les fonctions d’aide conservent l’identifiant du plan. - [SPARK-46153] XML : Ajouter la prise en charge de TimestampNTZType.
- [SPARK-46152] XML : Ajouter la prise en charge du type DecimalType dans l’inférence de schéma XML.
- [SPARK-46145] spark.catalog.listTables ne génère pas d’exception lorsque la table ou la vue est introuvable.
- [SPARK-46478] Rétablir SPARK-43049 pour utiliser oracle varchar(255) pour les chaînes de caractères.
-
[SPARK-46394] Correction des problèmes liés à spark.catalog.listDatabases() sur les schémas contenant des caractères spéciaux lorsque
spark.sql.legacy.keepCommandOutputSchemaest définie sur true. -
[SPARK-46337] Faire en sorte que
CTESubstitutionconserve lePLAN_ID_TAG. - [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais effectuer de rebase pour l’horodatage ntz.
- [SPARK-46587] XML : Corriger la conversion des grands entiers XSD.
- [SPARK-45814] Faire en sorte que ArrowConverters.createEmptyArrowBatch appelle close() pour éviter les fuites de mémoire.
- [SPARK-46132] Prise en charge des mots de passe des clés JKS pour RPC SSL.
-
[SPARK-46602] Propagation de
allowExistinglors de la création d’une vue quand la vue ou la table n’existe pas. - [SPARK-46173] Ignorer l’appel trimAll pendant l’analyse de la date.
- [SPARK-46355] XML : Fermer InputStreamReader à la fin d’une lecture.
- [SPARK-46600] Déplacer le code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
-
[SPARK-46261]
DataFrame.withColumnsRenameddoit conserver l’ordre dict/map. - [SPARK-46056] Correction de l’erreur NPE de lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
-
[SPARK-46260]
DataFrame.withColumnsRenameddoit respecter l’ordre des dict. - [SPARK-46250] Défléchir test_parity_listener.
- [SPARK-46370] Correction d’un bug lors de l’interrogation d’une table après modification des valeurs par défaut des colonnes.
- [SPARK-46609] Éviter l’explosion exponentielle dans PartitioningPreservingUnaryExecNode.
- [SPARK-46058] Ajouter un indicateur distinct pour privateKeyPassword.
- Le nœud
- 14 décembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient mal gérés et interprétés comme des caractères génériques.
- [SPARK-45509] Correction du comportement de référence de colonne df pour Spark Connect.
- [SPARK-45844] Implémenter l’insensibilité à la casse pour XML.
- [SPARK-46141] Modifier la valeur par défaut de spark.sql.legacy.ctePrecedencePolicy en CORRECTED.
-
[SPARK-46028] Faire en sorte que
Column.__getitem__accepte la colonne d’entrée. - [SPARK-46255] Prise en charge de la conversion de chaînes -> de type complexe.
- [SPARK-45655] Autoriser les expressions non déterministes dans les fonctions AggregateFunctions dans CollectMetrics.
- [SPARK-45433] Correction de l’inférence du schéma CSV/JSON lorsque les horodatages ne correspondent pas au format d’horodatage spécifié.
-
[SPARK-45316] Ajout de nouveaux paramètres
ignoreCorruptFiles/ignoreMissingFilesàHadoopRDDetNewHadoopRDD. - [SPARK-45852] Gérer avec élégance les erreurs de récursivité lors de la journalisation.
- [SPARK-45920] group by ordinal doit être idempotent.
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfixpour corriger une vulnérabilité PyArrow RCE. - Correction d’un problème où les traits de soulignement échappés dans les opérations
getColumnsprovenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques. - Lors de l’ingestion de données CSV à l’aide d’Auto Loader ou de tables en streaming, les fichiers CSV volumineux peuvent désormais être fractionnés et traités en parallèle pendant l’inférence du schéma et le traitement des données.
-
[SPARK-45892] Refactoriser la validation du plan de l’optimiseur pour découpler
validateSchemaOutputetvalidateExprIdUniqueness. - [SPARK-45620] Les API liées à Python UDF utilisent désormais le camelCase.
-
[SPARK-44790] Ajout de l’implémentation
to_xmlet de liaisons pour Python, Spark Connect et SQL. -
[SPARK-45770] Correction de la résolution de colonne avec
DataFrameDropColumnspourDataframe.drop. -
[SPARK-45859] Objets UDF rendus différés dans
ml.functions. -
[SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite. - [SPARK-44784] Le test SBT est désormais hermétique.
- Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
- 10 novembre 2023
-
[SPARK-45545]
SparkTransportConfhériteSSLOptionslors de la création. - [SPARK-45250] Ajout de la prise en charge du profil de ressources des tâches au niveau de l’étape pour les clusters Yarn lorsque l’allocation dynamique est désactivée.
- [SPARK-44753] Ajout d’un lecteur et d’un éditeur XML DataFrame pour PySpark SQL.
-
[SPARK-45396] Ajout d’une entrée de document pour le module
PySpark.ml.connect. -
[SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec. - [SPARK-45541] Ajout de SSLFactory.
-
[SPARK-45577] Correction de
UserDefinedPythonTableFunctionAnalyzeRunnerpour transmettre les valeurs pliées à partir d’arguments nommés. - [SPARK-45562] A fait de « rowTag » une option requise.
-
[SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptionsetSparkTransportConf. - [SPARK-43380] Correction du ralentissement dans la lecture Avro.
-
[SPARK-45430]
FramelessOffsetWindowFunctionn’échoue plus lorsqueIGNORE NULLSetoffset > rowCount. - [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
-
[SPARK-45386] Correction d’un problème qui renvoyait
StorageLevel.NONEincorrectement la valeur 0. - [SPARK-44219] Ajout de vérifications de validation par règle pour les réécritures d’optimisation.
-
[SPARK-45543] Correction d’un problème où
InferWindowGroupLimitposait un problème lorsque les autres fonctions de fenêtre n’avaient pas le même cadre de fenêtre que les fonctions de classement. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-45545]
- 27 septembre 2023
-
[SPARK-44823] Mise à jour de
blackvers 23.9.1 et correction d’une vérification erronée. - [SPARK-45339] PySpark enregistre désormais les erreurs qu’il tente de corriger.
- Rétablissez [SPARK-42946] Données sensibles expurgées et remplacées par des variables.
- [SPARK-44551] Commentaires modifiés pour synchronisation avec OSS.
-
[SPARK-45360] Le générateur de session Spark prend en charge l’initialisation à partir de
SPARK_REMOTE. -
[SPARK-45279]
plan_idest joint à tous les plans logiques. -
[SPARK-45425] Mappage de
TINYINTàShortTypepourMsSqlServerDialect. -
[SPARK-45419] Suppression de l’entrée de la carte des versions des fichiers plus volumineux afin d’éviter la réutilisation des identifiants
rocksdbde fichiers sst. -
[SPARK-45488] Ajout de la prise en charge de la valeur dans l’élément
rowTag. -
[SPARK-42205] Suppression de la journalisation des
Accumulablesdans les événements de démarrageTask/Stagedans les journaux des événementsJsonProtocol. -
[SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager. -
[SPARK-45256]
DurationWriteréchoue lors de l’écriture d’un nombre de valeurs supérieur à la capacité initiale. -
[SPARK-43380] Correction
Avrodes problèmes de conversion des types de données sans entraîner de régression des performances. - [SPARK-45182] Ajout de la prise en charge de la restauration de l’étape de carte aléatoire afin que toutes les tâches de l’étape puissent être réessayées lorsque la sortie de l’étape est indéterminée.
-
[SPARK-45399] Ajout d’options XML avec
newOption. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-44823] Mise à jour de
Databricks Runtime 14.0
Consultez Databricks Runtime 14.0 (EoS).
- 8 février 2024
- [SPARK-46396] L’inférence de l’horodatage ne doit pas générer d’exception.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-45182] Ignorer l’achèvement des tâches de l’ancienne étape après avoir réessayé l’étape parent indéterminée, comme déterminé par la somme de contrôle.
- [SPARK-46933] Ajouter la métrique du temps d’exécution des requêtes aux connecteurs qui utilisent JDBCRDD.
- [SPARK-45957] Éviter de générer un plan d’exécution pour les commandes non exécutables.
- [SPARK-46861] Éviter le blocage dans DAGScheduler.
- [SPARK-46930] Ajout de la prise en charge d’un préfixe personnalisé pour les champs de type Union dans Avro.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- [SPARK-45582] Assurez-vous que l’instance de magasin n’est pas utilisée après l’appel de commit dans l’agrégation de streaming en mode sortie.
- Mises à jour de sécurité du système d’exploitation
- 31 janv. 2024
- [SPARK-46541] Corriger la référence de colonne ambiguë dans l’auto-jointure.
- [SPARK-46676] dropDuplicatesWithinWatermark ne devrait pas échouer lors de la canonicalisation du plan.
- [SPARK-46769] Affiner l’inférence du schéma lié à l’horodatage.
- [SPARK-45498] Followup : Ignorer l’achèvement des tâches provenant d’anciennes tentatives.
- Rétablir [SPARK-46769] Affiner l’inférence de schéma associée au horodatage.
-
[SPARK-46383] Réduire l’utilisation de la mémoire heap du pilote en réduisant la durée de vie de
TaskInfo.accumulables(). - [SPARK-46633] Correction du lecteur Avro pour gérer les blocs de longueur nulle.
-
[SPARK-46677] Régler la résolution de
dataframe["*"]. - [SPARK-46684] Correction de CoGroup.applyInPandas/Arrow pour transmettre correctement les arguments.
- [SPARK-46763] Corriger une erreur d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs en double.
- [SPARK-46610] La création d’une table doit générer une exception lorsqu’aucune valeur n’est définie pour une clé dans les options.
- Mises à jour de sécurité du système d’exploitation
- 17 janv. 2024
- Le nœud
shuffledu plan d’exécution renvoyé par une requête Photon est mis à jour pour ajouter l’indicateurcausedBroadcastJoinBuildOOM=truelorsqu’une erreur de mémoire insuffisante se produit pendant un remaniement faisant partie d’une jointure de diffusion. - Pour éviter une augmentation de la latence lors des communications via TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 afin de corriger le bogue JDK-8293562.
-
[SPARK-46394] Correction des problèmes liés à spark.catalog.listDatabases() sur les schémas contenant des caractères spéciaux lorsque
spark.sql.legacy.keepCommandOutputSchemaest définie sur true. - [SPARK-46250] Défléchir test_parity_listener.
- [SPARK-45814] Faire en sorte que ArrowConverters.createEmptyArrowBatch appelle close() pour éviter les fuites de mémoire.
- [SPARK-46173] Ignorer l’appel trimAll pendant l’analyse de la date.
-
[SPARK-46484] Faites en sorte
resolveOperatorsque les fonctions d’aide conservent l’identifiant du plan. - [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais effectuer de rebase pour l’horodatage ntz.
- [SPARK-46056] Correction de l’erreur NPE de lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
- [SPARK-46058] Ajouter un indicateur distinct pour privateKeyPassword.
- [SPARK-46478] Rétablir SPARK-43049 pour utiliser oracle varchar(255) pour les chaînes de caractères.
- [SPARK-46132] Prise en charge des mots de passe des clés JKS pour RPC SSL.
- [SPARK-46417] Ne pas échouer lors de l’appel de hive.getTable et throwException est défini sur false.
-
[SPARK-46261]
DataFrame.withColumnsRenameddoit conserver l’ordre dict/map. - [SPARK-46370] Correction d’un bug lors de l’interrogation d’une table après modification des valeurs par défaut des colonnes.
- [SPARK-46609] Éviter l’explosion exponentielle dans PartitioningPreservingUnaryExecNode.
- [SPARK-46600] Déplacer le code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
-
[SPARK-46538] Corriger le problème de référence de colonne ambiguë dans
ALSModel.transform. -
[SPARK-46337] Faire en sorte que
CTESubstitutionconserve lePLAN_ID_TAG. -
[SPARK-46602] Propagation de
allowExistinglors de la création d’une vue quand la vue ou la table n’existe pas. -
[SPARK-46260]
DataFrame.withColumnsRenameddoit respecter l’ordre des dict. - [SPARK-46145] spark.catalog.listTables ne génère pas d’exception lorsque la table ou la vue est introuvable.
- Le nœud
- 14 décembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient mal gérés et interprétés comme des caractères génériques.
- [SPARK-46255] Prise en charge de la conversion de chaînes -> de type complexe.
-
[SPARK-46028] Faire en sorte que
Column.__getitem__accepte la colonne d’entrée. - [SPARK-45920] group by ordinal doit être idempotent.
- [SPARK-45433] Correction de l’inférence du schéma CSV/JSON lorsque les horodatages ne correspondent pas au format d’horodatage spécifié.
- [SPARK-45509] Correction du comportement de référence de colonne df pour Spark Connect.
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfixpour corriger une vulnérabilité PyArrow RCE. - Correction d’un problème où les traits de soulignement échappés dans les opérations
getColumnsprovenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques. - Lors de l’ingestion de données CSV à l’aide d’Auto Loader ou de tables en streaming, les fichiers CSV volumineux peuvent désormais être fractionnés et traités en parallèle pendant l’inférence du schéma et le traitement des données.
- Le connecteur Spark-snowflake a été mis à jour vers la version 2.12.0.
-
[SPARK-45859] Objets UDF rendus différés dans
ml.functions. - Rétablir [SPARK-45592].
-
[SPARK-45892] Refactoriser la validation du plan de l’optimiseur pour découpler
validateSchemaOutputetvalidateExprIdUniqueness. -
[SPARK-45592] Correction d’un problème d’exactitude dans AQE avec
InMemoryTableScanExec. - [SPARK-45620] Les API liées à Python UDF utilisent désormais le camelCase.
- [SPARK-44784] Le test SBT est désormais hermétique.
-
[SPARK-45770] Correction de la résolution de colonne avec
DataFrameDropColumnspourDataframe.drop. -
[SPARK-45544] Prise en charge SSL intégrée dans
TransportContext. -
[SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite. - Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
- 10 novembre 2023
- Modification des requêtes de flux de données sur les tables de streaming Unity Catalog et les vues matérialisées afin d’afficher les messages d’erreur.
-
[SPARK-45545]
SparkTransportConfhériteSSLOptionslors de la création. -
[SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec. -
[SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptionsetSparkTransportConf. -
[SPARK-45541] Ajout de
SSLFactory. -
[SPARK-45430]
FramelessOffsetWindowFunctionn’échoue plus lorsqueIGNORE NULLSetoffset > rowCount. - [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
- [SPARK-44219] Ajout de validations supplémentaires par règle pour les réécritures d’optimisation.
-
[SPARK-45543] Correction d’un problème où
InferWindowGroupLimita généré une erreur si les autres fonctions de fenêtre n'ont pas le même cadre de fenêtre que les fonctions de classement de type "rang". - Mises à jour de sécurité du système d’exploitation
- 23 octobre 2023
-
[SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager. -
[SPARK-45396] Ajout d’une entrée de document pour le module
PySpark.ml.connect, et ajout deEvaluatorà__all__pourml.connect. -
[SPARK-45256] Correction d’un problème à cause duquel
DurationWriteréchouait lors de l’écriture de plus de valeurs que la capacité initiale. -
[SPARK-45279]
plan_idest joint à tous les plans logiques. - [SPARK-45250] Ajout de la prise en charge du profil de ressources des tâches au niveau de l’étape pour les clusters Yarn lorsque l’allocation dynamique est désactivée.
- [SPARK-45182] Ajout de la prise en charge de la restauration de l’étape de carte aléatoire afin que toutes les tâches de l’étape puissent être réessayées lorsque la sortie de l’étape est indéterminée.
-
[SPARK-45419] Évitez de réutiliser les fichiers
rocksdb sstdans une autre instancerocksdben supprimant les entrées de carte des versions de fichiers plus volumineuses. -
[SPARK-45386] Correction d’un problème qui renvoyait
StorageLevel.NONEincorrectement la valeur 0. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 vers 3.13.33.
- La fonction
array_insertest basée sur 1 pour les index positifs et négatifs, alors qu’auparavant, il était basé sur 0 pour les index négatifs. Il insère désormais un nouvel élément à la fin des tableaux d’entrée pour l’index -1. Pour restaurer le comportement précédent, affectez àspark.sql.legacy.negativeIndexInArrayInsertla valeurtrue. - Azure Databricks n’ignore plus les fichiers corrompus lorsque l’inférence de schéma CSV avec Auto Loader a activé
ignoreCorruptFiles. -
[SPARK-45227] Correction d’un léger problème de sécurité des threads avec
CoarseGrainedExecutorBackend. -
[SPARK-44658]
ShuffleStatus.getMapStatusdoit renvoyerNoneau lieu deSome(null). -
[SPARK-44910]
Encoders.beanne prend pas en charge les superclasses avec des arguments de type générique. - [SPARK-45346] L’inférence de schéma Parquet respecte les indicateurs respectant la casse lors de la fusion d’un schéma.
- Rétablir [SPARK-42946].
- [SPARK-42205] Mise à jour du protocole JSON afin de supprimer la journalisation des éléments cumulables dans les événements de démarrage d’une tâche ou d’une étape.
-
[SPARK-45360] Le générateur de session Spark prend en charge l’initialisation à partir de
SPARK_REMOTE. -
[SPARK-45316] Ajout de nouveaux paramètres
ignoreCorruptFiles/ignoreMissingFilesàHadoopRDDetNewHadoopRDD. - [SPARK-44909] Ignorer l’exécution du serveur de streaming du journal du distributeur de torches lorsqu’il n’est pas disponible.
-
[SPARK-45084]
StateOperatorProgressutilise désormais un numéro de partition aléatoire précis. - [SPARK-45371] Correction de problèmes d’ombrage dans le client Spark Connect Scala.
-
[SPARK-45178] Revenir à l’exécution d’un seul lot pour
Trigger.AvailableNowles sources non prises en charge plutôt que d’utiliser le wrapper. -
[SPARK-44840] Utilisez
array_insert()une base 1 pour les index négatifs. - [SPARK-44551] Commentaires modifiés pour synchronisation avec OSS.
-
[SPARK-45078] La fonction
ArrayInserteffectue désormais une conversion explicite lorsque le type de l’élément n’est pas égal au type du composant dérivé. - [SPARK-45339] Pyspark consigne maintenant les erreurs de nouvelle tentative.
-
[SPARK-45057] Éviter d’acquérir un verrou en lecture lorsque la valeur de
keepReadLockest false. -
[SPARK-44908] Correction de la fonctionnalité du paramètre
foldColde validation croisée. - Mises à jour de sécurité du système d’exploitation
Databricks Runtime 13.1
Consultez Databricks Runtime 13.1 (EoS).
- 29 novembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations
getColumnsprovenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques. -
[SPARK-44846] Suppression des expressions de regroupement complexes après
RemoveRedundantAggregates. - [SPARK-43802] Correction d’un problème qui empêchait le générateur de code de fonctionner correctement pour les expressions unhex et unbase64.
-
[SPARK-43718] Correction de la nullabilité des clés dans les jointures
USING. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème où les traits de soulignement échappés dans les opérations
- 14 novembre 2023
- Les filtres de partition sur les requêtes de streaming Delta Lake sont poussés vers le bas avant la limitation du débit afin d’optimiser l’utilisation.
- Modification des requêtes de flux de données sur les tables Unity Catalog Streaming et les vues matérialisées afin d’afficher les messages d’erreur.
-
[SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec. -
[SPARK-45430]
FramelessOffsetWindowFunctionn’échoue plus lorsqueIGNORE NULLSetoffset > rowCount. -
[SPARK-45543] Correction d’un problème où
InferWindowGroupLimitposait un problème lorsque les autres fonctions de fenêtre n’avaient pas le même cadre de fenêtre que les fonctions de classement. - Mises à jour de sécurité du système d’exploitation
- 24 octobre 2023
-
[SPARK-43799] Ajout du descripteur option binaire à l’API
ProtobufPySpark. - Rétablir [SPARK-42946].
- [SPARK-45346] L’inférence de schéma Parquet respecte désormais l’indicateur respectant la casse lors de la fusion d’un schéma.
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-43799] Ajout du descripteur option binaire à l’API
- 13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 vers 3.13.33.
- Ne plus ignorer les fichiers endommagés lorsque
ignoreCorruptFilesest activé lors de la déduction du schéma CSV avec Auto Loader. -
[SPARK-44658]
ShuffleStatus.getMapStatusrenvoieNoneau lieu deSome(null). -
[SPARK-45178] Revenir à l’exécution d’un seul lot pour
Trigger.AvailableNowles sources non prises en charge plutôt que d’utiliser le wrapper. - [SPARK-42205] Mise à jour du protocole JSON afin de supprimer la journalisation des éléments cumulables dans les événements de démarrage d’une tâche ou d’une étape.
- Mises à jour de sécurité du système d’exploitation
- 12 septembre 2023
-
[SPARK-44718] Remplacer
ColumnVectorla valeur par défaut du mode mémoire par la valeur de configurationOffHeapMemoryMode. -
SPARK-44878 Désactivation de la limite stricte pour le gestionnaire d’écriture
RocksDBafin d’éviter une exception d’insertion lors de la fin du cache. - Correctifs divers
-
[SPARK-44718] Remplacer
- 30 août 2023
- [SPARK-44871] Correction du comportement percentile_disc.
- [SPARK-44714] Assouplir les restrictions relatives à la résolution LCA concernant les requêtes.
-
[SPARK-44245]
PySpark.sql.dataframe sample()Les tests de documents sont désormais uniquement présentés à titre illustratif. -
[SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread. - Mises à jour de sécurité du système d’exploitation
- 15 août 2023
-
[SPARK-44485] Optimisation de
TreeNode.generateTreeString. -
[SPARK-44643] Correction de
Row.__repr__quand la ligne est vide. - [SPARK-44504] La tâche de maintenance nettoie maintenant les fournisseurs chargés en cas d’erreur d’arrêt.
-
[SPARK-44479] Correction de la conversion de
protobufdepuis un type de structure vide. -
[SPARK-44464] Correction de
applyInPandasWithStatePythonRunnerpour les lignes de sortie qui présententNullen tant que première valeur de colonne. - Correctifs divers
-
[SPARK-44485] Optimisation de
- 27 juillet 2023
- Correction d’un problème où
dbutils.fs.ls()renvoyaitINVALID_PARAMETER_VALUE.LOCATION_OVERLAPlorsqu’un chemin d’accès à un emplacement de stockage était appelé et entrait en conflit avec un autre emplacement de stockage externe ou géré. -
[SPARK-44199]
CacheManagern’actualise plus lefileIndexinutilement. -
[SPARK-44448] Correction d’un bug qui affichait des résultats erronés provenant de
DenseRankLimitIteratoretInferWindowGroupLimit. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème où
- 24 juillet 2023
- Rétablir [SPARK-42323].
-
[SPARK-41848] Problème de dépassement du calendrier des tâches fixes résolu avec
TaskResourceProfile. -
[SPARK-44136] Correction d’un problème où
StateManagerse matérialisait dans un exécuteur au lieu du pilote dansFlatMapGroupsWithStateExec. -
[SPARK-44337] Correction d’un problème où tout champ défini sur
Any.getDefaultInstancecausait des erreurs d’analyse. - Mises à jour de sécurité du système d’exploitation
- 27 juin 2023
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
-
approx_count_distinctphotonisé. - L’analyseur JSON en mode
failOnUnknownFieldssupprime désormais un enregistrement dans le modeDROPMALFORMEDet échoue directement en modeFAILFAST. - La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- Le champs d’attributs
PubSubRecordest stocké au format JSON plutôt qu’au format chaîne à partir d’une carte Scala afin de simplifier la sérialisation et la désérialisation. - La commande
EXPLAIN EXTENDEDrenvoie désormais l’éligibilité du cache de résultats de la requête. - Améliorez les performances des mises à jour incrémentielles avec
SHALLOW CLONEApache Iceberg et Parquet. - [SPARK-43032] Correctif de bogue Python SQM.
- [SPARK-43404]Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter l’erreur d’incohérence d’ID.
- [SPARK-43340] Gérer le champ stack-trace manquant dans les journaux d’événements.
-
[SPARK-43527] Correction de
catalog.listCatalogsdans PySpark. -
[SPARK-43541] Propagation de toutes les balises
Projectdans la résolution des expressions et des colonnes manquantes. -
[SPARK-43300]
NonFateSharingCacheEnveloppe pour Guava Cache. -
[SPARK-43378] Fermer correctement les objets de flux dans
deserializeFromChunkedBuffer. -
[SPARK-42852] Annuler les modifications associées à
NamedLambdaVariabledepuisEquivalentExpressions. -
[SPARK-43779]
ParseToDatese charge désormaisEvalModedans le thread principal. -
[SPARK-43413] Correction de la nullité des sous-requêtes
INListQuery. -
[SPARK-43889] Ajouter une vérification du nom de colonne pour
__dir__()pour filtrer les noms de colonnes susceptibles de contenir des erreurs. -
[SPARK-43043] Optimisation des performances de
MapOutputTracker.updateMapOutput - [SPARK-43522] Correction de la création du nom de la colonne de structure avec l’index du tableau.
- [SPARK-43457] Ajouter à l’agent utilisateur les versions du système d’exploitation, de Python et de Spark.
-
[SPARK-43286] Mise à jour du mode CBC
aes_encryptafin de générer des images virtuelles aléatoires. -
[SPARK-42851] Guard
EquivalentExpressions.addExpr()avecsupportedExpression(). - Rétablir [SPARK-43183].
- Mises à jour de sécurité du système d’exploitation
-
Databricks Runtime 12.2 LTS
Consultez Databricks Runtime 12.2 LTS.
29 novembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations
getColumnsprovenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques. -
[SPARK-42205] Suppression des données cumulées dans les journaux
Stageet les événements de débutTask. -
[SPARK-44846] Suppression des expressions de regroupement complexes après
RemoveRedundantAggregates. -
[SPARK-43718] Correction de la nullabilité des clés dans les jointures
USING. -
[SPARK-45544] Prise en charge SSL intégrée dans
TransportContext. - [SPARK-43973] L’interface utilisateur Structured Streaming affiche désormais correctement les requêtes ayant échoué.
-
[SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite. -
[SPARK-45859] Objets UDF rendus différés dans
ml.functions. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème où les traits de soulignement échappés dans les opérations
14 novembre 2023
- Les filtres de partition sur les requêtes de streaming Delta Lake sont poussés vers le bas avant la limitation du débit afin d’optimiser l’utilisation.
-
[SPARK-45545]
SparkTransportConfhériteSSLOptionslors de la création. -
[SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptionsetSparkTransportConf. -
[SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec. -
[SPARK-45541] Ajout de
SSLFactory. -
[SPARK-45430]
FramelessOffsetWindowFunctionn’échoue plus lorsqueIGNORE NULLSetoffset > rowCount. - [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
- Mises à jour de sécurité du système d’exploitation
24 octobre 2023
-
[SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager. - Correctifs divers
-
[SPARK-45426] Ajout de la prise en charge de
13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 vers 3.13.33.
- [SPARK-42553] Veillez à respecter un intervalle d’au moins une unité de temps.
- [SPARK-45346] L’inférence de schéma Parquet respecte l’indicateur respectant la casse lors de la fusion d’un schéma.
-
[SPARK-45178] Revenir à l’exécution d’un seul lot pour
Trigger.AvailableNowles sources non prises en charge plutôt que d’utiliser le wrapper. -
[SPARK-45084]
StateOperatorProgresspour utiliser un numéro de partition aléatoire précis et adéquat.
12 septembre 2023
-
[SPARK-44873] Prise en charge de
alter viewavec des colonnes imbriquées dans le client Hive. -
[SPARK-44718] Remplacer
ColumnVectorla valeur par défaut du mode mémoire par la valeur de configurationOffHeapMemoryMode. -
[SPARK-43799] Ajout du descripteur option binaire à l’API
ProtobufPySpark. - Correctifs divers
-
[SPARK-44873] Prise en charge de
30 août 2023
-
[SPARK-44485] Optimisation de
TreeNode.generateTreeString. -
[SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread. -
[SPARK-44871][11.3-13.0] Correction du comportement de
percentile_disc. - [SPARK-44714] Assouplissement des restrictions relatives à la résolution LCA concernant les requêtes.
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-44485] Optimisation de
15 août 2023
- [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
-
[SPARK-44464] Correction de
applyInPandasWithStatePythonRunnerpour les lignes de sortie qui présententNullen tant que première valeur de colonne. - Mises à jour de sécurité du système d’exploitation
29 juillet 2023
- Correction d’un problème où
dbutils.fs.ls()renvoyaitINVALID_PARAMETER_VALUE.LOCATION_OVERLAPlorsqu’un chemin d’accès à un emplacement de stockage était appelé et entrait en conflit avec un autre emplacement de stockage externe ou géré. -
[SPARK-44199]
CacheManagern’actualise plus lefileIndexinutilement. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème où
24 juillet 2023
-
[SPARK-44337] Correction d’un problème où tout champ défini sur
Any.getDefaultInstancecausait des erreurs d’analyse. -
[SPARK-44136] Correction d’un problème où
StateManagerse matérialisait dans un exécuteur au lieu du pilote dansFlatMapGroupsWithStateExec. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-44337] Correction d’un problème où tout champ défini sur
23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
-
approx_count_distinctphotonisé. - La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
-
[SPARK-43779]
ParseToDatese charge désormaisEvalModedans le thread principal. -
[SPARK-43156][SPARK-43098] Test de l’erreur liée au nombre de sous-requêtes scalaires étendues avec
decorrelateInnerQuerydésactivation. - Mises à jour de sécurité du système d’exploitation
-
2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFieldssupprime un enregistrement dans le modeDROPMALFORMEDet échoue directement en modeFAILFAST. - Renforcez les performances des mises à jour incrémentielles avec
SHALLOW CLONEIceberg et Parquet. - Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-43404]Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter l’erreur d’incohérence d’ID.
-
[SPARK-43413][11.3-13.0] Correction de la nullité des sous-requêtes
INListQuery. - [SPARK-43522] Correction de la création du nom de la colonne de structure avec l’index du tableau.
-
[SPARK-43541] Propagation de toutes les balises
Projectdans la résolution des expressions et des colonnes manquantes. -
[SPARK-43527] Correction de
catalog.listCatalogsdans PySpark. - [SPARK-43123] Les métadonnées internes des champs ne fuient plus vers les catalogues.
- [SPARK-43340] Correction du champ stack-trace manquant dans les journaux d’événements.
-
[SPARK-42444]
DataFrame.droptraite désormais correctement les colonnes dupliquées. -
[SPARK-42937]
PlanSubqueriesdéfinit maintenantInSubqueryExec#shouldBroadcastsur true. -
[SPARK-43286] Mise à jour du mode CBC
aes_encryptafin de générer des images virtuelles aléatoires. -
[SPARK-43378] Fermer correctement les objets de flux dans
deserializeFromChunkedBuffer.
- L’analyseur JSON en mode
17 mai 2023
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
- Si un fichier Avro était lu avec uniquement l’option
failOnUnknownFieldsou avec Auto Loader en mode d’évolution du schémafailOnNewColumns, les colonnes ayant des types de données différents seraient lues commenullau lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn. - Auto Loader effectue désormais les opérations suivantes.
-
- Lit correctement et ne récupère plus les types
IntegeretShortetBytesi l’un de ces types de données est fourni, mais que le fichier Avro suggère l’un des deux autres types.
- Lit correctement et ne récupère plus les types
-
- Empêche la lecture des types d’intervalle comme des types de date ou d’horodatage afin d’éviter toute corruption des dates.
-
- Empêche la lecture des types
Decimaldont la précision est moindre.
- Empêche la lecture des types
- [SPARK-43172] Expose l’hôte et le jeton du client Spark Connect.
-
[SPARK-43293]
__qualified_access_onlyest ignoré dans les colonnes normales. -
[SPARK-43098] Correction d’un bug d’exactitude
COUNTlorsque la sous-requête scalaire est regroupée par clause. -
[SPARK-43085] Prise en charge de l’attribution des colonnes
DEFAULTpour les noms de tables en plusieurs parties. -
[SPARK-43190]
ListQuery.childOutputest désormais cohérent avec les données de sortie secondaires. - [SPARK-43192] Suppression de la validation du jeu de caractères de l’agent utilisateur.
- Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet était lu avec uniquement l’option
failOnUnknownFieldsou avec Auto Loader en mode d’évolution du schémafailOnNewColumns, les colonnes ayant des types de données différents seraient lues commenullau lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn. - Auto Loader lit désormais correctement et ne récupère plus les types
Integer,ShortetBytesi l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données récupérées était précédemment activée, l’incompatibilité des types de données entraînait l’enregistrement des colonnes même si elles étaient lisibles. -
[SPARK-43009] Paramétrisation de
sql()avec des constantesAny - [SPARK-42406] Terminer les champs récursifs Protobuf en supprimant le champ
-
[SPARK-43038] Prise en charge du mode CBC en
aes_encrypt()/aes_decrypt() -
[SPARK-42971] Passer à l’impression
workdirsiappDirsest nul lorsque le gestionnaire traite l’événementWorkDirCleanup - [SPARK-43018] Correction d’un bogue pour les commandes INSERT avec des littéraux d’horodatage
- Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet était lu avec uniquement l’option
mardi 11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande
SYNC. - Correction d’un problème dans le comportement %autoreload dans les notebooks en dehors d’un référentiel.
- Correction d’un problème où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
-
[SPARK-42928] Synchronise
resolvePersistentFunction. - [SPARK-42936] Correction d’un problème LCan lorsque la clause peut être résolue directement par son agrégat enfant.
-
[SPARK-42967] Correction de
SparkListenerTaskStart.stageAttemptIdlorsqu’une tâche démarre après l’annulation de l’étape. - Mises à jour de sécurité du système d’exploitation
- Prise en charge des formats de source de données hérités dans la commande
29 mars 2023
Databricks SQL prend désormais en charge la spécification de valeurs par défaut pour les colonnes des tables Delta Lake, soit lors de la création de la table, soit ultérieurement. Les commandes
INSERT,UPDATE,DELETE, etMERGEsuivantes peuvent faire référence à la valeur par défaut de n'importe quelle colonne en utilisant le mot clé expliciteDEFAULT. De plus, si uneINSERTaffectation comporte une liste explicite de colonnes moins nombreuses que la table cible, les valeurs par défaut des colonnes correspondantes sont substituées aux colonnes restantes (ou NULL si aucune valeur par défaut n’est spécifiée).Par exemple :
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28zAuto Loader lance désormais au moins un nettoyage synchrone du journal RocksDB pour les flux
Trigger.AvailableNowafin de vérifier que le point de contrôle peut être nettoyé régulièrement pour les flux Auto Loader à exécution rapide. Cela peut entraîner un allongement du temps nécessaire à la fermeture de certains flux, mais cela vous permettra de réduire vos coûts de stockage et d’améliorer l’expérience Auto Loader lors des prochaines exécutions.Vous pouvez désormais modifier une table Delta pour ajouter la prise en charge des fonctionnalités de table à l’aide de
DeltaTable.addFeatureSupport(feature_name).[SPARK-42794] Augmenter la valeur lockAcquireTimeoutMs à 2 minutes pour acquérir le magasin d’état RocksDB dans Structure Streaming
[SPARK-42521] Ajouter des valeurs NULL pour les INSERT avec des listes spécifiées par l’utilisateur comportant moins de colonnes que la table cible
[SPARK-42702][SPARK-42623] Prise en charge des requêtes paramétrées dans les sous-requêtes et les CTE
[SPARK-42668] Intercepter l’exception lors de la fermeture du flux compressé dans HDFSStateStoreProvider stop
[SPARK-42403] JsonProtocol doit gérer les chaînes JSON nulles
8 mars 2023
- Le message d’erreur « Échec de l’initialisation de la configuration » a été amélioré afin de fournir davantage de contexte au client.
- Un changement de terminologie a été introduit pour ajouter des fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe privilégiée est désormais
'delta.feature.featureName'='supported'au lieu de'delta.feature.featureName'='enabled'. Pour des raisons de compatibilité ascendante, l’utilisation de'delta.feature.featureName'='enabled'fonctionne toujours et continuera de fonctionner. - À partir de cette version, il est possible de créer/remplacer une table avec une propriété de table supplémentaire
delta.ignoreProtocolDefaultsafin d’ignorer les configurations Spark liées au protocole, notamment les versions par défaut du lecteur et du rédacteur, ainsi que les fonctionnalités de table prises en charge par défaut. - [SPARK-42070] Modifier la valeur par défaut de l’argument de la fonction Mask de -1 à NULL.
- [SPARK-41793] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur des décimales significatives
- [SPARK-42484] UnsafeRowUtils : message d’erreur amélioré
- [SPARK-42516] Toujours enregistrer la configuration du fuseau horaire de la session lors de la création de vues
- [SPARK-42635] Correction de l’expression TimestampAdd.
- [SPARK-42622] Substitution désactivée dans les valeurs
- [SPARK-42534] Correction de la clause DB2Dialect Limit
- [SPARK-42121] Ajout des fonctions intégrées de type table posexplode, posexplode_outer, json_tuple et stack
- [SPARK-42045] Mode ANSI SQL : Round/Bround doit renvoyer une erreur en cas de dépassement de capacité des entiers minuscules/petits/significatifs
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 11.3 LTS
Consultez Databricks Runtime 11.3 LTS (EoS).
- 4 novembre 2025
- Mises à jour de sécurité du système d’exploitation
- 21 octobre 2025
- Mise à jour de Python de 2.7.18 à 2.7.18.1
- Mises à jour de sécurité du système d’exploitation
- 7 octobre 2025
- Mises à jour de sécurité du système d’exploitation
- 24 septembre 2025
- Mises à jour de sécurité du système d’exploitation
- 9 septembre 2025
- Mises à jour de sécurité du système d’exploitation
- 26 août 2025
- Mises à jour de sécurité du système d’exploitation
- 14 août 2025
- Mises à jour de sécurité du système d’exploitation
- 29 juillet 2025
- Mises à jour de sécurité du système d’exploitation
- 15 juillet 2025
- Mises à jour de sécurité du système d’exploitation
- 1 juillet 2025
- Mises à jour de sécurité du système d’exploitation
- 17 juin 2025
- Mises à jour de sécurité du système d’exploitation
- 3 juin 2025
- Bibliothèques Python mises à jour :
- certifi de 2019.11.28, 2021.10.8 vers 2021.10.8
- chardet passage de la version 3.0.4, 4.0.0 à 4.0.0
- idna de 2.8, 3.2 vers 3.2
- requests de 2.22.0, 2.26.0 vers 2.26.0
- six de 1.14.0, 1.16.0 vers 1.16.0
- urllib3 de 1.25.8, 1.26.7 vers 1.26.7
- Ajout de pip 21.2.4
- Ajout de setuptools 58.0.4
- Ajout de tomli 2.0.1
- Ajout de wcwidth 0.2.5
- Ajout de wheel 0.37.0
- Distro 1.4.0 supprimée
- Suppression de distro-info 0.23+ubuntu1.1
- Suppression de python-apt 2.0.1+ubuntu0.20.4.1
- Mises à jour de sécurité du système d’exploitation
- Bibliothèques Python mises à jour :
- 20 mai 2025
- [SPARK-42655][SQL] Erreur de référence de colonne ambiguë incorrecte
- Mises à jour de sécurité du système d’exploitation
- 22 avril 2025
- [Changement de comportement] Les opérations de vide effectuent désormais des vérifications de protocole Writer similaires à d’autres opérations, ce qui empêche les nettoyages inattendus sur les tables avec des fonctionnalités plus récentes lorsqu’elles sont exécutées à partir d’anciennes versions de Databricks Runtime incompatibles.
- Mises à jour de sécurité du système d’exploitation
- 9 avril 2025
- Mises à jour de sécurité du système d’exploitation
- 5 mars 2025
- Mises à jour de sécurité du système d’exploitation
- 11 février 2025
- Cette version inclut un correctif pour un cas limite où un
CLONEincrémentiel pourrait recopier des fichiers déjà transférés d'une table source vers une table cible. Consultez Cloner une table sur Azure Databricks.
- Cette version inclut un correctif pour un cas limite où un
- 10 décembre 2024
- Mises à jour de sécurité du système d’exploitation
- 26 novembre 2024
- Divers correctifs de bogues.
- 10 octobre 2024
- Divers correctifs de bogues.
- 25 septembre 2024
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- Divers correctifs de bogues.
- 17 septembre 2024
- Mises à jour de sécurité du système d’exploitation
- 14 août 2024
- [SPARK-48941][SPARK-48970] Corrections du lecteur/rédacteur ML Backport
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-48463][ML] Faire en sorte que StringIndexer supporte les colonnes d’entrée imbriquées
- Mises à jour de sécurité du système d’exploitation
- 1 août 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Corrections apportées au rédacteur ML Spark
- 1 août 2024
- Pour appliquer les correctifs de sécurité requis, la version Python dans Databricks Runtime 11.3 LTS est mise à niveau de 3.9.5 à 3.9.19.
- 11 juillet 2024
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- [SPARK-47070] Correction d’une agrégation non valide après la réécriture d’une sous-requête
- Mises à jour de sécurité du système d’exploitation
- 17 juin 2024
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- Mises à jour de sécurité du système d’exploitation
- 9 mai 2024
- [SPARK-48018][SS] Correction du groupe null provoquant une erreur de paramètre manquant lors du lancement de KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Enregistrer l’appel dans SparkContext.stop(), puis dans SparkContext.assertNotStopped().
- [SPARK-44251][SQL] Définition de la valeur pouvant accepter Null correctement sur une clé de jointure fusionnée dans une jointure externe complète USING
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2024
- Mises à jour de sécurité du système d’exploitation
- 11 avril 2024
- Mises à jour de sécurité du système d’exploitation
- 1 avril 2024
- [SPARK-44252][SS] Définir une nouvelle classe d’erreur et l’appliquer lorsque le chargement de l’état à partir de DFS échoue
- [SPARK-47135][SS] Implémenter des classes d’erreurs pour les exceptions de perte de données Kafka
- Annuler « [SPARK-46861][CORE] Éviter le blocage dans DAGScheduler »
- [SPARK-47200][SS] Classe d’erreur pour l’erreur de la fonction utilisateur du collecteur de lots Foreach
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2024
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
- [SPARK-47125][SQL] Retourne la valeur Null si Univocity ne déclenche jamais l’analyse
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la métrique d’opération numSourceRows de rapporter le double du nombre correct de lignes.
- [SPARK-45582][SS] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie
- 13 février 2024
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46861] Éviter le blocage dans DAGScheduler.
- Mises à jour de sécurité du système d’exploitation
- 31 janv. 2024
- Mises à jour de sécurité du système d’exploitation
- 25 Décembre 2023
- Pour éviter une augmentation de la latence lors des communications via TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 afin de corriger le bogue JDK-8293562.
- [SPARK-46058] Ajouter un indicateur distinct pour privateKeyPassword.
-
[SPARK-46602] Propagation de
allowExistinglors de la création d’une vue quand la vue ou la table n’existe pas. -
[SPARK-46394] Correction des problèmes liés à spark.catalog.listDatabases() sur les schémas contenant des caractères spéciaux lorsque
spark.sql.legacy.keepCommandOutputSchemaest définie sur true. -
[SPARK-46538] Corriger le problème de référence de colonne ambiguë dans
ALSModel.transform. - [SPARK-39440] Ajout d’une configuration pour désactiver la chronologie des événements.
- [SPARK-46249] Exiger un verrou d’instance pour acquérir des métriques RocksDB pour empêcher la concurrence avec les opérations en arrière-plan.
- [SPARK-46132] Prise en charge des mots de passe des clés JKS pour RPC SSL.
- 14 décembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations getColumns provenant de clients JDBC ou ODBC étaient mal gérés et interprétés comme des caractères génériques.
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Correction d’un problème où les traits de soulignement échappés dans les opérations
getColumnsprovenant de clients JDBC ou ODBC étaient interprétés à tort comme des caractères génériques. - [SPARK-43973] L’interface utilisateur Structured Streaming affiche désormais correctement les requêtes ayant échoué.
-
[SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite. -
[SPARK-45544] Prise en charge SSL intégrée dans
TransportContext. -
[SPARK-45859] Objets UDF rendus différés dans
ml.functions. -
[SPARK-43718] Correction de la nullabilité des clés dans les jointures
USING. -
[SPARK-44846] Suppression des expressions de regroupement complexes après
RemoveRedundantAggregates. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème où les traits de soulignement échappés dans les opérations
- 14 novembre 2023
- Les filtres de partition sur les requêtes de streaming Delta Lake sont poussés vers le bas avant la limitation du débit afin d’optimiser l’utilisation.
- [SPARK-42205] Suppression des données cumulées dans les événements de démarrage des étapes et des tâches.
-
[SPARK-45545]
SparkTransportConfhériteSSLOptionslors de la création. - Rétablir [SPARK-33861].
-
[SPARK-45541] Ajout de
SSLFactory. - [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
-
[SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec. -
[SPARK-45430]
FramelessOffsetWindowFunctionn’échoue plus lorsqueIGNORE NULLSetoffset > rowCount. -
[SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptionsetSparkTransportConf. - Mises à jour de sécurité du système d’exploitation
- 24 octobre 2023
-
[SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager. - Correctifs divers
-
[SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 vers 3.13.33.
-
[SPARK-45178] Revenir à l’exécution d’un seul lot pour
Trigger.AvailableNowles sources non prises en charge plutôt que d’utiliser le wrapper. -
[SPARK-45084]
StateOperatorProgresspour utiliser un numéro de partition aléatoire précis et adéquat. - [SPARK-45346] L’inférence de schéma Parquet respecte désormais l’indicateur respectant la casse lors de la fusion d’un schéma.
- Mises à jour de sécurité du système d’exploitation
- 10 septembre 2023
- Correctifs divers
- 30 août 2023
-
[SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread. -
[SPARK-44871][11.3-13.0] Correction du comportement de
percentile_disc. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
- 15 août 2023
-
[SPARK-44485] Optimisation de
TreeNode.generateTreeString. - [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
-
[SPARK-44464] Correction de
applyInPandasWithStatePythonRunnerpour les lignes de sortie qui présententNullen tant que première valeur de colonne. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-44485] Optimisation de
- 27 juillet 2023
- Correction d’un problème où
dbutils.fs.ls()renvoyaitINVALID_PARAMETER_VALUE.LOCATION_OVERLAPlorsqu’un chemin d’accès à un emplacement de stockage était appelé et entrait en conflit avec un autre emplacement de stockage externe ou géré. -
[SPARK-44199]
CacheManagern’actualise plus lefileIndexinutilement. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème où
- 24 juillet 2023
- [SPARK-44136] Correction d’un problème qui pouvait entraîner la matérialisation de StateManager dans l’exécuteur au lieu du pilote dans FlatMapGroupsWithStateExec.
- Mises à jour de sécurité du système d’exploitation
- 23 juin 2023
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
-
approx_count_distinctphotonisé. - La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
-
[SPARK-43779]
ParseToDatese charge désormaisEvalModedans le thread principal. - [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Test du bug lié au nombre de sous-requêtes scalaires étendues avec
decorrelateInnerQuerydésactivation. - [SPARK-43098] Correction d’un bug dans la fonction COUNT lorsque la sous-requête scalaire comporte une clause GROUP BY
- Mises à jour de sécurité du système d’exploitation
-
- 2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFieldssupprime un enregistrement dans le modeDROPMALFORMEDet échoue directement en modeFAILFAST. - Renforcez les performances des mises à jour incrémentielles avec
SHALLOW CLONEIceberg et Parquet. - Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-43404]Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter l’erreur d’incohérence d’ID.
-
[SPARK-43527] Correction de
catalog.listCatalogsdans PySpark. -
[SPARK-43413][11.3-13.0] Correction de la nullité des sous-requêtes
INListQuery. - [SPARK-43340] Correction du champ stack-trace manquant dans les journaux d’événements.
- L’analyseur JSON en mode
Databricks Runtime 10.4 LTS
Consultez Databricks Runtime 10.4 LTS (EoS).
- 12 août 2025
- Mises à jour de sécurité du système d’exploitation
- 15 juillet 2025
- Mises à jour de sécurité du système d’exploitation
1er juillet 2025
- Mises à jour de sécurité du système d’exploitation
17 juin 2025
- Mises à jour de sécurité du système d’exploitation
- 3 juin 2025
- Bibliothèques Python mises à jour :
- certifi de 2019.11.28, 2020.12.5 à 2020.12.5
- chardet passage de la version 3.0.4, 4.0.0 à 4.0.0
- idna de 2.10, 2.8 à 2.10
- demandes de 2.22.0, 2.25.1 à 2.25.1
- six de 1.14.0, 1.15.0 à 1.15.0
- urllib3 de 1.25.11, 1.25.8 à 1.25.11
- Ajout de pip 21.0.1
- Setuptools 52.0.0 a été ajouté
- Ajout de wcwidth 0.2.5
- Ajout de la roue 0.36.2
- Distro 1.4.0 supprimée
- Suppression de distro-info 0.23+ubuntu1.1
- Suppression de python-apt 2.0.1+ubuntu0.20.4.1
- Mises à jour de sécurité du système d’exploitation
- Bibliothèques Python mises à jour :
- 20 mai 2025
- Mises à jour de sécurité du système d’exploitation
- 22 avril 2025
- Mises à jour de sécurité du système d’exploitation
- 9 avril 2025
- Mises à jour de sécurité du système d’exploitation
- 11 mars 2025
- Mises à jour de sécurité du système d’exploitation
- 11 février 2025
- Cette version inclut un correctif pour un cas limite où un
CLONEincrémentiel pourrait recopier des fichiers déjà transférés d'une table source vers une table cible. Consultez Cloner une table sur Azure Databricks. - Mises à jour de sécurité du système d’exploitation
- Cette version inclut un correctif pour un cas limite où un
10 décembre 2024
- Mises à jour de sécurité du système d’exploitation
26 novembre 2024
- Mises à jour de sécurité du système d’exploitation
5 novembre 2024
- Mises à jour de sécurité du système d’exploitation
22 octobre 2024
- Mises à jour de sécurité du système d’exploitation
10 octobre 2024
- Mises à jour de sécurité du système d’exploitation
25 septembre 2024
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- [SPARK-49000][SQL] Corrigez « select count(distinct 1) from t » lorsque t est une table vide en développant RewriteDistinctAggregates.
- Mises à jour de sécurité du système d’exploitation
17 septembre 2024
- Mises à jour de sécurité du système d’exploitation
29 août 2024
- [SPARK-49065][SQL] Le rebasage dans les formateurs/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
14 août 2024
- [SPARK-48597][SQL] Introduire un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-48941][SPARK-48970] Corrections du lecteur/rédacteur ML Backport
- [SPARK-48463][ML] Faire en sorte que StringIndexer supporte les colonnes d’entrée imbriquées
1er août 2024
- [SPARK-48896][SPARK-48909][SPARK-48883] Corrections apportées au rédacteur ML Spark
- Mises à jour de sécurité du système d’exploitation
11 juillet 2024
- [SPARK-48383][SS] Renvoyer une erreur plus claire en cas d’incompatibilité des partitions dans l’option startOffset dans Kafka
- Mises à jour de sécurité du système d’exploitation
17 juin 2024
- Mises à jour de sécurité du système d’exploitation
21 mai 2024
- [SPARK-48105][SS] Correction du problème de concurrence entre le déchargement du magasin d’état et la création d’instantanés
- Mises à jour de sécurité du système d’exploitation
9 mai 2024
- [SPARK-48018][SS] Correction du groupe null provoquant une erreur de paramètre manquant lors du lancement de KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Enregistrer l’appel dans SparkContext.stop(), puis dans SparkContext.assertNotStopped().
- [SPARK-44251][SQL] Définition de la valeur pouvant accepter Null correctement sur une clé de jointure fusionnée dans une jointure externe complète USING
- Mises à jour de sécurité du système d’exploitation
25 avril 2024
- Mises à jour de sécurité du système d’exploitation
11 avril 2024
- Mises à jour de sécurité du système d’exploitation
1er avril 2024
- [SPARK-47135][SS] Implémenter des classes d’erreurs pour les exceptions de perte de données Kafka
- [SPARK-44252][SS] Définir une nouvelle classe d’erreur et l’appliquer lorsque le chargement de l’état à partir de DFS échoue
- [SPARK-47200][SS] Classe d’erreur pour l’erreur de la fonction utilisateur du collecteur de lots Foreach
- Rétablir « [SPARK-46861] [CORE] Éviter les blocages dans DAGScheduler
- Mises à jour de sécurité du système d’exploitation
14 mars 2024
- [SPARK-47125][SQL] Retourne la valeur Null si Univocity ne déclenche jamais l’analyse
- Mises à jour de sécurité du système d’exploitation
29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la métrique d’opération numSourceRows de rapporter le double du nombre correct de lignes.
- [SPARK-45582][SS] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie
- Mises à jour de sécurité du système d’exploitation
13 février 2024
- [SPARK-46861] Éviter le blocage dans DAGScheduler.
- Mises à jour de sécurité du système d’exploitation
31 janvier 2024
- Mises à jour de sécurité du système d’exploitation
25 décembre 2023
- Pour éviter une augmentation de la latence lors des communications via TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 afin de corriger le bogue JDK-8293562.
- [SPARK-46058] Ajouter un indicateur distinct pour privateKeyPassword.
-
[SPARK-46538] Corriger le problème de référence de colonne ambiguë dans
ALSModel.transform. - [SPARK-39440] Ajout d’une configuration pour désactiver la chronologie des événements.
- [SPARK-46132] Prise en charge des mots de passe des clés JKS pour RPC SSL.
14 décembre 2023
- Mises à jour de sécurité du système d’exploitation
29 novembre 2023
-
[SPARK-45544] Prise en charge SSL intégrée dans
TransportContext. -
[SPARK-45859] Objets UDF rendus différés dans
ml.functions. -
[SPARK-43718] Correction de la nullabilité des clés dans les jointures
USING. -
[SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite. - [SPARK-42205] Suppression des données cumulées dans les événements de démarrage des étapes et des tâches.
-
[SPARK-44846] Suppression des expressions de regroupement complexes après
RemoveRedundantAggregates. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-45544] Prise en charge SSL intégrée dans
14 novembre 2023
-
[SPARK-45541] Ajout de
SSLFactory. -
[SPARK-45545]
SparkTransportConfhériteSSLOptionslors de la création. -
[SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptionsetSparkTransportConf. - [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
-
[SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec. - Rétablir [SPARK-33861].
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-45541] Ajout de
24 octobre 2023
-
[SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-45426] Ajout de la prise en charge de
13 octobre 2023
-
[SPARK-45084]
StateOperatorProgresspour utiliser un numéro de partition aléatoire précis et adéquat. -
[SPARK-45178] Revenir à l’exécution d’un seul lot pour
Trigger.AvailableNowles sources non prises en charge plutôt que d’utiliser le wrapper. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-45084]
10 septembre 2023
- Correctifs divers
30 août 2023
-
[SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
15 août 2023
- [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-43973] L’interface utilisateur Structured Streaming affiche désormais correctement les requêtes ayant échoué.
- Mises à jour de sécurité du système d’exploitation
23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- [SPARK-43098] Correction d’un bug dans la fonction COUNT lorsque la sous-requête scalaire comporte une clause GROUP BY
- [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
-
[SPARK-43156][SPARK-43098] Test lié au nombre de sous-requêtes scalaires étendues avec
decorrelateInnerQuerydésactivation. - Mises à jour de sécurité du système d’exploitation
2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFieldssupprime un enregistrement dans le modeDROPMALFORMEDet échoue directement en modeFAILFAST. - Correction d’un problème dans l’analyse des données récupérées au format JSON afin d’empêcher
UnknownFieldException. - Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-43404]Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter l’erreur d’incohérence d’ID.
-
[SPARK-43413] Correction de la nullité des sous-requêtes
INListQuery. - Mises à jour de sécurité du système d’exploitation
- L’analyseur JSON en mode
17 mai 2023
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
-
[SPARK-41520] Fractionnez le modèle d’arborescence
AND_ORpour dissocierANDetOR. -
[SPARK-43190]
ListQuery.childOutputest désormais cohérent avec les données de sortie secondaires. - Mises à jour de sécurité du système d’exploitation
25 avril 2023
-
[SPARK-42928] Synchroniser
resolvePersistentFunction. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-42928] Synchroniser
mardi 11 avril 2023
- Correction d’un problème où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
-
[SPARK-42937]
PlanSubqueriesdéfinit maintenantInSubqueryExec#shouldBroadcastsur true. - [SPARK-42967] Corrige SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est lancée après l’annulation de l’étape.
29 mars 2023
- [SPARK-42668] Intercepter l’exception lors de la fermeture du flux compressé dans HDFSStateStoreProvider stop
- [SPARK-42635] Corrige…
- Mises à jour de sécurité du système d’exploitation
14 mars 2023
- [SPARK-41162] Correction de l’anti-jointure et de la semi-jointure pour les jointures sur elles-mêmes avec agrégations
- [SPARK-33206] Correction du calcul de poids du cache d’index aléatoire pour les petits fichiers d’index
-
[SPARK-42484] Message d’erreur
UnsafeRowUtilsamélioré - Correctifs divers
28 février 2023
- Colonne générée pour le format de date aaaa-MM-jj. Cette modification prend en charge la suppression des partitions pour le format yyyy-MM-dd en tant que date_format dans les colonnes générées.
- Les utilisateurs peuvent désormais lire et écrire des tables Delta spécifiques nécessitant la version 3 de Reader et la version 7 de Writer, à l’aide de Databricks Runtime 9.1 LTS ou d’une version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- Colonne générée pour le format de date aaaa-MM-jj. Cette modification prend en charge la suppression des partitions pour le format yyyy-MM-dd en tant que date_format dans les colonnes générées.
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- [SPARK-30220] Activer l’utilisation des sous-requêtes Exists/In en dehors du nœud Filtre
- Mises à jour de sécurité du système d’exploitation
31 janvier 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
18 janvier 2023
- Le connecteur Azure Synapse renvoie un message d’erreur plus descriptif lorsqu’un nom de colonne contient des caractères non valides tels que des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space. - [SPARK-38277] Effacement du lot d’écriture après la validation du magasin d’état RocksDB
- [SPARK-41199] Correction d’un problème de métriques lorsque la source de streaming DSv1 et la source de streaming DSv2 sont utilisées conjointement
- [SPARK-41198] Correction des métriques dans les requêtes de streaming comportant une source de streaming CTE et DSv1
- [SPARK-41339] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732] Appliquer une taille en arbre pour la règle SessionWindowing
- Mises à jour de sécurité du système d’exploitation
- Le connecteur Azure Synapse renvoie un message d’erreur plus descriptif lorsqu’un nom de colonne contient des caractères non valides tels que des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées afin de contrôler la gestion des espaces blancs :
- Lorsque
csvignoreleadingwhitespacesurtrue, les espaces blancs en début de valeur sont supprimés lors de l’écriture lorsquetempformatest défini surCSVou surCSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie surfalse. Par défaut, la valeur esttrue. - Lorsque
csvignoretrailingwhitespacesurtrue, les espaces blancs en fin de valeur sont supprimés lors de l’écriture lorsquetempformatest défini surCSVou surCSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie surfalse. Par défaut, la valeur esttrue.
- Lorsque
- Correction d’un problème d’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées sous forme de chaînes (
cloudFiles.inferColumnTypesnon défini ou défini surfalse) et que le JSON contenait des objets imbriqués. - Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées afin de contrôler la gestion des espaces blancs :
15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
-
[SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour activer le comportement amélioré, définissez
spark.sql.json.enablePartialResultssurtrue. L’indicateur est désactivé par défaut afin de conserver le comportement d’origine. -
[SPARK-40292] Correction des noms de colonnes dans la fonction
arrays_ziplorsque des tableaux sont référencés à partir de structures imbriquées - Mises à jour de sécurité du système d’exploitation
1 novembre 2022
- Correction d’un problème où, si une table Delta comportait une colonne définie par l’utilisateur nommée
_change_type, mais que l’option Modifier le flux de données était désactivée pour cette table, les données de cette colonne étaient incorrectement remplies avec des valeurs NULL lors de l’exécution deMERGE. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwritesest activé - [SPARK-40697] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- Correction d’un problème où, si une table Delta comportait une colonne définie par l’utilisateur nommée
18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
-
[SPARK-40468] Correction de la taille des colonnes au format CSV quand
_corrupt_recordest sélectionné. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-40468] Correction de la taille des colonnes au format CSV quand
22 septembre 2022
- Les utilisateurs peuvent définir spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled,true) pour réactiver la liste intégrée du chargeur automatique sur ADLS. La fonctionnalité de liste intégrée était précédemment désactivée en raison de problèmes de performances, mais elle pouvait entraîner une augmentation des coûts de stockage pour les clients. - [SPARK-40315] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40213] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- [SPARK-40380] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-38404] Améliorer la résolution des CTE lorsqu’un CTE imbriqué fait référence à un CTE externe
- [SPARK-40089] Correction du tri pour certains types décimaux
- [SPARK-39887] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- Les utilisateurs peuvent définir spark.conf.set(
6 septembre 2022
- [SPARK-40235] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40218] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-39976] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
-
[SPARK-40053] Ajouter
assumepour annuler de manière dynamique les cas qui nécessitent un environnement d’exécution Python - [SPARK-35542] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
24 août 2022
- [SPARK-39983] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39775] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39962] Application de la projection lorsque les attributs de groupe sont vides
- [SPARK-37643] lorsque charVarcharAsString a la valeur true, pour que la requête de prédicat de type de données char ignore la règle rpadding
- Mises à jour de sécurité du système d’exploitation
mardi 9 août 2022
- [SPARK-39847] Corriger la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- Mises à jour de sécurité du système d’exploitation
27 juillet 2022
- [SPARK-39625] Ajouter Dataset.as(StructType)
-
[SPARK-39689]Prise en charge de 2 caractères
lineSepdans la source de données CSV - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39570] La table incluse devrait autoriser les expressions avec alias
- [SPARK-39702] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575] ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39476] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- [SPARK-38868] Ne propagez pas les exceptions du prédicat de filtre lors de l’optimisation des jointures externes
- Mises à jour de sécurité du système d’exploitation
20 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39355] Une colonne unique utilise des guillemets pour construire UnresolvedAttribute
- [SPARK-39548] La commande CreateView avec une requête de clause de fenêtre a rencontré un problème introuvable de définition de fenêtre incorrecte
- [SPARK-39419] Corriger ArraySort pour qu’il lance une exception lorsque le comparateur renvoie null
- Désactivation de l'utilisation par Auto Loader des API cloud intégrées pour le listing de répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
5 juillet 2022
- [SPARK-39376] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- Mises à jour de sécurité du système d’exploitation
15 juin 2022
- [SPARK-39283] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
-
[SPARK-36718] Corriger la vérification
isExtractOnlydans CollapseProject
2 juin 2022
- [SPARK-39093] Éviter une erreur de compilation codegen lors de la division des intervalles d’année-mois ou des intervalles de jours-heures par une intégrale
- [SPARK-38990] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Corrige une fuite de mémoire intégrée potentielle dans Auto Loader.
- [SPARK-38918] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-37593] Réduction de la taille de page par défaut selon LONG_ARRAY_OFFSET si G1GC et ON_HEAP sont utilisé
- [SPARK-39084] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-32268] Ajout de ColumnPruning dans injectBloomFilter
- [SPARK-38974] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
- [SPARK-38931] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
- Mises à jour de sécurité du système d’exploitation
19 avril 2022
- Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
- Correction d’un problème lié aux bibliothèques délimitées aux notebooks qui ne fonctionnaient pas dans les travaux de streaming par lots.
- [SPARK-38616] Suivi du texte de requête SQL dans Catalyst TreeNode
- Mises à jour de sécurité du système d’exploitation
6 avril 2022
- Les fonctions Spark SQL suivantes sont désormais disponibles avec cette version :
-
timestampadd()etdateadd(): Ajoutez une durée dans une unité spécifiée à une expression d’horodatage. -
timestampdiff()etdatediff(): Calculez la différence de temps dans une unité spécifiée entre deux expressions d’horodatage.
-
- Parquet-MR a été mis à niveau vers la version 1.12.2
- Prise en charge améliorée des schémas complets dans les fichiers Parquet
- [SPARK-38631] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
-
[SPARK-38509][SPARK-38481] Sélectionnez trois changements
timestmapadd/diff. - [SPARK-38523] Correctif faisant référence à la colonne d’enregistrement endommagé du CSV
-
[SPARK-38237] Autoriser
ClusteredDistributionà exiger des clés de clustering complètes - [SPARK-38437] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- Mises à jour de sécurité du système d’exploitation
- Les fonctions Spark SQL suivantes sont désormais disponibles avec cette version :
Databricks Runtime 9.1 LTS
Consultez Databricks Runtime 9.1 LTS.
- 29 novembre 2023
-
[SPARK-45859] Objets UDF rendus différés dans
ml.functions. -
[SPARK-45544] Prise en charge SSL intégrée dans
TransportContext. -
[SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-45859] Objets UDF rendus différés dans
- 14 novembre 2023
-
[SPARK-45545]
SparkTransportConfhériteSSLOptionslors de la création. - [SPARK-45429] Ajout de classes d’aide pour la communication SSL RPC.
-
[SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptionsetSparkTransportConf. -
[SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec. -
[SPARK-45541] Ajout de
SSLFactory. - [SPARK-42205] Suppression des données cumulées dans les événements de démarrage des étapes et des tâches.
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-45545]
- 24 octobre 2023
-
[SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- Mises à jour de sécurité du système d’exploitation
- 10 septembre 2023
- Correctifs divers
- 30 août 2023
- Mises à jour de sécurité du système d’exploitation
- 15 août 2023
- Mises à jour de sécurité du système d’exploitation
- 23 juin 2023
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
- [SPARK-43098] Correction d’un bug dans la fonction COUNT lorsque la sous-requête scalaire comporte une clause GROUP BY
-
[SPARK-43156][SPARK-43098] Étendre le test du bug lié au nombre de sous-requêtes scalaires avec
decorrelateInnerQuerydésactivé. - [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
- Mises à jour de sécurité du système d’exploitation
- 2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFieldssupprime un enregistrement dans le modeDROPMALFORMEDet échoue directement en modeFAILFAST. - Correction d’un problème dans l’analyse des données récupérées au format JSON afin d’empêcher
UnknownFieldException. - Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
-
[SPARK-37520] Ajoutez les fonctions de chaîne
startswith()etendswith() -
[SPARK-43413] Correction de la nullité des sous-requêtes
INListQuery. - Mises à jour de sécurité du système d’exploitation
- L’analyseur JSON en mode
- 17 mai 2023
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2023
- Mises à jour de sécurité du système d’exploitation
- 11 avril 2023
- Correction d’un problème où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42967] Corrige SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est lancée après l’annulation de l’étape.
- 29 mars 2023
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2023
-
[SPARK-42484] Message d’erreur de
UnsafeRowUtilsamélioré - Correctifs divers
-
[SPARK-42484] Message d’erreur de
- 28 février 2023
- Les utilisateurs peuvent désormais lire et écrire des tables Delta spécifiques nécessitant la version 3 de Reader et la version 7 de Writer, à l’aide de Databricks Runtime 9.1 LTS ou d’une version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- Mises à jour de sécurité du système d’exploitation
- 16 février 2023
- Mises à jour de sécurité du système d’exploitation
- 31 janv. 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
- 18 janv. 2023
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2022
- Correction d’un problème d’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées sous forme de chaînes (
cloudFiles.inferColumnTypesnon défini ou défini surfalse) et que le JSON contenait des objets imbriqués. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème d’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées sous forme de chaînes (
- 15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers
- 1 novembre 2022
- Correction d’un problème où, si une table Delta comportait une colonne définie par l’utilisateur nommée
_change_type, mais que l’option Modifier le flux de données était désactivée pour cette table, les données de cette colonne étaient incorrectement remplies avec des valeurs NULL lors de l’exécution deMERGE. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwritesest activé - [SPARK-40596] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- Correction d’un problème où, si une table Delta comportait une colonne définie par l’utilisateur nommée
- 18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Correctifs divers
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2022
- Les utilisateurs peuvent définir spark.conf.set(« spark.databricks.io.listKeysWithPrefix.azure.enabled », « true ») pour réactiver la liste intégrée du chargeur automatique sur ADLS. La fonctionnalité de liste intégrée était précédemment désactivée en raison de problèmes de performances, mais elle pouvait entraîner une augmentation des coûts de stockage pour les clients.
- [SPARK-40315] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40089] Correction du tri pour certains types décimaux
- [SPARK-39887] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- 6 septembre 2022
- [SPARK-40235] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-35542] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
- 24 août 2022
-
[SPARK-39666] Utiliser UnsafeProjection.create pour respecter
spark.sql.codegen.factoryModedans ExpressionEncoder - [SPARK-39962] Application de la projection lorsque les attributs de groupe sont vides
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-39666] Utiliser UnsafeProjection.create pour respecter
- 9 août 2022
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
-
[SPARK-39689] Prise en charge de 2 caractères
lineSepdans la source de données CSV -
[SPARK-39575] Ajout de
ByteBuffer#rewindaprèsByteBuffer#getdansAvroDeserializer. - [SPARK-37392] Correction d’une erreur de performance pour l’optimiseur de catalyseur.
- Mises à jour de sécurité du système d’exploitation
- 13 juillet 2022
-
[SPARK-39419]
ArraySortlève une exception lorsque le comparateur renvoie null. - Désactivation de l'utilisation par Auto Loader des API cloud intégrées pour le listing de répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-39419]
- 5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers
- 15 juin 2022
-
[SPARK-39283] Correction de l’interblocage entre
TaskMemoryManageretUnsafeExternalSorter.SpillableIterator.
-
[SPARK-39283] Correction de l’interblocage entre
- 2 juin 2022
-
[SPARK-34554] Implémentation de la méthode
copy()dansColumnarMap. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-34554] Implémentation de la méthode
- 18 mai 2022
- Correction d’une fuite de mémoire intégrée potentielle dans Auto Loader.
- Mise à niveau la version du kit SDK AWS de la version 1.11.655 vers la version 1.11.678.
- [SPARK-38918] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
-
[SPARK-39084] Correction
df.rdd.isEmpty()à l’aide deTaskContextpour arrêter l’itérateur à la fin de la tâche - Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers
- 6 avril 2022
- [SPARK-38631] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- Le répertoire de travail actuel des notebooks sur les clusters à haute concurrence avec le contrôle d’accès aux tables ou le transfert d’informations d’identification activé a été modifié pour pointer vers le répertoire de base de l’utilisateur. Auparavant, le répertoire actif était
/databricks/driver. - [SPARK-38437] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-27442] Suppression d’un champ de vérification lors de la lecture ou de l’écriture de données dans un fichier Parquet.
- Le répertoire de travail actuel des notebooks sur les clusters à haute concurrence avec le contrôle d’accès aux tables ou le transfert d’informations d’identification activé a été modifié pour pointer vers le répertoire de base de l’utilisateur. Auparavant, le répertoire actif était
- 14 mars 2022
- [SPARK-38236] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
-
[SPARK-34069] Interruption du thread de tâche si la propriété locale
SPARK_JOB_INTERRUPT_ON_CANCELest définie sur true.
- 23 février 2022
- [SPARK-37859] Les tables SQL créées avec JDBC avec Spark 3.1 ne sont pas lisibles avec Spark 3.2.
- 8 février 2022
- [SPARK-27442] Suppression d’un champ de vérification lors de la lecture ou de l’écriture de données dans un fichier Parquet.
- Mises à jour de sécurité du système d’exploitation
- 1 février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janv. 2022
- Correction d’un problème dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un problème à cause duquel la commande
OPTIMIZErisquait d’échouer lorsque le dialecte ANSI SQL était activé.
- 19 janv. 2022
- Correctifs mineurs et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
- 4 novembre 2021
- Correction d’un problème pouvant entraîner l’échec des flux Structured Streaming avec un
ArrayIndexOutOfBoundsException. - Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for schemeou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfigurationn’entrent pas en vigueur dans les requêtes. - Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
- Correction d’un problème pouvant entraîner l’échec des flux Structured Streaming avec un
- 20 octobre 2021
- Mise à niveau du connecteur BigQuery de la version 0.18.1 à la version 0.22.2. Cela ajoute la prise en charge du type BigNumeric.
Databricks Runtime 13.0
Consultez Databricks Runtime 13.0 (EoS).
13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 vers 3.13.33.
- [SPARK-42553] [SQL] Veillez à respecter un intervalle d’au moins une unité de temps.
-
[SPARK-45178] Revenir à l’exécution d’un seul lot pour
Trigger.AvailableNowles sources non prises en charge plutôt que d’utiliser le wrapper. -
[SPARK-44658][CORE]
ShuffleStatus.getMapStatusrenvoieNoneau lieu deSome(null). -
[SPARK-42205][CORE] Supprimer la journalisation des éléments accumulables dans les événements de démarrage de tâche/étape dans
JsonProtocol. - Mises à jour de sécurité du système d’exploitation
12 septembre 2023
-
[SPARK-44485][SQL] Optimisation de
TreeNode.generateTreeString. -
[SPARK-44718] [SQL] Faire correspondre
ColumnVectorla valeur par défaut du mode mémoire avec la valeur de configurationOffHeapMemoryMode. - Divers correctifs de bogues.
-
[SPARK-44485][SQL] Optimisation de
30 août 2023
-
[SPARK-44818][Backport] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread. - [SPARK-44714] Assouplir les restrictions relatives à la résolution LCA concernant les requêtes.
-
[SPARK-44245][PYTHON] Les doctests
pyspark.sql.dataframe sample()sont désormais uniquement indiqués à titre illustratif. -
[SPARK-44871][11.3-13.0][SQL] Correction du comportement de
percentile_disc. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-44818][Backport] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
15 août 2023
-
[SPARK-44643][SQL][PYTHON] Correction de
Row.__repr__lorsque la ligne est vide. - [SPARK-44504][Backport] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
-
[SPARK-44479][CONNECT][PYTHON] Correction de la conversion
protobufdepuis un type de structure vide. -
[SPARK-44464][SS] Correction de
applyInPandasWithStatePythonRunnerpour les lignes de sortie qui présententNullen tant que première valeur de colonne. - Divers correctifs de bogues.
-
[SPARK-44643][SQL][PYTHON] Correction de
29 juillet 2023
- Correction d’un bogue où
dbutils.fs.ls()renvoyaitINVALID_PARAMETER_VALUE.LOCATION_OVERLAPlorsqu’un chemin d’accès à un emplacement de stockage était appelé et entrait en conflit avec un autre emplacement de stockage externe ou géré. -
[SPARK-44199]
CacheManagern’actualise plus lefileIndexinutilement. - Mises à jour de sécurité du système d’exploitation
- Correction d’un bogue où
24 juillet 2023
-
[SPARK-44337][PROTOBUF] Correction d’un problème où tout champ défini sur
Any.getDefaultInstancecausait des erreurs d’analyse. -
[SPARK-44136] [SS] Correction d’un problème où
StateManagerse matérialisait dans un exécuteur au lieu du pilote dansFlatMapGroupsWithStateExec. - Rétablir [SPARK-42323][SQL] Attribuer un nom à
_LEGACY_ERROR_TEMP_2332. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-44337][PROTOBUF] Correction d’un problème où tout champ défini sur
23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
-
approx_count_distinctphotonisé. - La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- [SPARK-43156][SPARK-43098][SQL] Tester le bug lié au nombre de sous-requêtes scalaires avec la fonction decorrelateInnerQuery désactivée
-
[SPARK-43779][SQL]
ParseToDatese charge désormaisEvalModedans le thread principal. -
[SPARK-42937][SQL]
PlanSubqueriesdoit définirInSubqueryExec#shouldBroadcastsur true - Mises à jour de sécurité du système d’exploitation
-
2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFieldssupprime un enregistrement dans le modeDROPMALFORMEDet échoue directement en modeFAILFAST. - Renforcez les performances de la mise à jour incrémentielle avec
SHALLOW CLONEIceberg et Parquet. - Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-43404][Backport] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur d’incohérence d’ID.
- [SPARK-43340][CORE] Correction du champ stack-trace manquant dans les journaux d’événements.
-
[SPARK-43300][CORE] Enveloppe
NonFateSharingCachepour Guava Cache. -
[SPARK-43378][CORE] Fermer correctement les objets de flux dans
deserializeFromChunkedBuffer. - [SPARK-16484][SQL] Utiliser des registres 8 bits afin de représenter des DataSketches.
- [SPARK-43522][SQL] Correction de la création du nom de la colonne de structure avec l’index du tableau.
-
[SPARK-43413][11.3-13.0][SQL] Correction de la nullité des sous-requêtes
INListQuery. -
[SPARK-43043][CORE] Performances de
MapOutputTracker.updateMapOutputaméliorées. - [SPARK-16484][SQL] Prise en charge de DataSketches HllSketch.
- [SPARK-43123][SQL] Les métadonnées internes des champs ne fuient plus vers les catalogues.
-
[SPARK-42851][SQL] Guard
EquivalentExpressions.addExpr()avecsupportedExpression(). -
[SPARK-43336][SQL] Le cast
TimestampetTimestampNTZrequiert le fuseau horaire. -
[SPARK-43286][SQL] Mise à jour du mode CBC
aes_encryptafin de générer des images virtuelles aléatoires. -
[SPARK-42852][SQL] Annulation des modifications associées à
NamedLambdaVariabledepuisEquivalentExpressions. -
[SPARK-43541][SQL] Propagation de toutes les balises
Projectdans la résolution des expressions et des colonnes manquantes. -
[SPARK-43527][PYTHON] Correction de
catalog.listCatalogsdans PySpark. - Mises à jour de sécurité du système d’exploitation
- L’analyseur JSON en mode
31 mai 2023
- La prise en charge par défaut de l’écriture optimisée pour les tables Delta enregistrées dans Unity Catalog a été étendue pour inclure les instructions
CTASet les opérationsINSERTpour les tables partitionnées. Ce comportement correspond aux paramètres par défaut des entrepôts SQL. Consultez Écritures optimisées pour Delta Lake sur Azure Databricks.
- La prise en charge par défaut de l’écriture optimisée pour les tables Delta enregistrées dans Unity Catalog a été étendue pour inclure les instructions
17 mai 2023
- Correction d’une régression où
_metadata.file_pathet_metadata.file_namerenvoyait des chaînes mal formatées. Par exemple, un chemin contenant des espaces est désormais représenté commes3://test-bucket/some%20directory/some%20data.csvau lieu des3://test-bucket/some directory/some data.csv. - Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
-
- Si un fichier Avro était lu avec uniquement l’option
failOnUnknownFieldsou avec Auto Loader en mode d’évolution du schémafailOnNewColumns, les colonnes ayant des types de données différents seraient lues commenullau lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn.
- Si un fichier Avro était lu avec uniquement l’option
- Auto Loader effectue désormais les opérations suivantes.
-
- Lit correctement et ne récupère plus les types
Integer,ShortetBytesi l’un de ces types de données est fourni, mais que le fichier Avro suggère l’un des deux autres types.
- Lit correctement et ne récupère plus les types
-
- Empêche la lecture des types d’intervalle comme des types de date ou d’horodatage afin d’éviter toute corruption des dates.
-
- Empêche la lecture des types
Decimaldont la précision est moindre.
- Empêche la lecture des types
- [SPARK-43172] [CONNECT] Expose l’hôte et le jeton du client Spark Connect.
-
[SPARK-43293][SQL]
__qualified_access_onlyest ignoré dans les colonnes normales. -
[SPARK-43098][SQL] Correction d’un bug d’exactitude
COUNTlorsque la sous-requête scalaire est regroupée par clause. -
[SPARK-43085][SQL] Prise en charge de l’attribution des colonnes
DEFAULTpour les noms de tables en plusieurs parties. -
[SPARK-43190][SQL]
ListQuery.childOutputest désormais cohérent avec les données de sortie secondaires. - [SPARK-43192] [CONNECT] Suppression de la validation du jeu de caractères de l’agent utilisateur.
- Correction d’une régression où
25 avril 2023
- Vous pouvez modifier une table Delta afin d’ajouter la prise en charge d’une fonctionnalité de table Delta avec
DeltaTable.addFeatureSupport(feature_name). - La commande
SYNCprend désormais en charge les formats de source de données hérités. - Correction d’un bug lorsque le formateur Python était utilisé avant d’exécuter d’autres commandes dans un notebook Python qui pouvait entraîner la disparition du chemin d’accès au notebook dans
sys.path. - Azure Databricks prend maintenant en charge la spécification de valeurs par défaut pour les colonnes des tables Delta.
INSERT, ,UPDATEDELETEetMERGEles commandes peuvent faire référence à la valeur par défaut d’une colonne à l’aide du mot clé expliciteDEFAULT. Pour les commandesINSERTavec une liste explicite de colonnes moins nombreuses que la table cible, les valeurs par défaut correspondantes sont substituées aux colonnes restantes (ouNULLsi aucune valeur par défaut n’est spécifiée).
- Vous pouvez modifier une table Delta afin d’ajouter la prise en charge d’une fonctionnalité de table Delta avec
Correction d’un bug qui empêchait l’utilisation du terminal Web pour accéder aux fichiers dans
/Workspacepour certains utilisateurs.- Si un fichier Parquet était lu avec uniquement l’option
failOnUnknownFieldsou avec Auto Loader en mode d’évolution du schémafailOnNewColumns, les colonnes ayant des types de données différents seraient lues commenullau lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn. - Auto Loader lit désormais correctement et ne récupère plus les types
Integer,Short,Bytesi l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données récupérées était précédemment activée, l’incompatibilité des types de données entraînait la récupération des colonnes même si elles étaient lisibles. - Correction d’un bogue où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42794][SS] Augmenter la valeur lockAcquireTimeoutMs à 2 minutes pour acquérir le magasin d’état RocksDB dans Structure Streaming.
- [SPARK-39221][SQL] Veiller à ce que les informations sensibles soient correctement expurgées dans l’onglet Tâche/étape du serveur de tâches.
-
[SPARK-42971][CORE] Passer à l’impression
workdirsiappDirsest nul lorsque le gestionnaire traite l’événementWorkDirCleanup. - [SPARK-42936][SQL] Correction d’un bug LCA lorsque la clause having peut être résolue directement par son agrégat enfant.
-
[SPARK-43018][SQL] Correction d’un bogue pour les commandes
INSERTavec des littéraux d’horodatage. - Rétablir[SPARK-42754][SQL][UI] Correction d’un problème de compatibilité ascendante dans l’exécution SQL imbriquée.
- Rétablir [SPARK-41498] [SC-119018] Propagation des métadonnées via Union.
-
[SPARK-43038][SQL] prend en charge le mode CBC par
aes_encrypt()/aes_decrypt(). -
[SPARK-42928][SQL] Synchroniser
resolvePersistentFunction. -
[SPARK-42521][SQL] Ajoutez des
NULLvaleurs pourINSERTavec des listes spécifiées par l’utilisateur comportant moins de colonnes que la table cible. -
[SPARK-41391][SQL] Le nom de la colonne de sortie de
groupBy.agg(count_distinct)était erroné. -
[SPARK-42548][SQL] Ajout de
ReferenceAllColumnspour ignorer les attributs de réécriture. - [SPARK-42423][SQL] Ajouter les métadonnées début du bloc de fichier et longueur.
-
[SPARK-42796][SQL] Prise en charge de l’accès aux colonnes
TimestampNTZdansCachedBatch. - [SPARK-42266][PYTHON] Supprimez le répertoire parent dans shell.py run lorsque IPython est utilisé.
-
[SPARK-43011][SQL]
array_insertdoit échouer avec 0 index. -
[SPARK-41874][CONNECT][PYTHON] Prise en charge de
SameSemanticsdans Spark Connect. - [SPARK-42702][SPARK-42623][SQL] Prise en charge des requêtes paramétrées dans les sous-requêtes et les CTE.
-
[SPARK-42967][CORE] Correction
SparkListenerTaskStart.stageAttemptIdlorsqu’une tâche est lancée après l’annulation de l’étape. - Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet était lu avec uniquement l’option
Databricks Runtime 12.1
Consultez Databricks Runtime 12.1 (EoS).
23 juin 2023
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
-
approx_count_distinctphotonisé. - La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
-
[SPARK-43779][SQL]
ParseToDatese charge désormaisEvalModedans le thread principal. - [SPARK-43156][SPARK-43098][SQL] Tester le bug lié au nombre de sous-requêtes scalaires avec la fonction decorrelateInnerQuery désactivée
- Mises à jour de sécurité du système d’exploitation
-
2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFieldssupprime un enregistrement dans le modeDROPMALFORMEDet échoue directement en modeFAILFAST. - Renforcez les performances de la mise à jour incrémentielle avec
SHALLOW CLONEIceberg et Parquet. - Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
- [SPARK-43404][Backport] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur d’incohérence d’ID.
-
[SPARK-43413][11.3-13.0][SQL] Correction de la nullité des sous-requêtes
INListQuery. - [SPARK-43522][SQL] Correction de la création du nom de la colonne de structure avec l’index du tableau.
-
[SPARK-42444][PYTHON]
DataFrame.droptraite désormais correctement des colonnes dupliquées. -
[SPARK-43541][SQL] Propagation de toutes les balises
Projectdans la résolution des expressions et des colonnes manquantes. - [SPARK-43340][CORE] Correction du champ stack-trace manquant dans les journaux d’événements.
-
[SPARK-42937][SQL]
PlanSubqueriesdéfinit désormaisInSubqueryExec#shouldBroadcastsur true. -
[SPARK-43527][PYTHON] Correction de
catalog.listCatalogsdans PySpark. -
[SPARK-43378][CORE] Fermer correctement les objets de flux dans
deserializeFromChunkedBuffer.
- L’analyseur JSON en mode
17 mai 2023
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
- Si un fichier Avro était lu avec uniquement l’option
failOnUnknownFieldsou avec Auto Loader en mode d’évolution du schémafailOnNewColumns, les colonnes ayant des types de données différents seraient lues commenullau lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn. - Auto Loader effectue désormais les opérations suivantes.
-
- Lit correctement et ne récupère plus les types
Integer,ShortetBytesi l’un de ces types de données est fourni, mais que le fichier Avro suggère l’un des deux autres types.
- Lit correctement et ne récupère plus les types
-
- Empêche la lecture des types d’intervalle comme des types de date ou d’horodatage afin d’éviter toute corruption des dates.
-
- Empêche la lecture des types
Decimaldont la précision est moindre.
- Empêche la lecture des types
-
[SPARK-43098][SQL] Correction d’un bug d’exactitude
COUNTlorsque la sous-requête scalaire est regroupée par clause. -
[SPARK-43190][SQL]
ListQuery.childOutputest désormais cohérent avec les données de sortie secondaires. - Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet était lu avec uniquement l’option
failOnUnknownFieldsou avec Auto Loader en mode d’évolution du schémafailOnNewColumns, les colonnes ayant des types de données différents seraient lues commenullau lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn. - Auto Loader lit désormais correctement et ne récupère plus les types
Integer,Short,Bytesi l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données récupérées était précédemment activée, l’incompatibilité des types de données entraînait la récupération des colonnes même si elles étaient lisibles. -
[SPARK-43009][SQL] Paramétrisation de
sql()avec des constantesAny. -
[SPARK-42971][CORE] Passer à l’impression
workdirsiappDirsest nul lorsque le gestionnaire traite l’événementWorkDirCleanup. - Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet était lu avec uniquement l’option
mardi 11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande SYNC.
- Corrige un bug dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un référentiel.
- Correction d’un bogue où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
-
[SPARK-42928][SQL] Synchronise
resolvePersistentFunction. -
[SPARK-42967][CORE] Correction de
SparkListenerTaskStart.stageAttemptIdlorsqu’une tâche démarre après l’annulation de l’étape. - Mises à jour de sécurité du système d’exploitation
29 mars 2023
- Auto Loader déclenche désormais au moins un nettoyage synchrone du journal RocksDB pour les flux
Trigger.AvailableNowafin de s’assurer que le point de contrôle peut être nettoyé régulièrement pour les flux Auto Loader à exécution rapide. Cela peut entraîner un allongement du temps nécessaire à la fermeture de certains flux, mais cela vous permettra de réduire vos coûts de stockage et d’améliorer l’expérience Auto Loader lors des prochaines exécutions. - Vous pouvez désormais modifier une table Delta pour ajouter la prise en charge des fonctionnalités de table à l’aide de
DeltaTable.addFeatureSupport(feature_name). - [SPARK-42702][SPARK-42623][SQL] Prise en charge des requêtes paramétrées dans les sous-requêtes et les CTE
- [SPARK-41162][SQL] Correction de l’anti-jointure et de la semi-jointure pour les jointures sur elles-mêmes avec agrégations
- [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON nulles
- [SPARK-42668][SS] Intercepter l’exception lors de l’annulation du flux compressé dans HDFSStateStoreProvider stop
- [SPARK-42794][SS] Augmenter la valeur lockAcquireTimeoutMs à 2 minutes pour acquérir le magasin d’état RocksDB dans Structure Streaming
- Auto Loader déclenche désormais au moins un nettoyage synchrone du journal RocksDB pour les flux
14 mars 2023
- Un changement de terminologie a été introduit pour ajouter des fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe privilégiée est désormais
'delta.feature.featureName'='supported'au lieu de'delta.feature.featureName'='enabled'. Pour des raisons de compatibilité ascendante, l’utilisation de'delta.feature.featureName'='enabled'fonctionne toujours et continuera de fonctionner. - [SPARK-42622][CORE] Désactiver la substitution dans les valeurs
- [SPARK-42534][SQL] Correction de la clause DB2Dialect Limit
- [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
- [SPARK-42516][SQL] Toujours enregistrer la configuration du fuseau horaire de la session lors de la création de vues
- [SPARK-42484] [SQL] UnsafeRowUtils : message d’erreur amélioré
- [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur des décimales significatives
- Mises à jour de sécurité du système d’exploitation
- Un changement de terminologie a été introduit pour ajouter des fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe privilégiée est désormais
24 février 2023
- Vous pouvez désormais utiliser un ensemble d’options unifiées (
host,port,database,user,password) pour vous connecter aux sources de données prises en charge dans Query Federation (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez queportest facultatif et utilise le numéro de port par défaut pour chaque source de données si celui-ci n’est pas fourni.
Exemple de configuration de connexion PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );Exemple de configuration de connexion Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );- [SPARK-41989][PYTHON] Évitez de modifier la configuration de journalisation dans pyspark.pandas.
- [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
-
[SPARK-41990][SQL] Utiliser
FieldReference.columnau lieu deapplydans la conversion de filtre v1 en V2 - Rétablir [SPARK-41848][CORE] Correction d’une tâche surchargée avec TaskResourceProfile
- [SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour la canonisation de grands arbres d’expressions commutatives
- Mises à jour de sécurité du système d’exploitation
- Vous pouvez désormais utiliser un ensemble d’options unifiées (
16 février 2023
- La commande SYNC prend en charge la synchronisation des tables du metastore Hive recréées. Si une table HMS a déjà été synchronisée avec Unity Catalog, puis supprimée et recréée, une nouvelle synchronisation fonctionnera au lieu de renvoyer le code d’état TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide utilise decimal(1, 0) pour représenter 0
- [SPARK-36173][CORE] Prise en charge de l’obtention du numéro de CPU dans TaskContext
- [SPARK-41848][CORE] Correction d’une tâche surchargée avec TaskResourceProfile
- [SPARK-42286][SQL] Revenir au chemin de code générique précédent pour les expressions complexes avec CAST
31 janvier 2023
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose de privilèges SELECT et MODIFY sur ANY FILE.
- [SPARK-41581][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] Corriger le test Kafka afin de vérifier les partitions perdues et tenir compte du ralentissement des opérations Kafka
- [SPARK-41580][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2137
-
[SPARK-41666][PYTHON] Prise en charge du SQL paramétré par
sql() - [SPARK-41579][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Followup] Correction d’une régression de synchronisation de code pour ConvertToLocalRelation
- [SPARK-41576][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] Assigner un nom à _LEGACY_ERROR_TEMP_2054
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 12.0
Consultez Databricks Runtime 12.0 (EoS).
15 juin 2023
-
approx_count_distinctphotonisé. - La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- [SPARK-43156][SPARK-43098][SQL] Tester le bug lié au nombre de sous-requêtes scalaires avec la fonction decorrelateInnerQuery désactivée
-
[SPARK-43779][SQL]
ParseToDatese charge désormaisEvalModedans le thread principal. - Mises à jour de sécurité du système d’exploitation
-
2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFieldssupprime un enregistrement dans le modeDROPMALFORMEDet échoue directement en modeFAILFAST. - Renforcez les performances de la mise à jour incrémentielle avec
SHALLOW CLONEIceberg et Parquet. - Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
-
[SPARK-42444][PYTHON]
DataFrame.droptraite désormais correctement des colonnes dupliquées. - [SPARK-43404][Backport] Ignorer la réutilisation du fichier sst pour la même version du magasin d’état RocksDB afin d’éviter une erreur d’incohérence d’ID.
-
[SPARK-43413][11.3-13.0][SQL] Correction de la nullité des sous-requêtes
INListQuery. -
[SPARK-43527][PYTHON] Correction de
catalog.listCatalogsdans PySpark. - [SPARK-43522][SQL] Correction de la création du nom de la colonne de structure avec l’index du tableau.
-
[SPARK-43541][SQL] Propagation de toutes les balises
Projectdans la résolution des expressions et des colonnes manquantes. - [SPARK-43340][CORE] Correction du champ stack-trace manquant dans les journaux d’événements.
-
[SPARK-42937][SQL]
PlanSubqueriesdéfinitInSubqueryExec#shouldBroadcastsur true.
- L’analyseur JSON en mode
17 mai 2023
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
- Si un fichier Avro était lu avec uniquement l’option
failOnUnknownFieldsou avec Auto Loader en mode d’évolution du schémafailOnNewColumns, les colonnes ayant des types de données différents seraient lues commenullau lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn. - Auto Loader effectue désormais les opérations suivantes.
-
- Lit correctement et ne récupère plus les types
Integer,ShortetBytesi l’un de ces types de données est fourni, mais que le fichier Avro suggère l’un des deux autres types.
- Lit correctement et ne récupère plus les types
-
- Empêche la lecture des types d’intervalle comme des types de date ou d’horodatage afin d’éviter toute corruption des dates.
-
- Empêche la lecture des types
Decimaldont la précision est moindre.
- Empêche la lecture des types
- [SPARK-43172] [CONNECT] Expose l’hôte et le jeton du client Spark Connect.
-
[SPARK-41520][SQL] Fractionnez le modèle d’arborescence
AND_ORpour dissocierANDetOR. -
[SPARK-43098][SQL] Correction d’un bug d’exactitude
COUNTlorsque la sous-requête scalaire est regroupée par clause. -
[SPARK-43190][SQL]
ListQuery.childOutputest désormais cohérent avec les données de sortie secondaires. - Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet était lu avec uniquement l’option
failOnUnknownFieldsou avec Auto Loader en mode d’évolution du schémafailOnNewColumns, les colonnes ayant des types de données différents seraient lues commenullau lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn. - Auto Loader lit désormais correctement et ne récupère plus les types
Integer,Short,Bytesi l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données récupérées était précédemment activée, l’incompatibilité des types de données entraînait la récupération des colonnes même si elles étaient lisibles. -
[SPARK-42971][CORE] Passer à l’impression
workdirsiappDirsest nul lorsque le gestionnaire traite l’événementWorkDirCleanup - Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet était lu avec uniquement l’option
mardi 11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande
SYNC. - Corrige un bug dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un référentiel.
- Correction d’un bogue où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
-
[SPARK-42928][SQL] Synchronise
resolvePersistentFunction. -
[SPARK-42967][CORE] Correction de
SparkListenerTaskStart.stageAttemptIdlorsqu’une tâche démarre après l’annulation de l’étape. - Mises à jour de sécurité du système d’exploitation
- Prise en charge des formats de source de données hérités dans la commande
29 mars 2023
- [SPARK-42794][SS] Augmenter la valeur lockAcquireTimeoutMs à 2 minutes pour acquérir le magasin d’état RocksDB dans Structure Streaming
- [SPARK-41162][SQL] Correction de l’anti-jointure et de la semi-jointure pour les jointures sur elles-mêmes avec agrégations
- [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON nulles
- [SPARK-42668][SS] Intercepter l’exception lors de l’annulation du flux compressé dans HDFSStateStoreProvider stop
- Divers correctifs de bogues.
14 mars 2023
- [SPARK-42534][SQL] Correction de la clause DB2Dialect Limit
- [SPARK-42622][CORE] Désactiver la substitution dans les valeurs
- [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur des décimales significatives
- [SPARK-42484] [SQL] UnsafeRowUtils : message d’erreur amélioré
- [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
- [SPARK-42516][SQL] Toujours enregistrer la configuration du fuseau horaire de la session lors de la création de vues
- Mises à jour de sécurité du système d’exploitation
24 février 2023
Options de connexion standardisées pour la fédération de requêtes
Vous pouvez désormais utiliser un ensemble d’options unifiées (
host,port,database,user,password) pour vous connecter aux sources de données prises en charge dans Query Federation (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez queportest facultatif et utilisera le numéro de port par défaut pour chaque source de données si celui-ci n’est pas fourni.Exemple de configuration de connexion PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );Exemple de configuration de connexion Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );Rétablir [SPARK-41848][CORE] Correction d’une tâche surchargée avec TaskResourceProfile
[SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour la canonisation de grands arbres d’expressions commutatives
[SPARK-41990][SQL] Utiliser
FieldReference.columnau lieu deapplydans la conversion de filtre v1 en V2[SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
Mises à jour de sécurité du système d’exploitation
16 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent la version 3 de Reader et la version 7 de Writer, à l’aide de Databricks Runtime 9.1 ou d’une version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- La commande SYNC prend en charge la synchronisation des tables du metastore Hive recréées. Si une table HMS a déjà été synchronisée avec Unity Catalog, puis supprimée et recréée, une nouvelle synchronisation fonctionnera au lieu de renvoyer le code d’état TABLE_ALREADY_EXISTS.
- [SPARK-36173][CORE] Prise en charge de l’obtention du numéro de CPU dans TaskContext
- [SPARK-42286][SQL] Revenir au chemin de code générique précédent pour les expressions complexes avec CAST
- [SPARK-41848][CORE] Correction d’une tâche surchargée avec TaskResourceProfile
- [SPARK-41219][SQL] IntegralDivide utilise decimal(1, 0) pour représenter 0
25 janv. 2023
- [SPARK-41660][SQL] Ne propager les colonnes de métadonnées que si elles sont utilisées
- [SPARK-41379][SS][PYTHON] Fournir une session Spark clonée dans DataFrame dans la fonction utilisateur pour le sink foreachBatch dans PySpark
- [SPARK-41669][SQL] Taille précoce dans canCollapseExpressions
- Mises à jour de sécurité du système d’exploitation
18 janvier 2023
- La commande SQL
REFRESH FUNCTIONprend désormais en charge les fonctions SQL et les fonctions table SQL. Par exemple, la commande peut être utilisée pour actualiser une fonction SQL persistante qui a été mise à jour dans une autre session SQL. - La source de données Java Database Connectivity (JDBC) v1 prend désormais en charge la clause pushdown LIMIT afin d’améliorer les performances des requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabledsurfalse. - Dans les clusters d’ACL de table héritées, la création de fonctions qui référencent des classes JVM nécessite désormais le privilège
MODIFY_CLASSPATH. - La source de données Java Database Connectivity (JDBC) v1 prend désormais en charge la clause pushdown LIMIT afin d’améliorer les performances des requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace. - Le streaming structuré Spark fonctionne désormais avec format(“deltasharing”) comme source sur une table de partage delta.
- [SPARK-38277][SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- [SPARK-41733][SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle ResolveWindowTime
- [SPARK-39591][SS] Suivi de progression asynchrone
- [SPARK-41339][SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41198][SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41539][SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
- [SPARK-41732][SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41199][SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41261][PYTHON][SS] Correction du problème pour applyInPandasWithState quand les colonnes de clés de regroupement ne sont pas placées dans l’ordre à partir du plus vieux
- Mises à jour de sécurité du système d’exploitation
- La commande SQL
17 mai 2023
- Les analyses de parquet sont désormais résistantes aux erreurs OOM lors de l’analyse de fichiers à la structure exceptionnelle, grâce à l’ajustement dynamique de la taille des lots. Les métadonnées des fichiers sont analysées afin de réduire de manière préventive la taille des lots, puis réduites à nouveau lors des nouvelles tentatives d’exécution des tâches, à titre de mesure de sécurité finale.
- Correction d’une régression qui entraînait la persistance des tâches Azure Databricks après l’échec de la connexion au métastore lors de l’initialisation du cluster.
-
[SPARK-41520][SQL] Fractionnez le modèle d’arborescence
AND_ORpour dissocierANDetOR. -
[SPARK-43190][SQL]
ListQuery.childOutputest désormais cohérent avec les données de sortie secondaires. - Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Si un fichier Parquet était lu avec uniquement l’option
failOnUnknownFieldsou avec Auto Loader en mode d’évolution du schémafailOnNewColumns, les colonnes ayant des types de données différents seraient lues commenullau lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent désormais et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn. - Auto Loader lit désormais correctement et ne récupère plus les types
Integer,Short,Bytesi l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données récupérées était précédemment activée, l’incompatibilité des types de données entraînait la récupération des colonnes même si elles étaient lisibles. -
[SPARK-42937][SQL]
PlanSubqueriesdéfinit désormaisInSubqueryExec#shouldBroadcastsur true. - Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet était lu avec uniquement l’option
mardi 11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande SYNC.
- Corrige un bug dans le comportement %autoreload dans les notebooks qui se trouvent en dehors d’un référentiel.
- Correction d’un bogue où l’évolution du schéma Auto Loader pouvait entrer dans une boucle d’échec infinie lorsqu’une nouvelle colonne était détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42928][SQL] Synchroniser resolvePersistentFunction.
- [SPARK-42967][CORE] Corrige SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est lancée après l’annulation de l’étape.
29 mars 2023
- [SPARK-42794][SS] Augmenter la valeur lockAcquireTimeoutMs à 2 minutes pour acquérir le magasin d’état RocksDB dans Structure Streaming
- [SPARK-42403][CORE] JsonProtocol doit gérer les chaînes JSON nulles
- [SPARK-42668][SS] Intercepter l’exception lors de l’annulation du flux compressé dans HDFSStateStoreProvider stop
- Mises à jour de sécurité du système d’exploitation
14 mars 2023
- [SPARK-42635][SQL] Correction de l’expression TimestampAdd.
- [SPARK-41793][SQL] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur des décimales significatives
- [SPARK-42484] [SQL] UnsafeRowUtils : message d’erreur amélioré
- [SPARK-42534][SQL] Correction de la clause DB2Dialect Limit
- [SPARK-41162][SQL] Correction de l’anti-jointure et de la semi-jointure pour les jointures sur elles-mêmes avec agrégations
- [SPARK-42516][SQL] Toujours enregistrer la configuration du fuseau horaire de la session lors de la création de vues
- Divers correctifs de bogues.
28 février 2023
Options de connexion standardisées pour la fédération de requêtes
Vous pouvez désormais utiliser un ensemble d’options unifiées (
host,port,database,user,password) pour vous connecter aux sources de données prises en charge dans Query Federation (PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server). Notez queportest facultatif et utilise le numéro de port par défaut pour chaque source de données si celui-ci n’est pas fourni.Exemple de configuration de connexion PostgreSQL
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );Exemple de configuration de connexion Snowflake
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );[SPARK-42286][SQL] Revenir au chemin de code générique précédent pour les expressions complexes avec CAST
[SPARK-41989][PYTHON] Évitez de modifier la configuration de journalisation dans pyspark.pandas.
[SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
[SPARK-41360][CORE] Éviter de réenregistrer BlockManager si l’exécuteur a été perdu.
[SPARK-42162] Introduire l’expression MultiCommutativeOp comme optimisation de la mémoire pour la canonisation de grands arbres d’expressions commutatives
[SPARK-41990][SQL] Utiliser
FieldReference.columnau lieu deapplydans la conversion de filtre v1 en V2Mises à jour de sécurité du système d’exploitation
16 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent la version 3 de Reader et la version 7 de Writer, à l’aide de Databricks Runtime 9.1 ou d’une version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- La commande SYNC prend en charge la synchronisation des tables du metastore Hive recréées. Si une table HMS a déjà été synchronisée avec Unity Catalog, puis supprimée et recréée, une nouvelle synchronisation fonctionnera au lieu de renvoyer le code d’état TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide utilise decimal(1, 0) pour représenter 0
-
[SPARK-40382][SQL] Regrouper les expressions agrégées distinctes par enfants sémantiquement équivalents dans
RewriteDistinctAggregates - Mises à jour de sécurité du système d’exploitation
25 janv. 2023
- [SPARK-41379][SS][PYTHON] Fournir une session Spark clonée dans DataFrame dans la fonction utilisateur pour le sink foreachBatch dans PySpark
- [SPARK-41660][SQL] Ne propager les colonnes de métadonnées que si elles sont utilisées
- [SPARK-41669][SQL] Taille précoce dans canCollapseExpressions
- Divers correctifs de bogues.
18 janvier 2023
- La commande SQL
REFRESH FUNCTIONprend désormais en charge les fonctions SQL et les fonctions table SQL. Par exemple, la commande peut être utilisée pour actualiser une fonction SQL persistante qui a été mise à jour dans une autre session SQL. - La source de données Java Database Connectivity (JDBC) v1 prend désormais en charge la clause pushdown LIMIT afin d’améliorer les performances des requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabledsurfalse. - La source de données Java Database Connectivity (JDBC) v1 prend désormais en charge la clause pushdown LIMIT afin d’améliorer les performances des requêtes. Cette fonctionnalité est activée par défaut et peut être désactivée en définissant spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled sur false.
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace. - [SPARK-41198][SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41539][SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
- [SPARK-39591][SS] Suivi de progression asynchrone
- [SPARK-41199][SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41261][PYTHON][SS] Correction du problème pour applyInPandasWithState quand les colonnes de clés de regroupement ne sont pas placées dans l’ordre à partir du plus vieux
- [SPARK-41339][SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732][SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-38277][SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- Mises à jour de sécurité du système d’exploitation
- La commande SQL
29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
-
csvignoreleadingwhitespace, quand est défini surtrue, supprime l’espace blanc de début des valeurs pendant les écritures lorsquetempformatest défini surCSVouCSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie surfalse. Par défaut, la valeur esttrue. -
csvignoretrailingwhitespace, quand est défini surtrue, supprime l’espace blanc de fin des valeurs pendant les écritures lorsquetempformatest défini surCSVouCSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie surfalse. Par défaut, la valeur esttrue.
-
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypesn’a pas été définie ou définie surfalse) et que le JSON contenait des objets imbriqués. - Mettez à niveau la dépendance
snowflake-jdbcvers la version 3.13.22. - Les types de tables JDBC sont désormais EXTERNAL par défaut.
-
[SPARK-40906][SQL]
Modedoit copier les clés avant l’insertion dans Map - Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
15 novembre 2022
- Les ACL de table et les clusters partagés UC autorisent désormais la méthode Dataset.toJSON à partir de Python.
-
[SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour activer le comportement amélioré, définissez
spark.sql.json.enablePartialResultssurtrue. L’indicateur est désactivé par défaut afin de conserver le comportement d’origine - [SPARK-40903][SQL] Éviter de réorganiser l’ajout décimal pour la canonicalisation si le type de données est modifié
- [SPARK-40618][SQL] Correction d’un bogue dans la règle MergeScalarSubqueries avec des sous-requêtes imbriquées à l’aide du suivi des références
- [SPARK-40697][SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- Mises à jour de sécurité du système d’exploitation
1 novembre 2022
- Flux structuré dans Unity Catalog prend désormais en charge l’actualisation des jetons d’accès temporaires. Les charges de travail de streaming qui s’exécutent avec Unity Catalog tous les clusters d’usage ou de travaux n’échouent plus après l’expiration du jeton initial.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE. - Correction d’un problème où l’exécution
MERGEet l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution dejava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwritesest activé. - Mise à niveau d’Apache commons-text vers 1.10.0.
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] Ajout de la prise en charge de la configuration de MetricsLevel CloudWatch
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- [SPARK-40670][SS][PYTHON] Correction de NPE dans applyInPandasWithState lorsque le schéma d’entrée a des colonnes « non nullables »
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 11.2
Consultez Databricks Runtime 11.2 (EoS).
- 28 février 2023
- [SPARK-42286][SQL] Revenir au chemin de code générique précédent pour les expressions complexes avec CAST
- [SPARK-42346][SQL] Réécrire des agrégats distincts après la fusion de sous-requête
- Mises à jour de sécurité du système d’exploitation
- 16 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent la version 3 de Reader et la version 7 de Writer, à l’aide de Databricks Runtime 9.1 ou d’une version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- La commande SYNC prend en charge la synchronisation des tables du metastore Hive recréées. Si une table HMS a déjà été synchronisée avec Unity Catalog, puis supprimée et recréée, une nouvelle synchronisation fonctionnera au lieu de renvoyer le code d’état TABLE_ALREADY_EXISTS.
- [SPARK-41219][SQL] IntegralDivide utilise decimal(1, 0) pour représenter 0
- Mises à jour de sécurité du système d’exploitation
- 31 janv. 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
- [SPARK-41379][SS][PYTHON] Fournir une session Spark clonée dans DataFrame dans la fonction utilisateur pour le sink foreachBatch dans PySpark
- 18 janv. 2023
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace. - [SPARK-41198][SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41539][SQL] Remapper les statistiques et les contraintes par rapport à la sortie dans le plan logique de LogicalRDD
- [SPARK-41199][SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41339][SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732][SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-38277][SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- Mises à jour de sécurité du système d’exploitation
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
- 29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
-
csvignoreleadingwhitespace, quand est défini surtrue, supprime l’espace blanc de début des valeurs pendant les écritures lorsquetempformatest défini surCSVouCSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie surfalse. Par défaut, la valeur esttrue. -
csvignoretrailingwhitespace, quand est défini surtrue, supprime l’espace blanc de fin des valeurs pendant les écritures lorsquetempformatest défini surCSVouCSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie surfalse. Par défaut, la valeur esttrue.
-
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypesn’a pas été définie ou définie surfalse) et que le JSON contenait des objets imbriqués. -
[SPARK-40906][SQL]
Modedoit copier les clés avant l’insertion dans Map - Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
- 15 novembre 2022
-
[SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour activer le comportement amélioré, définissez
spark.sql.json.enablePartialResultssurtrue. L’indicateur est désactivé par défaut afin de conserver le comportement d’origine - [SPARK-40618][SQL] Correction d’un bogue dans la règle MergeScalarSubqueries avec des sous-requêtes imbriquées à l’aide du suivi des références
- [SPARK-40697][SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour activer le comportement amélioré, définissez
- 1 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE. - Correction d’un problème où l’exécution
MERGEet l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution dejava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwritesest activé - [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- 19 octobre 2022
- Correction d’un problème lié à l’utilisation de COPY INTO avec des informations d’identification temporaires sur des clusters/entrepôts avec Unity Catalog.
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(« spark.databricks.io.listKeysWithPrefix.azure.enabled », « true ») pour réactiver la liste native du chargeur automatique sur ADLS. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur Databricks Runtime 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- [SPARK-40315][SQL] Prise en charge de l’URL encode/décodage en tant que fonction intégrée et fonctions liées à l’URL de nettoyage
-
[SPARK-40156][SQL]
url_decode()doit retourner une classe d’erreur - [SPARK-40169] Ne pas envoyer de filtre Parquet pushdown sans référence au schéma de données
-
[SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de
_metadata - [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- [SPARK-40055][SQL] listCatalogs doit également retourner spark_catalog même quand l’implémentation de spark_catalog est defaultSessionCatalog
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40389][SQL] Les décimales ne peuvent pas effectuer un upcast en tant que types intégraux si le cast peut dépasser
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-40066][SQL][FOLLOW-UP] Vérification si ElementAt est résolu avant d’obtenir son dataType
- [SPARK-40109][SQL] Nouvelle fonction SQL : get()
- [SPARK-40066][SQL] Mode ANSI : retourne toujours null sur l’accès non valide à la colonne mappée
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-35542][ML] Correctif : Bucketizer créé pour plusieurs colonnes avec des paramètres
- [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
- [SPARK-39912]SPARK-39828[SQL] Affiner CatalogImpl
Databricks Runtime 11.1
Consultez Databricks Runtime 11.1 (EoS).
31 janvier 2023
- [SPARK-41379][SS][PYTHON] Fournir une session Spark clonée dans DataFrame dans la fonction utilisateur pour le sink foreachBatch dans PySpark
- Divers correctifs de bogues.
18 janvier 2023
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace. - [SPARK-41198][SS] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1
- [SPARK-41862][SQL] Correction d’un bogue d’exactitude lié aux valeurs DEFAULT dans le lecteur Orc
- [SPARK-41199][SS] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41339][SQL] Fermer et recréer le lot d’écriture RocksDB au lieu de simplement l’effacer
- [SPARK-41732][SQL][SS] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing
- [SPARK-38277][SS] Effacer le lot d’écriture après le commit du magasin d’états RocksDB
- Mises à jour de sécurité du système d’exploitation
- Le connecteur Azure Synapse retourne désormais un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
-
csvignoreleadingwhitespace, quand est défini surtrue, supprime l’espace blanc de début des valeurs pendant les écritures lorsquetempformatest défini surCSVouCSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie surfalse. Par défaut, la valeur esttrue. -
csvignoretrailingwhitespace, quand est défini surtrue, supprime l’espace blanc de fin des valeurs pendant les écritures lorsquetempformatest défini surCSVouCSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie surfalse. Par défaut, la valeur esttrue.
-
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypesn’a pas été définie ou définie surfalse) et que le JSON contenait des objets imbriqués. - [SPARK-39650][SS] Correction d’un schéma de valeur incorrect dans la déduplication de streaming avec compatibilité descendante
- Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
15 novembre 2022
-
[SPARK-40646] LL’analyse JSON pour les structures, les cartes et les tableaux a été corrigée afin que, lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement puisse toujours être analysé correctement au lieu de renvoyer des valeurs nulles. Pour activer ce comportement amélioré, définissez
spark.sql.json.enablePartialResultssurtrue. L’indicateur est désactivé par défaut afin de conserver le comportement d’origine - Mises à jour de sécurité du système d’exploitation
-
[SPARK-40646] LL’analyse JSON pour les structures, les cartes et les tableaux a été corrigée afin que, lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement puisse toujours être analysé correctement au lieu de renvoyer des valeurs nulles. Pour activer ce comportement amélioré, définissez
1 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE. - Correction d’un problème où l’exécution
MERGEet l’utilisation exacte de 99 colonnes de la source dans la condition pouvaient entraîner l’exécution dejava.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwritesest activé - [SPARK-40697][SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
18 octobre 2022
- Correction d’un problème lié à l’utilisation de COPY INTO avec des informations d’identification temporaires sur des clusters/entrepôts avec Unity Catalog.
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(« spark.databricks.io.listKeysWithPrefix.azure.enabled », « true ») pour réactiver la liste native du chargeur automatique sur ADLS. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur Databricks Runtime 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- [SPARK-40169] Ne pas envoyer de filtre Parquet pushdown sans référence au schéma de données
-
[SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de
_metadata - [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- [SPARK-40055][SQL] listCatalogs doit également retourner spark_catalog même quand l’implémentation de spark_catalog est defaultSessionCatalog
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
6 septembre 2022
- Nous avons mis à jour le modèle d’autorisation dans les contrôles d’accès aux tables (ACL de table) afin que seules les autorisations MODIFY soient nécessaires pour modifier le schéma ou les propriétés de table d’une table avec ALTER TABLE. Auparavant, ces opérations exigeaient qu’un utilisateur soit propriétaire de la table. La propriété est toujours requise pour accorder des autorisations sur une table, et modifier son propriétaire, son emplacement ou son nom. Cette modification rend le modèle d’autorisation pour les listes de contrôle d’accès à la table plus cohérent avec Unity Catalog.
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
-
[SPARK-40053][CORE][SQL][TESTS] Ajouter
assumeaux cas d’annulation dynamique nécessitant un environnement de runtime Python - [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
24 août 2022
- Les partages, les fournisseurs et les destinataires prennent désormais en charge les commandes SQL pour modifier les propriétaires, les commentaires, renommer
- [SPARK-39983][CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39912][SPARK-39828][SQL] Affiner CatalogImpl
- [SPARK-39775][CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
- [SPARK-39867][SQL] La limite globale ne doit pas hériter de OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- [SPARK-39839][SQL] Gestion du cas spécial de la décimale de longueur de variable null avec offsetAndSize autre que zéro dans la vérification d’intégrité structurelle UnsafeRow
- [SPARK-39713][SQL] Mode ANSI : ajout d’une suggestion d’utilisation de try_element_at pour l’erreur INVALID_ARRAY_INDEX
- [SPARK-39847][SS] Correction de la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731][SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- Mises à jour de sécurité du système d’exploitation
10 août 2022
- Pour des tables Delta avec contrôle d’accès, une évolution automatique du schéma via des instructions DML telles que
INSERTetMERGEest désormais disponible pour tous les utilisateurs disposant d’autorisationsMODIFYsur ces tables. En outre, les autorisations requises pour opérer l’évolution du schéma avecCOPY INTOsont désormais réduites deOWNERàMODIFYpour la cohérence avec d’autres commandes. Ces modifications rendent le modèle de sécurité d’ACL de table plus cohérent avec le modèle de sécurité de Unity Catalog, ainsi qu’avec d’autres opérations telles que le remplacement de table.
- [SPARK-39889] Améliorer le message d’erreur de division par 0
- [SPARK-39795] [SQL] Nouvelle fonction SQL : try_to_timestamp
- [SPARK-39749] Toujours utiliser une représentation sous forme de chaîne simple lors du forçage de type de la chaîne décimale en mode ANSI
- [SPARK-39625] Renommer df.as en df.to
- [SPARK-39787] [SQL] Utiliser la classe d’erreur dans l’erreur d’analyse de la fonction to_timestamp
- [SPARK-39625] [SQL] Ajouter Dataset.as(StructType)
-
[SPARK-39689] Prise en charge de 2 caractères
lineSepdans la source de données CSV - [SPARK-39579] [SQL][python][R] Make ListFunctions/getFunctions/functionExists compatible avec l’espace de noms de couche 3
- [SPARK-39702] [CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575] [AVRO] Ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39265] [SQL] Corriger l’échec du test lorsque SPARK_ANSI_SQL_MODE est activé
- [SPARK-39441] [SQL] Accélérer DeduplicateRelations
- [SPARK-39497] [SQL] Amélioration de l’exception d’analyse de colonne clé de carte manquante
- [SPARK-39476] [SQL] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- [SPARK-39434] [SQL] Fournir le contexte de requête d’erreur du runtime lorsque l’index de tableau est hors limite
- Pour des tables Delta avec contrôle d’accès, une évolution automatique du schéma via des instructions DML telles que
Databricks Runtime 11.0
Consultez Databricks Runtime 11.0 (EoS).
- 29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
-
csvignoreleadingwhitespace, quand est défini surtrue, supprime l’espace blanc de début des valeurs pendant les écritures lorsquetempformatest défini surCSVouCSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie surfalse. Par défaut, la valeur esttrue. -
csvignoretrailingwhitespace, quand est défini surtrue, supprime l’espace blanc de fin des valeurs pendant les écritures lorsquetempformatest défini surCSVouCSV GZIP. Les espaces blancs sont conservés lorsque la configuration est définie surfalse. Par défaut, la valeur esttrue.
-
- Correction d’un bogue avec l’analyse JSON dans Auto Loader lorsque toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypesn’a pas été définie ou définie surfalse) et que le JSON contenait des objets imbriqués. - [SPARK-39650][SS] Correction d’un schéma de valeur incorrect dans la déduplication de streaming avec compatibilité descendante
- Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
- 15 novembre 2022
-
[SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour activer le comportement amélioré, définissez
spark.sql.json.enablePartialResultssurtrue. L’indicateur est désactivé par défaut afin de conserver le comportement d’origine.
-
[SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour activer le comportement amélioré, définissez
- 1 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwritesest activé - [SPARK-40697][SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- 18 octobre 2022
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(« spark.databricks.io.listKeysWithPrefix.azure.enabled », « true ») pour réactiver la liste native du chargeur automatique sur ADLS. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur Databricks Runtime 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- [SPARK-40169] Ne pas envoyer de filtre Parquet pushdown sans référence au schéma de données
-
[SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de
_metadata - [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- [SPARK-40152][SQL] Correction split_part du problème de compilation codegen
- 6 septembre 2022
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-40212][SQL] SparkSQL castPartValue ne gère pas correctement byte, short ou float
- [SPARK-40218][SQL] GROUPING SETS devrait conserver les colonnes de regroupement
- [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
-
[SPARK-40053][CORE][SQL][TESTS] Ajouter
assumeaux cas d’annulation dynamique nécessitant un environnement de runtime Python - [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
- 24 août 2022
- [SPARK-39983][CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39775][CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
- [SPARK-39867][SQL] La limite globale ne doit pas hériter de OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- Mises à jour de sécurité du système d’exploitation
- 9 août 2022
- [SPARK-39713][SQL] Mode ANSI : ajout d’une suggestion d’utilisation de try_element_at pour l’erreur INVALID_ARRAY_INDEX
- [SPARK-39847] Corriger la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731][SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- [SPARK-39889] Améliorer le message d’erreur de division par 0
- [SPARK-39795] [SQL] Nouvelle fonction SQL : try_to_timestamp
- [SPARK-39749] Toujours utiliser une représentation sous forme de chaîne simple lors du forçage de type de la chaîne décimale en mode ANSI
- [SPARK-39625][SQL] Ajouter Dataset.to(StructType)
- [SPARK-39787] [SQL] Utiliser la classe d’erreur dans l’erreur d’analyse de la fonction to_timestamp
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
-
[SPARK-39689] Prise en charge de 2 caractères
lineSepdans la source de données CSV - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39702] [CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575] [AVRO] Ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39497] [SQL] Amélioration de l’exception d’analyse de colonne clé de carte manquante
- [SPARK-39441] [SQL] Accélérer DeduplicateRelations
- [SPARK-39476] [SQL] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- [SPARK-39434] [SQL] Fournir le contexte de requête d’erreur du runtime lorsque l’index de tableau est hors limite
- [SPARK-39570][SQL] La table incluse devrait autoriser les expressions avec alias
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-39689] Prise en charge de 2 caractères
- 13 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- Correction d’un problème pour la fonction table (TVF) cloud_files_state lors de l’exécution sur des chemins autres que DBFS.
- Désactivation de l'utilisation par l'Auto Loader des API cloud natives pour le listage des répertoires sur Azure.
- [SPARK-38796][SQL] Mise à jour des fonctions to_number et try_to_number pour autoriser une demande de tirage (PR) avec des nombres positifs
- [SPARK-39272][SQL] Augmentation de la position de début du contexte de requête de 1
- [SPARK-39419][SQL] Correction de ArraySort pour lever une exception lorsque le comparateur retourne null
- Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
- Amélioration des messages d’erreur pour une série de classes d’erreurs.
- [SPARK-39451][SQL] Prise en charge du cast des intervalles en entiers en mode ANSI
- [SPARK-39361] N’utilisez pas le modèle de conversion extensible de Log4J2 dans les configurations de journalisation par défaut
-
[SPARK-39354][SQL] Affichage de
Table or view not foundmême s’il y a desdataTypeMismatchErrorrelatives àFilteren même temps - [SPARK-38675][CORE] Correction de la compétition pendant le déverrouillage dans BlockInfoManager
- [SPARK-39392][SQL] Gestion plus fine des messages d’erreur ANSI pour les conseils de la fonction try_*
- [SPARK-39214][SQL][3.3] Amélioration des erreurs liées à CAST
- [SPARK-37939][SQL] Utilisation de classes d’erreurs dans les erreurs d’analyse des propriétés
-
[SPARK-39085][SQL] Déplacer le message d’erreur de
INCONSISTENT_BEHAVIOR_CROSS_VERSIONvers error-classes.json - [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 10.5
Consultez Databricks Runtime 10.5 (EoS).
- 1 novembre 2022
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE. - [SPARK-40697][SQL] Ajouter un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596][CORE] Remplir ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- Correction d’un problème où si une table Delta avait une colonne définie par l’utilisateur nommée
- 18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Les utilisateurs peuvent définir spark.conf.set(« spark.databricks.io.listKeysWithPrefix.azure.enabled », « true ») pour réactiver la liste native du chargeur automatique sur ADLS. La liste native a été précédemment désactivée en raison de problèmes de performances, mais elle a peut-être entraîné une augmentation des coûts de stockage pour les clients. Cette modification a été déployée sur Databricks Runtime 10.4 et 9.1 dans la mise à jour de maintenance précédente.
- reload4j a été mis à niveau vers la version 1.2.19 pour corriger les vulnérabilités.
-
[SPARK-40460][SS] Correction des métriques de streaming lors de la sélection de
_metadata - [SPARK-40468][SQL] Correction de la taille des colonnes au format CSV lorsque _corrupt_record est sélectionné
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2022
- [SPARK-40315][SQL] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40213][SQL] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- [SPARK-40380][SQL] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-38404][SQL] Amélioration de la résolution CTE lorsqu’un CTE imbriqué fait référence à un CTE externe
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
- [SPARK-39887][SQL] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- Mises à jour de sécurité du système d’exploitation
- 6 septembre 2022
- [SPARK-40235][CORE] Utiliser un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-39976][SQL] ArrayIntersect devrait correctement gérer la valeur null dans l’expression de gauche
-
[SPARK-40053][CORE][SQL][TESTS] Ajouter
assumeaux cas d’annulation dynamique nécessitant un environnement de runtime Python - [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
- 24 août 2022
- [SPARK-39983][CORE][SQL] Non mises en cache des relations de diffusion non sérialisées sur le pilote
- [SPARK-39775][CORE][AVRO] Désactiver les valeurs par défaut lors de l’analyse des schémas Avro
- [SPARK-39806] Correction du problème lié aux requêtes qui accèdent à l’incident du struct METADATA sur les tables partitionnées
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- [SPARK-37643][SQL] Lorsque charVarcharAsString a la valeur true, pour que la requête de prédicat de type de données char ignore la règle rpadding
- Mises à jour de sécurité du système d’exploitation
- 9 août 2022
- [SPARK-39847] Corriger la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731][SQL] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format « aaaaMMjj » avec une stratégie d’analyseur de temps CORRIGÉE
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
- [SPARK-39625] [SQL] Ajouter Dataset.as(StructType)
-
[SPARK-39689] Prise en charge de 2 caractères
lineSepdans la source de données CSV - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39570][SQL] La table incluse devrait autoriser les expressions avec alias
- [SPARK-39702] [CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- [SPARK-39575] [AVRO] Ajouter ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer
- [SPARK-39476] [SQL] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- Mises à jour de sécurité du système d’exploitation
- 13 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39355][SQL] Une colonne unique utilise des guillemets pour construire UnresolvedAttribute
- [SPARK-39548][SQL] La commande CreateView avec une requête de clause de fenêtre a rencontré un problème introuvable de définition de fenêtre incorrecte
- [SPARK-39419][SQL] Correction de ArraySort pour lever une exception lorsque le comparateur retourne null
- Désactivation de l'utilisation par l'Auto Loader des API cloud natives pour le listage des répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
- [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
-
[SPARK-36718][SQL][FOLLOWUP] Corriger la vérification
isExtractOnlydans CollapseProject
- 2 juin 2022
- [SPARK-39166][SQL] Fournir le contexte de requête d’erreur d’exécution pour l’arithmétique binaire lorsque WSCG est désactivé
- [SPARK-39093][SQL] Éviter une erreur de compilation codegen lors de la division des intervalles d’année-mois ou des intervalles de jours-heures par une intégrale
- [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-38868][SQL]Ne propagez pas les exceptions du prédicat de filtre lors de l’optimisation des jointures externes
- [SPARK-38796][SQL] Implémentation des fonctions SQL to_number et try_to_number selon une nouvelle spécification
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-38929][SQL] Amélioration des messages d’erreur pour les échecs de cast en ANSI
- [SPARK-38926][SQL] Types de sortie dans les messages d’erreur dans le style SQL
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-32268][SQL] Ajout de ColumnPruning dans injectBloomFilter
- [SPARK-38908][SQL] Contexte de requête fourni dans l’erreur d’exécution du cast du type String vers Number/Date/Timestamp/Boolean
- [SPARK-39046][SQL] Retour d’une chaîne de contexte vide si TreeNode.origin est mal défini
- [SPARK-38974][SQL] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
- [SPARK-38762][SQL] Contexte de requête fourni dans les erreurs de dépassement Decimal
- [SPARK-38931][SS] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
- [SPARK-38992][CORE] Non utilisation de bash -c dans ShellBasedGroupsMappingProvider
- [SPARK-38716][SQL] Contexte de requête fourni dans l’erreur indiquant que la clé de carte n’existe pas
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- [SPARK-38698][SQL] Contexte de requête fourni dans l’erreur d’exécution de Divide/Div/Reminder/Pmod
-
[SPARK-38823][SQL] Fait en sorte que
NewInstancene peut pas être plié pour corriger le problème de corruption de tampon d’agrégation - [SPARK-38809][SS] Implémentation de l’option pour ignorer les valeurs Null dans l’implémentation du hachage symétrique des jointures de flux
- [SPARK-38676][SQL] Contexte de requête SQL fourni dans le message d’erreur d’exécution de Add/Substract/Multiply
- [SPARK-38677][PYSPARK] Python MonitorThread doit détecter le blocage en raison des E/S bloquantes
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 10.3
Consultez Databricks Runtime 10.3 (EoS).
- 27 juillet 2022
-
[SPARK-39689] Prise en charge de 2 caractères
lineSepdans la source de données CSV - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded devrait être thread-safe
- [SPARK-39702] [CORE] Réduire la surcharge mémoire de TransportCipher$EncryptedMessage à l’aide d’un byteRawChannel partagé
- Mises à jour de sécurité du système d’exploitation
-
[SPARK-39689] Prise en charge de 2 caractères
- 20 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39476] [SQL] Désactiver l’optimisation du cast de désenveloppement lors de la conversion de Long à Float/Double ou d’Entier à Float
- [SPARK-39548][SQL] La commande CreateView avec une requête de clause de fenêtre a rencontré un problème introuvable de définition de fenêtre incorrecte
- [SPARK-39419][SQL] Correction de ArraySort pour lever une exception lorsque le comparateur retourne null
- Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
- [SPARK-39376][SQL] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
-
[SPARK-36718][SQL][FOLLOWUP] Corriger la vérification
isExtractOnlydans CollapseProject
- 2 juin 2022
- [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-37593][CORE] Réduction de la taille de page par défaut selon LONG_ARRAY_OFFSET si G1GC et ON_HEAP sont utilisés
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-32268][SQL] Ajout de ColumnPruning dans injectBloomFilter
- [SPARK-38974][SQL] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- Mises à jour de sécurité du système d’exploitation
- 4 mai 2022
- Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
- 19 avril 2022
- [SPARK-38616][SQL] Suivi du texte de requête SQL dans Catalyst TreeNode
- Mises à jour de sécurité du système d’exploitation
- 6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- Le répertoire de travail actuel des notebooks sur les clusters à haute concurrence avec le contrôle d’accès aux tables ou le transfert d’informations d’identification activé a été modifié pour pointer vers le répertoire de base de l’utilisateur. Auparavant, le répertoire de travail était
/databricks/driver. - [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
- Le répertoire de travail actuel des notebooks sur les clusters à haute concurrence avec le contrôle d’accès aux tables ou le transfert d’informations d’identification activé a été modifié pour pointer vers le répertoire de base de l’utilisateur. Auparavant, le répertoire de travail était
- 14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
-
[SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter
SPARK_JOB_INTERRUPT_ON_CANCEL - [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
- 23 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet
Databricks Runtime 10.2
Consultez Databricks Runtime 10.2 (EoS).
- 15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
- 2 juin 2022
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-38990][SQL] Éviter NullPointerException lors de l’évaluation du format date_trunc/trunc comme référence liée
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- [SPARK-38931][SS] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés au premier point de contrôle
- Mises à jour de sécurité du système d’exploitation
- 4 mai 2022
- Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
- 19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
- 6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- Le répertoire de travail actuel des notebooks sur les clusters à haute concurrence avec le contrôle d’accès aux tables ou le transfert d’informations d’identification activé a été modifié pour pointer vers le répertoire de base de l’utilisateur. Auparavant, le répertoire de travail était
/databricks/driver. - [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
- Le répertoire de travail actuel des notebooks sur les clusters à haute concurrence avec le contrôle d’accès aux tables ou le transfert d’informations d’identification activé a été modifié pour pointer vers le répertoire de base de l’utilisateur. Auparavant, le répertoire de travail était
- 14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
-
[SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter
SPARK_JOB_INTERRUPT_ON_CANCEL - [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
- 23 février 2022
- [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
- 8 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet.
- Mises à jour de sécurité du système d’exploitation
- 1 février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janv. 2022
- Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
- 19 janv. 2022
- Introduction de la prise en charge de l’insertion d’informations d’identification temporaires dans COPY INTO pour le chargement des données sources sans nécessiter les autorisations SQL ANY_FILE
- Correctifs de bogues et améliorations de la sécurité
- 20 décembre 2021
- Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.
Databricks Runtime 10.1
Consultez Databricks Runtime 10.1 (EoS).
- 15 juin 2022
- [SPARK-39283][CORE] Corriger un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator
- [SPARK-39285][SQL] Spark ne doit pas vérifier les noms de champs lors de la lecture des fichiers
- [SPARK-34096][SQL] Améliorer les performances pour que nth_value ignore les valeurs Null sur une fenêtre de décalage
- 2 juin 2022
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Corrige une fuite de mémoire native potentielle dans Auto Loader.
- [SPARK-39084][PYSPARK] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche
- [SPARK-38889][SQL] Compilation des filtres de colonne booléenne pour utiliser le type bit pour la source de données MSSQL
- Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
- [SPARK-37270][SQL] Correction d’envoi pliable dans des branches CaseWhen si elseValue est vide
- Mises à jour de sécurité du système d’exploitation
- 6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
- 14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
-
[SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter
SPARK_JOB_INTERRUPT_ON_CANCEL - [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
- 23 février 2022
- [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
- 8 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet.
- Mises à jour de sécurité du système d’exploitation
- 1 février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janv. 2022
- Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
- 19 janv. 2022
- Introduction de la prise en charge de l’insertion d’informations d’identification temporaires dans COPY INTO pour le chargement des données sources sans nécessiter les autorisations SQL ANY_FILE
- Correction d’un problème de mémoire insuffisante avec la mise en cache des résultats des requêtes dans certaines conditions
- Correction d’un problème avec
USE DATABASElorsqu’un utilisateur change le catalogue actuel pour un catalogue non défini par défaut - Correctifs de bogues et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
- 20 décembre 2021
- Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.
Databricks Runtime 10.0
Consultez Databricks Runtime 10.0 (EoS).
- 19 avril 2022
- [SPARK-37270][SQL] Correction d’envoi pliable dans des branches CaseWhen si elseValue est vide
- Mises à jour de sécurité du système d’exploitation
- 6 avril 2022
- [SPARK-38631][CORE] Utilise une implémentation basée sur Java à des fins de désarchivage tar sur Utils.unpack
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- [SPARK-38437][SQL] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180][SQL] Autoriser les expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155][SQL] Interdire tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-38325][SQL] Mode ANSI : éviter une erreur d’exécution potentielle dans HashJoin.extractKeyExprAt()
- 14 mars 2022
- Amélioration de la détection des conflits de transaction pour les transactions vides dans Delta Lake
- [SPARK-38185][SQL] Correction des données incorrectes si la fonction d’agrégation est vide
- [SPARK-38318][SQL] Régression lors du remplacement d’une vue de jeu de données
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table create/alter sont traités comme relatifs
- [SPARK-35937][SQL] L’extraction du champ de date du timestamp doit fonctionner en mode ANSI
-
[SPARK-34069][SQL] Tuer des tâches de cloisonnement doit respecter
SPARK_JOB_INTERRUPT_ON_CANCEL - [SPARK-37707][SQL] Autorisation de l’affectation de magasin entre TimestampNTZ et Date/Timestamp
- 23 février 2022
- [SPARK-37577][SQL] Correction de ClassCastException : ArrayType ne peut pas être converti en StructType pour Générer le nettoyage
- 8 février 2022
- [SPARK-27442][SQL] Suppression de la vérification du nom du champ lors de la lecture/écriture de données en Parquet.
- [SPARK-36905][SQL] Correction de la lecture des vues d’une ruche sans nom de colonne explicite
- [SPARK-37859][SQL] Correction du problème selon lequel les tables SQL créées avec JDBC avec Spark 3.1 ne sont pas lisibles avec la version 3.2
- Mises à jour de sécurité du système d’exploitation
- 1 février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janv. 2022
- Correction d’un bogue dans lequel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
- 19 janv. 2022
- Correctifs de bogues et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
- 20 décembre 2021
- Correction d’un bogue rare avec le filtrage basé sur les index de colonne Parquet.
- 9 novembre 2021
- Introduction d’indicateurs de configuration supplémentaires pour permettre un contrôle affiné des comportements ANSI
- 4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for schemeou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfigurationn’entrent pas en vigueur dans les requêtes. - Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
- 30 novembre 2021
- Correction d’un problème avec l’analyse des timestamps où une chaîne de fuseau horaire sans deux-points était considérée comme non valide
- Correction d’un problème de mémoire insuffisante avec la mise en cache des résultats des requêtes dans certaines conditions
- Correction d’un problème avec
USE DATABASElorsqu’un utilisateur change le catalogue actuel pour un catalogue non défini par défaut
Databricks Runtime 9.0
Consultez Databricks Runtime 9.0 (EoS).
- 8 février 2022
- Mises à jour de sécurité du système d’exploitation
- 1 février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janv. 2022
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
- 19 janv. 2022
- Correctifs de bogues et améliorations de la sécurité
- Mises à jour de sécurité du système d’exploitation
- 4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for schemeou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfigurationn’entrent pas en vigueur dans les requêtes. - Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
- 22 septembre 2021
- Correction d’un bogue dans le tableau Spark de conversion avec NULL en chaîne
- 15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
- 8 septembre 2021
- Ajout de la prise en charge du nom de schéma (format
databaseName.schemaName.tableName) comme nom de table cible pour le connecteur Azure Synapse - Ajout de la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- [SPARK-33527][SQL] Extension de la fonction de décodage pour être cohérent avec les bases de données classiques
-
[SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnectedpour éviterexecutorsconnectedafin de ne pas bloquer l’arrêt des exécuteurs
- Ajout de la prise en charge du nom de schéma (format
- 25 août 2021
- La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
- Correction du lien rompu vers le meilleur notebook d’essai sur la page d’expérience AutoML
Databricks Runtime 8.4
Consultez Databricks Runtime 8.4 (EoS).
19 janvier 2022
- Mises à jour de sécurité du système d’exploitation
4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for schemeou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfigurationn’entrent pas en vigueur dans les requêtes. - Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
22 septembre 2021
- Le pilote JDBC de Spark a été mis à niveau vers la version 2.6.19.1030
- [SPARK-36734][SQL] Mise à niveau d’ORC vers la version 1.5.1
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x - Mises à jour de sécurité du système d’exploitation
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
8 septembre 2021
-
[SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnectedpour éviterexecutorsconnectedafin de ne pas bloquer l’arrêt des exécuteurs
-
[SPARK-36532][CORE][3.1] Correction du blocage dans
25 août 2021
- La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
- Correction d’un bogue dans le passage des informations d’identification causé par la nouvelle optimisation des prérécupérations de Parquet, où les informations d’identification directes de l’utilisateur peuvent ne pas être trouvées pendant l’accès au fichier.
11 août 2021
- Corrige un problème d’incompatibilité avec RocksDB qui empêchait l’utilisation de l’ancienne version Databricks Runtime 8.4. Cela corrige la compatibilité ascendante pour les applications Auto Loader,
COPY INTOet de streaming avec état - Corrige un bogue lors de l’utilisation d’Auto Loader pour lire des fichiers CSV dont les fichiers d’en-tête ne correspondent pas. Si les noms des colonnes ne correspondent pas, la colonne est remplie de valeurs NULL. Désormais, si un schéma est fourni, il suppose que le schéma est le même et n’enregistre les différences de colonnes que si les colonnes de données récupérées sont activées
- Ajoute une nouvelle option appelée
externalDataSourcedans le connecteur Azure Synapse pour supprimer l’exigence d’autorisationCONTROLsur la base de données pour la lecture de PolyBase
- Corrige un problème d’incompatibilité avec RocksDB qui empêchait l’utilisation de l’ancienne version Databricks Runtime 8.4. Cela corrige la compatibilité ascendante pour les applications Auto Loader,
29 juillet 2021
- [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
-
[SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
connectionProvider
Databricks Runtime 8.3
Consultez Databricks Runtime 8.3 (EoS).
19 janvier 2022
- Mises à jour de sécurité du système d’exploitation
4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for schemeou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfigurationn’entrent pas en vigueur dans les requêtes.
22 septembre 2021
- Le pilote JDBC de Spark a été mis à niveau vers la version 2.6.19.1030
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x - Mises à jour de sécurité du système d’exploitation
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
-
[SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnectedpour éviterexecutorsconnectedafin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- La bibliothèque de pilotes SQL Server a été mise à niveau vers la version 9.2.1.jre8
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
- Correction d’un bogue dans le passage des informations d’identification causé par la nouvelle optimisation des prérécupérations de Parquet, où les informations d’identification directes de l’utilisateur peuvent ne pas être trouvées pendant l’accès au fichier.
11 août 2021
- Corrige un bogue lors de l’utilisation d’Auto Loader pour lire des fichiers CSV dont les fichiers d’en-tête ne correspondent pas. Si les noms des colonnes ne correspondent pas, la colonne est remplie de valeurs NULL. Désormais, si un schéma est fourni, il suppose que le schéma est le même et n’enregistre les différences de colonnes que si les colonnes de données récupérées sont activées
29 juillet 2021
- Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
- [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
-
[SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
connectionProvider
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Introduction du format
database.schema.tablepour le connecteur Synapse - Ajout d’une prise en charge pour fournir le format
databaseName.schemaName.tableNamecomme table cible au lieu de seulementschemaName.tableNameoutableName
15 juin 2021
- Correction d’un bogue
NoSuchElementExceptiondans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs - Ajoute les commandes SQL
CREATE GROUP,DROP GROUP,ALTER GROUP,SHOW GROUPSetSHOW USERSPour plus d’informations, consultez Instructions de sécurité et Instructions d’affichage.
- Correction d’un bogue
Databricks Runtime 8.2
Consultez Databricks Runtime 8.2 (EoS).
22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
-
[SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnectedpour éviterexecutorsconnectedafin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
- Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
-
[SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
connectionProvider
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Introduction du format
database.schema.tablepour le connecteur Synapse - Ajout d’une prise en charge pour fournir le format
databaseName.schemaName.tableNamecomme table cible au lieu de seulementschemaName.tableNameoutableName - Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
15 juin 2021
- Corrige un bogue
NoSuchElementExceptiondans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
- Corrige un bogue
26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- Correction d’un problème de mémoire insuffisante lorsqu’Auto Loader rapporte les métriques de progression de Structured Streaming
Databricks Runtime 8.1
Consultez Databricks Runtime 8.1 (EoS).
22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
-
[SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnectedpour éviterexecutorsconnectedafin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
- Mise à jour du connecteur Databricks Snowflake Spark vers la version 2.9.0-spark-3.1
-
[SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
connectionProvider
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
15 juin 2021
- Corrige un bogue
NoSuchElementExceptiondans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
- Corrige un bogue
26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- Correction d’un problème de mémoire insuffisante lorsqu’Auto Loader rapporte les métriques de progression de Structured Streaming
27 avril 2021
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- [SPARK-34856][SQL] Mode ANSI : Autorise le cast de types complexes en type de chaîne
- [SPARK-35014] Corrige le modèle PhysicalAggregation pour ne pas réécrire les expressions pliables
- [SPARK-34769][SQL] AnsiTypeCoercion : renvoie le type convertible le plus étroit parmi TypeCollection
- [SPARK-34614][SQL] Mode ANSI : Le cast d’une valeur Chaîne en Booléenne déclenche une exception en cas d’erreur d’analyse
- [SPARK-33794][SQL] Mode ANSI : Corrige l’expression NextDay pour qu’elle lève l’exception IllegalArgumentException lors de la réception d’une entrée non valide dans le cadre de l’exécution
Databricks Runtime 8.0
Consultez Databricks Runtime 8.0 (EoS).
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
-
[SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
connectionProvider
-
[SPARK-36163][BUILD] Propage les propriétés JDBC correctes dans le fournisseur du connecteur JDBC et ajoute l’option
14 juillet 2021
- Correction d’un problème lors de l’utilisation de noms de colonnes avec des points dans le connecteur Azure Synapse
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
24 mars 2021
- [SPARK-34681][SQL] Corrige le bogue lié à une jointure hachée aléatoire externe complète lors de la création du côté gauche avec une condition non égale
- [SPARK-34534] Corrige l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
- [SPARK-34613][SQL] Corrige la vue ne capturant pas la configuration du conseil de désactivation
9 mars 2021
-
[SPARK-34543][SQL] Respect de la configuration
spark.sql.caseSensitivelors de la résolution des spécifications de partition dansSET LOCATIONversion 1 - [SPARK-34392][SQL] Prise en charge de ZoneOffset +h:mm dans DateTimeUtils. getZoneId
- [UI] Corrige le lien href de la visualisation DAG de Spark
- [SPARK-34436][SQL] DPP prend en charge l’expression LIKE ANY/ALL
-
[SPARK-34543][SQL] Respect de la configuration
Databricks Runtime 7.6
Consultez Databricks Runtime 7.6 (EoS).
11 août 2021
- [SPARK-36034][SQL] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
29 juillet 2021
- [SPARK-32998][BUILD] Ajout de la possibilité de remplacer les référentiels distants par défaut par des référentiels internes uniquement
14 juillet 2021
- Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Corrige l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
9 mars 2021
- (Azure uniquement) Correction d’un bogue lié à Auto Loader pouvant entraîner une exception NullPointerException lors de l’utilisation de Databricks Runtime 7.6 pour exécuter un ancien flux Auto Loader créé dans Databricks Runtime 7.2
- [UI] Corrige le lien href de la visualisation DAG de Spark
- Le SparkPlan de nœud terminal inconnu n’est pas traité correctement dans SizeInBytesOnlyStatsSparkPlanVisitor
- Restaure le schéma de sortie de
SHOW DATABASES - [Delta] [8.0, 7.6] Correction d’un bogue de calcul dans la logique de réglage automatique de la taille des fichiers
- Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- Désactive la prise en charge du type char dans les chemins de code non SQL
- Évite un NPE dans DataFrameReader.schema
- Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
- Corrige un bogue de lecture de flux fermé dans Azure Auto Loader
- [SQL] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui entraînait le retour de résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet étaient différentes du schéma Spark.
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser - [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-34260][SQL] Correction de UnresolvedException lors de la création d’une vue temporaire à deux reprises
Databricks Runtime 7.5
Consultez Databricks Runtime 7.5 (EoS).
26 mai 2021
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Corrige l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
9 mars 2021
- (Azure uniquement) Correction d’un bogue lié à Auto Loader pouvant entraîner une exception NullPointerException lors de l’utilisation de Databricks Runtime 7.5 pour exécuter un ancien flux Auto Loader créé dans Databricks Runtime 7.2
- [UI] Corrige le lien href de la visualisation DAG de Spark
- Le SparkPlan de nœud terminal inconnu n’est pas traité correctement dans SizeInBytesOnlyStatsSparkPlanVisitor
- Restaure le schéma de sortie de
SHOW DATABASES - Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- Désactive la prise en charge du type char dans les chemins de code non SQL
- Évite un NPE dans DataFrameReader.schema
- Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
- Corrige un bogue de lecture de flux fermé dans Azure Auto Loader
24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui entraînait le retour de résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet étaient différentes du schéma Spark.
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser - [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-34260][SQL] Correction de UnresolvedException lors de la création d’une vue temporaire à deux reprises
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée - Introduction de vérifications du temps d’écriture dans le client Hive pour empêcher l’endommagement des métadonnées dans le metastore Hive pour les tables Delta
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond) - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
12 janvier 2021
- Mise à niveau du Kit de développement logiciel (SDK) Stockage Azure de la version 2.3.8 à la version 2.3.9
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33480][SQL] Mise à jour du message d’erreur de la vérification de la longueur d’insertion des tables char/varchar
Databricks Runtime 7.3 LTS
Consultez Databricks Runtime 7.3 LTS (EoS).
10 septembre 2023
- Divers correctifs de bogues.
30 août 2023
- Mises à jour de sécurité du système d’exploitation
15 août 2023
- Mises à jour de sécurité du système d’exploitation
23 juin 2023
- La bibliothèque Snowflake-jdbc a été mise à niveau vers la version 3.13.29 afin de résoudre un problème de sécurité.
- Mises à jour de sécurité du système d’exploitation
15 juin 2023
-
[SPARK-43413][SQL] Correction de la nullité des sous-requêtes
INListQuery. - Mises à jour de sécurité du système d’exploitation
-
[SPARK-43413][SQL] Correction de la nullité des sous-requêtes
2 juin 2023
- Correction d’un problème dans Auto Loader où différents formats de fichiers source étaient incohérents lorsque le schéma fourni n’incluait pas les partitions déduites. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers comportant des colonnes manquantes dans le schéma de partition déduit.
17 mai 2023
- Mises à jour de sécurité du système d’exploitation
25 avril 2023
- Mises à jour de sécurité du système d’exploitation
mardi 11 avril 2023
- [SPARK-42967][CORE] Corrige SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est lancée après l’annulation de l’étape.
- Divers correctifs de bogues.
29 mars 2023
- Mises à jour de sécurité du système d’exploitation
14 mars 2023
- Divers correctifs de bogues.
28 février 2023
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- Mises à jour de sécurité du système d’exploitation
31 janvier 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
18 janvier 2023
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Divers correctifs de bogues.
15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
1 novembre 2022
- [SPARK-38542][SQL] UnsafeHashedRelation doit sérialiser numKeys
18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
5 octobre 2022
- Divers correctifs de bogues.
- Mises à jour de sécurité du système d’exploitation
22 septembre 2022
- [SPARK-40089][SQL] Correction du tri pour certains types décimaux
6 septembre 2022
- [SPARK-35542][CORE][ML] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079][CORE] Ajouter une validation d’inputCols en cas d’entrée vide
24 août 2022
- [SPARK-39962][PYTHON][SQL] Application de la projection lorsque les attributs de groupe sont vides
- Mises à jour de sécurité du système d’exploitation
mardi 9 août 2022
- Mises à jour de sécurité du système d’exploitation
27 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
13 juillet 2022
- [SPARK-32680][SQL] Ne pas préprocesser V2 CTAS avec une requête non résolue
- Désactivation de l'utilisation par l'Auto Loader des API cloud natives pour le listage des répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
2 juin 2022
- [SPARK-38918][SQL] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- Mises à jour de sécurité du système d’exploitation
18 mai 2022
- Mise à niveau la version du kit SDK AWS de la version 1.11.655 vers la version 1.11.678.
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
6 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
14 mars 2022
- Suppression des classes vulnérables du jar de log4j 1.2.17
- Divers correctifs de bogues.
23 février 2022
- [SPARK-37859][SQL] Ne vérifie pas les métadonnées pendant la comparaison des schémas
8 Février 2022
- Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
- Mises à jour de sécurité du système d’exploitation
1er février 2022
- Mises à jour de sécurité du système d’exploitation
26 janvier 2022
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
19 janvier 2022
- Le canal Conda par défaut est supprimé de la version 7.3 ML LTS
- Mises à jour de sécurité du système d’exploitation
7 décembre 2021
- Mises à jour de sécurité du système d’exploitation
4 novembre 2021
- Correction d’un bogue qui pouvait entraîner l’échec des flux Structured Streaming avec une exception ArrayIndexOutOfBoundsException
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for schemeou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfigurationn’entrent pas en vigueur dans les requêtes.
15 septembre 2021
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x - Mises à jour de sécurité du système d’exploitation
- Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
8 septembre 2021
- [SPARK-35700][SQL][WARMFIX] Lecture de la table orc char/varchar lorsque créée et écrite par des systèmes externes
-
[SPARK-36532][CORE][3.1] Correction du blocage dans
CoarseGrainedExecutorBackend.onDisconnectedpour éviterexecutorsconnectedafin de ne pas bloquer l’arrêt des exécuteurs
25 août 2021
- Le connecteur Snowflake a été mis à niveau vers la version 2.9.0
29 juillet 2021
- [SPARK-36034][BUILD] Rebase DateHeure dans les filtres faisant l’objet d’un pushdown en Parquet
-
[SPARK-34508][BUILD] Ignore
HiveExternalCatalogVersionsSuitesi le réseau est en panne
14 juillet 2021
- Introduction du format
database.schema.tablepour le connecteur Azure Synapse - Ajout d’une prise en charge pour fournir le format
databaseName.schemaName.tableNamecomme table cible au lieu de seulementschemaName.tableNameoutableName - Correction d’un bogue qui empêchait les utilisateurs de passer aux anciennes versions disponibles avec les tables Delta
- Introduction du format
15 juin 2021
- Corrige un bogue
NoSuchElementExceptiondans les écritures optimisées de Delta Lake qui peut se produire lors de l’écriture de grandes quantités de données et lors de pertes d’exécuteurs
- Mise à jour de Python avec correctif de sécurité pour corriger la vulnérabilité de sécurité Python (CVE-2021-3177)
- Corrige un bogue
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- [SPARK-35045][SQL] Ajoute une option interne pour contrôler la mémoire tampon d’entrée dans univocity
24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Corrige l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
- [SPARK-33118][SQL]CREATE TEMPORARY TABLE échoue avec la localisation
9 mars 2021
- Le pilote de système de fichiers blob Azure mis à jour pour Azure Data Lake Storage est désormais activé par défaut. Il apporte plusieurs améliorations en matière de stabilité
- Correction du séparateur de chemin sous Windows pour
databricks-connect get-jar-dir - [UI] Corrige le lien href de la visualisation DAG de Spark
- [DBCONNECT] Ajout de la prise en charge de FlatMapCoGroupsInPandas dans Databricks Connect 7.3
- Restaure le schéma de sortie de
SHOW DATABASES - [SQL] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SQL] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui entraînait le retour de résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet étaient différentes du schéma Spark.
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser - [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-33579][UI] Correction de la page blanche de l’exécuteur derrière un proxy
- [SPARK-20044][UI] Prise en charge de l’interface utilisateur Spark derrière le proxy inverse frontal à l’aide d’un préfixe de chemin d’accès
- [SPARK-33277][PYSPARK][SQL] Utilise ContextAwareIterator pour arrêter la consommation après la fin de la tâche
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée - Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond) - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33592][ML][PYTHON] Les paramètres du validateur ML de Pyspark dans estimatorParamMaps peuvent être perdus après enregistrement et rechargement
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-33587][CORE] Tuer l’exécuteur en cas d’erreurs irrécupérables imbriquées
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33316][SQL] Prise en charge du schéma Avro pouvant accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique ne pouvant pas accepter la valeur Null dans l’écriture Avro
- Les travaux Spark lancés à l’aide de Databricks Connecter peuvent se bloquer indéfiniment avec
Executor$TaskRunner.$anonfun$copySessionStatedans la trace de l’exécuteur - Mises à jour de sécurité du système d’exploitation
- 1er décembre 2020
-
[SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
date_trunc - [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
-
[SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
5 novembre 2020
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne
UserGroupInformation.getCurrentUser() - Correction d’un bogue de boucle infinie lorsque le lecteur Avro lit les octets MAGIC
- Ajout de la prise en charge du
USAGEprivilège - Amélioration des performances pour la vérification des privilèges dans le contrôle d’accès aux tables
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- Vous pouvez lire et écrire à partir de DBFS à l’aide du montage FUSE au niveau de /dbfs/ lorsque vous êtes sur un cluster à forte concurrence et dont le passage des informations d’identification est activé. Les montages ordinaires sont pris en charge, mais les montages nécessitant des informations d’identification directes ne le sont pas encore
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- [SPARK-32585][SQL] Prise en charge de l’énumération scala dans ScalaReflection
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
29 septembre 2020
- [SPARK-32718][SQL] Suppression des mots clés inutiles pour les unités d’intervalle
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration
spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration surLong.MAX_VALUEpour ignorer la consolidation des FrameBufferss de réseau, ce qui empêchejava.lang.IndexOutOfBoundsExceptiondans les cas particuliers
25 avril 2023
- Mises à jour de sécurité du système d’exploitation
mardi 11 avril 2023
- Divers correctifs de bogues.
29 mars 2023
- Divers correctifs de bogues.
14 mars 2023
- Mises à jour de sécurité du système d’exploitation
28 février 2023
- Mises à jour de sécurité du système d’exploitation
16 février 2023
- Mises à jour de sécurité du système d’exploitation
31 janvier 2023
- Divers correctifs de bogues.
18 janvier 2023
- Mises à jour de sécurité du système d’exploitation
29 novembre 2022
- Mises à jour de sécurité du système d’exploitation
15 novembre 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
1 novembre 2022
- Mises à jour de sécurité du système d’exploitation
18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 24 août 2022
- Mises à jour de sécurité du système d’exploitation
- 9 août 2022
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- 2 juin 2022
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
- 6 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
- 14 mars 2022
- Divers correctifs de bogues.
- 23 février 2022
- Divers correctifs de bogues.
- 8 février 2022
- Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
- Mises à jour de sécurité du système d’exploitation
- 1 février 2022
- Mises à jour de sécurité du système d’exploitation
- 19 janv. 2022
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
- 30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- 12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
- 8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- Mises à jour de sécurité du système d’exploitation
- 1er décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- 3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- 13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
Support étendu de Databricks Runtime 6.4
Voir Databricks Runtime 6.4 (EoS) et Databricks Runtime 6.4 Support étendu (EoS).
- 5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
- 2 juin 2022
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
- 6 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Divers correctifs de bogues.
- 14 mars 2022
- Suppression des classes vulnérables du jar de log4j 1.2.17
- Divers correctifs de bogues.
- 23 février 2022
- Divers correctifs de bogues.
- 8 février 2022
- Mise à niveau du JDK Ubuntu vers la version 1.8.0.312
- Mises à jour de sécurité du système d’exploitation
- 1 février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janv. 2022
- Correction d’un bogue dans lequel la commande OPTIMIZE pouvait échouer lorsque le dialecte ANSI SQL était activé.
- 19 janv. 2022
- Mises à jour de sécurité du système d’exploitation
- 8 décembre 2021
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2021
- [SPARK-35576][SQL] Suppression des informations sensibles dans le résultat de la commande Set
- 7 juin 2021
- Ajout d’une nouvelle configuration appelée
spark.sql.maven.additionalRemoteRepositories, une configuration de chaîne délimitée par des virgules du miroir Maven distant supplémentaire facultatif. La valeur esthttps://maven-central.storage-download.googleapis.com/maven2/par défaut
- Ajout d’une nouvelle configuration appelée
- 30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- 9 mars 2021
- Portage de HADOOP-17215 au pilote Azure Blob File System (prise en charge du remplacement conditionnel)
- Correction du séparateur de chemin sous Windows pour
databricks-connect get-jar-dir - Ajout de la prise en charge des versions 2.3.5, 2.3.6 et 2.3.7 du metastore Hive
- La flèche « totalResultsCollected » a été signalée de manière incorrecte après le déversement
- 24 février 2021
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
- Introduction d’une nouvelle configuration
- 4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée - Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
- 12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
- 8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [Runtime 6.4 ML GPU] Nous avons précédemment installé une version incorrecte (2.7.8-1+cuda11.1) de NCCL. Cette version la corrige en 2.4.8-1+cuda10.0 qui est compatible avec CUDA 10.0
- Mises à jour de sécurité du système d’exploitation
- 1er décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-32635][SQL] Correction de la propagation pliable
- 3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
- 13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
- 24 septembre 2020
- Correction d’une limitation précédente où la connexion directe sur un cluster standard restreignait toujours l’utilisation de l’implémentation du système de fichiers. Désormais, les utilisateurs peuvent accéder aux systèmes de fichiers locaux sans aucune restriction.
- Mises à jour de sécurité du système d’exploitation
- 8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength). Il peut être défini en utilisant.option("maxbinlength", n), où 0 < n <= 8000 - Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
- 25 août 2020
- Correction de la résolution des attributs ambigus dans l’auto-fusion
- 18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
- 11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
- 3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
- Mises à jour de sécurité du système d’exploitation
- 7 juillet 2020
- Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
- 21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
- 7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
- 10 mars 2020
- L’autoscaling optimisé est désormais utilisé par défaut sur les clusters interactifs du plan Sécurité.
- Le connecteur Snowflake (
spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9.snowflake-jdbcest mis à jour vers la version 3.12.0
Databricks Runtime 5.5 LTS
Voir Databricks Runtime 5.5 LTS (EoS) et Databricks Runtime 5.5 Support étendu (EoS).
- 8 décembre 2021
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2021
- Mises à jour de sécurité du système d’exploitation
- 25 août 2021
- Passage à une version antérieure de certains packages Python précédemment mis à niveau dans la version 5.5 ML Support étendu afin de maintenir une meilleure parité avec la version 5.5 ML LTS (désormais déconseillée). Voir [_]/release-notes/runtime/5.5xml.md) pour connaître les différences mises à jour entre les deux versions
- 15 juin 2021
- [SPARK-35576][SQL] Suppression des informations sensibles dans le résultat de la commande Set
- 7 juin 2021
- Ajout d’une nouvelle configuration appelée
spark.sql.maven.additionalRemoteRepositories, une configuration de chaîne délimitée par des virgules du miroir Maven distant supplémentaire facultatif. La valeur esthttps://maven-central.storage-download.googleapis.com/maven2/par défaut
- Ajout d’une nouvelle configuration appelée
- 30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- 9 mars 2021
- Portage de HADOOP-17215 au pilote Azure Blob File System (prise en charge du remplacement conditionnel)
- 24 février 2021
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser
- Introduction d’une nouvelle configuration
- 12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
- Correctif pour [HADOOP-17130]
- 8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- Mises à jour de sécurité du système d’exploitation
- 1er décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-32635][SQL] Correction de la propagation pliable
29 octobre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
24 septembre 2020
- Mises à jour de sécurité du système d’exploitation
8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength). Il peut être défini en utilisant.option("maxbinlength", n), où 0 < n <= 8000
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
3 août 2020
- Mises à jour de sécurité du système d’exploitation
7 juillet 2020
- Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
25 mars 2020
- Le connecteur Snowflake (
spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9.snowflake-jdbcest mis à jour vers la version 3.12.0
- Le connecteur Snowflake (
10 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
spark.databricks.driver.disableScalaOutputsurtrue. Par défaut, la valeur de l’indicateur estfalse. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
18 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- La transmission des informations d'identification avec ADLS entraîne une dégradation des performances en raison d'une mauvaise gestion des variables locales de thread lorsque la prérécupération du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
28 janvier 2020
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation.
mardi 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
19 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
- La version de R a involontairement été mise à niveau de la version 3.6.0 vers la version 3.6.1. Nous l’avons rétablie à la version 3.6.0.
5 novembre 2019
- Mise à jour de Java de la version 1.8.0_212 vers la version 1.8.0_222
23 octobre 2019
- [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la version 2.6.10 du pilote ODBC Apache Spark de Simba)
- Correction d’un problème concernant l’utilisation de la commande
Optimizeavec des clusters dont la liste de contrôle d’accès des tables est activée. - Correction d’un problème où les bibliothèques
pyspark.mléchouaient en raison d’une erreur UDF Scala interdite sur les clusters dont la liste de contrôle d’accès des tables et le passage des informations d’identification sont activés - Les méthodes SerDe et SerDeUtil ont été ajoutées à une liste d’autorisation pour le passage des informations d’identification
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
24 septembre 2019
- Amélioration de la stabilité de l’enregistreur Parquet
- Correction du problème où la requête Thrift annulée avant qu’elle ne commence à s’exécuter peut rester bloquée à l’état DÉMARRÉ
10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- [SPARK-27992][SPARK-28881] Permet à Python de se joindre au thread de connexion pour propager les erreurs
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- Amélioration de la suppression des informations d’identification
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642]Masquer les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
27 août 2019
- [SPARK-20906][SQL] Autorise le schéma spécifié par l’utilisateur dans l’API to_avro avec le registre de schémas
- [SPARK-27838][SQL] Prise en charge d’un schéma Avro ne pouvant pas accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique pouvant accepter la valeur Null sans enregistrement Null
- Amélioration apportée au voyage dans le temps Delta Lake
- Correction d’un problème concernant certaines expressions
transform - Prend en charge les variables de diffusion lorsque l’isolement des processus est activé
13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28260]Ajout de l’état FERMÉ à ExecutionState
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485]EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
- [SPARK-28355][CORE][PYTHON] Utilise la configuration Spark pour le seuil auquel l’UDF est compressée par diffusion
Databricks Light 2.4 - Support étendu
Voir Databricks Light 2.4 (EoS) et Databricks Light 2.4 Support étendu (EoS).
Databricks Runtime 7.4
Consultez Databricks Runtime 7.4 (EoS).
30 avril 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-35227][BUILD] Mise à jour du programme de résolution pour spark-packages dans SparkSubmit
- [SPARK-34245][CORE] Vérifie que le maître supprime les exécuteurs qui n’ont pas réussi à envoyer l’état terminé
- [SPARK-35045][SQL] Ajoute une option interne pour contrôler la mémoire tampon d’entrée dans univocity et une configuration pour la taille de la mémoire tampon d’entrée CSV
24 mars 2021
- [SPARK-34768][SQL] Respecte la taille par défaut de la mémoire tampon d’entrée dans Univocity
- [SPARK-34534] Corrige l’ordre des blockIds lors de l’utilisation de FetchShuffleBlocks pour extraire des blocs
9 mars 2021
- Le pilote de système de fichiers blob Azure mis à jour pour Azure Data Lake Storage est désormais activé par défaut. Il apporte plusieurs améliorations en matière de stabilité
- [ES-67926][ui] Corrige le lien href de la visualisation DAG de Spark
- [ES-65064] Restaure le schéma de sortie de
SHOW DATABASES - [SC-70522][sql] Utilise la clé de build correcte du nettoyage dynamique lorsque le conseil de jointure RANGE est présent
- [SC-35081] Désactive la vérification de l’obsolescence des fichiers de tables Delta dans le cache du disque
- [SC-70640] Corrige le NPE lorsque la réponse EventGridClient n’a pas d’entité
- [SC-70220][sql] Ne génère pas de conseils sur la lecture aléatoire du numéro de partition lorsque AOS est activé
24 février 2021
- Mise à niveau du connecteur Spark BigQuery vers la version 0.18, qui introduit divers correctifs de bogues et la prise en charge des itérateurs Arrow et Avro
- Correction d’un problème d’exactitude qui entraînait le retour de résultats incorrects lorsque la précision décimale et l’échelle du fichier Parquet étaient différentes du schéma Spark.
- Correction d’un problème d’échec de lecture sur les tables Microsoft SQL Server qui contiennent des types de données spatiales, en ajoutant la prise en charge des types JDBC de géométrie et de géographie pour Spark SQL
- Introduction d’une nouvelle configuration
spark.databricks.hive.metastore.init.reloadFunctions.enabled. Cette configuration contrôle l’initialisation intégrée de Hive. Lorsqu’elle est définie sur true, Azure Databricks recharge toutes les fonctions de toutes les bases de données que les utilisateurs ont dansFunctionRegistry. Il s’agit du comportement par défaut dans le metastore Hive. Lorsqu’elle est définie sur false, Azure Databricks désactive ce processus pour l’optimiser - [SPARK-34212] Correction des problèmes liés à la lecture des données décimales des fichiers Parquet
- [SPARK-33579][UI] Correction de la page blanche de l’exécuteur derrière un proxy
- [SPARK-20044][UI] Prise en charge de l’interface utilisateur Spark derrière le proxy inverse frontal à l’aide d’un préfixe de chemin d’accès
- [SPARK-33277][PYSPARK][SQL] Utilise ContextAwareIterator pour arrêter la consommation après la fin de la tâche
4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée - Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
20 janvier 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond) - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
12 janvier 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
8 décembre 2020
- [SPARK-33587][CORE] Tuer l’exécuteur en cas d’erreurs irrécupérables imbriquées
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- [SPARK-33316][SQL] Prise en charge du schéma Avro pouvant accepter la valeur Null et fourni par l’utilisateur pour le schéma catalytique ne pouvant pas accepter la valeur Null dans l’écriture Avro
- Mises à jour de sécurité du système d’exploitation
- 1er décembre 2020
-
[SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
date_trunc - [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-33272][SQL] Nettoie le mappage des attributs dans QueryPlan.transformUpWithNewOutput
-
[SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
Databricks Runtime 7.2
Consultez Databricks Runtime 7.2 (EoS).
- 4 février 2021
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
SELECT * FROM table LIMIT nrows. Cette régression a été constatée par les utilisateurs qui exécutent des requêtes via ODBC/JDBC avec la sérialisation Arrow activée - Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- Correction d’une régression qui empêche l’exécution incrémentielle d’une requête qui définit une limite globale telle que
- 20 janv. 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond) - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- 12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
- 8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
-
[SPARK-33404][SQL] Correction des résultats incorrects dans l’expression
date_trunc - [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- Mises à jour de sécurité du système d’exploitation
- 1er décembre 2020
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- 3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
- 13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
- 29 septembre 2020
- [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration
spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration surLong.MAX_VALUEpour ignorer la consolidation des FrameBufferss de réseau, ce qui empêchejava.lang.IndexOutOfBoundsExceptiondans les cas particuliers
- 24 septembre 2020
- [SPARK-32764][SQL] -0,0 doit être égal à 0,0
- [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
- [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
- Mises à jour de sécurité du système d’exploitation
- 8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength). Il peut être défini en utilisant.option("maxbinlength", n), où 0 < n <= 8000
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
Databricks Runtime 7.1
Consultez Databricks Runtime 7.1 (EoS).
- 4 février 2021
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- 20 janv. 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond) - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- 12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
- 8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
- Les travaux Spark lancés à l’aide de Databricks Connecter peuvent se bloquer indéfiniment avec
Executor$TaskRunner.$anonfun$copySessionStatedans la trace de l’exécuteur - Mises à jour de sécurité du système d’exploitation
- 1er décembre 2020
-
[SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
date_trunc - [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL][HOTFIX] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33371][PYTHON][3.0] Mise à jour de setup.py et des tests pour Python 3.9
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
-
[SPARK-33404][SQL][3.0] Correction des résultats incorrects dans l’expression
- 3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
- 13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
- 29 septembre 2020
- [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration
spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration surLong.MAX_VALUEpour ignorer la consolidation des FrameBufferss de réseau, ce qui empêchejava.lang.IndexOutOfBoundsExceptiondans les cas particuliers
- 24 septembre 2020
- [SPARK-32764][SQL] -0,0 doit être égal à 0,0
- [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
- [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
- Mises à jour de sécurité du système d’exploitation
- 8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength). Il peut être défini en utilisant.option("maxbinlength", n), où 0 < n <= 8000
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
- 25 août 2020
-
[SPARK-32159][SQL] Correction de l’intégration entre
Aggregator[Array[_], _, _]etUnresolvedMapObjects -
[SPARK-32559][SQL] Correction de la logique de découpage dans
UTF8String.toInt/toLong, qui n’a pas géré correctement les caractères non ASCII -
[SPARK-32543][R] Supprime l’utilisation de
arrow::as_tibbledans SparkR - [SPARK-32091][CORE] Ignore l’erreur de dépassement de délai lors de la suppression de blocs sur l’exécuteur perdu
- Correction d’un problème concernant le connecteur Azure Synapse avec les informations d’identification MSI
- Correction de la résolution des attributs ambigus dans l’auto-fusion
-
[SPARK-32159][SQL] Correction de l’intégration entre
- 18 août 2020
- [SPARK-32594][SQL] Correction de la sérialisation des dates insérées dans les tables Hive
- [SPARK-32237][SQL] Résout le conseil dans une expression de table commune
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- [SPARK-32467][UI] Évite d’encoder deux fois l’URL lors d’une redirection HTTPS
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
- 11 août 2020
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight doit uniquement réécrire les attributs des nœuds ancêtres du plan en conflit
- [SPARK-32234][SQL] Les commandes SQL Spark échouent lors de la sélection des tables ORC
- 3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
Databricks Runtime 7.0
Consultez Databricks Runtime 7.0 (EoS).
- 4 février 2021
- Correction d’une régression qui provoquait l’échec du démarrage de DBFS FUSE lorsque les configurations des variables d’environnement du cluster contiennent une syntaxe Bash non valide.
- 20 janv. 2021
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
df.join(df.select($"col" as "new_col"), cond) - Le DataFrame dérivé exclut certaines colonnes via select, groupBy ou window
- La condition de jointure ou la transformation suivante après le Dataframe joint fait référence aux colonnes non communes. Par exemple :
df.join(df.drop("a"), df("a") === 1)
- Ces deux DataFrames ont des colonnes communes, mais la sortie de la jointure réflexive n’a pas de colonnes communes. Par exemple :
- Correction d’une régression dans la version de maintenance du 12 janvier 2021 qui peut provoquer une AnalysisException incorrecte et indiquer que la colonne est ambiguë dans une jointure réflexive. Cette régression se produit lorsqu’un utilisateur joint un DataFrame à son DataFrame dérivé (une soi-disant jointure réflexive) avec les conditions suivantes :
- 12 janv. 2021
- Mises à jour de sécurité du système d’exploitation
- [SPARK-33593][SQL] Le lecteur de vecteurs a reçu des données incorrectes avec une valeur de partition binaire
- [SPARK-33677][SQL] Ignore la règle LikeSimplification si le modèle contient un escapeChar
- [SPARK-33071][SPARK-33536][SQL] Évite de modifier le dataset_id de LogicalPlan dans join() pour ne pas arrêter DetectAmbiguousSelfJoin
- 8 décembre 2020
- [SPARK-27421][SQL] Correction du filtre pour la colonne int et la classe de valeur java.lang.String lors du nettoyage de la colonne de partition
-
[SPARK-33404][SQL] Correction des résultats incorrects dans l’expression
date_trunc - [SPARK-33339][PYTHON] L’application Pyspark se bloque en raison d’une erreur de non-exception
- [SPARK-33183][SQL] Correction de la règle d’optimiseur EliminateSorts et ajout d’une règle physique pour supprimer les tris redondants
- [SPARK-33391][SQL] element_at avec CreateArray ne respecte pas un index de base
- Mises à jour de sécurité du système d’exploitation
- 1er décembre 2020
- [SPARK-33306][SQL] Le fuseau horaire est nécessaire pour convertir une date en chaîne
- 3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
- 13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
- 29 septembre 2020
- [SPARK-28863][SQL][WARMFIX] Introduction d’AlreadyOptimized pour empêcher la réanalyse de V1FallbackWriters
- [SPARK-32635][SQL] Correction de la propagation pliable
- Ajout d’une nouvelle configuration
spark.shuffle.io.decoder.consolidateThreshold. Définissez la valeur de configuration surLong.MAX_VALUEpour ignorer la consolidation des FrameBufferss de réseau, ce qui empêchejava.lang.IndexOutOfBoundsExceptiondans les cas particuliers
- 24 septembre 2020
- [SPARK-32764][SQL] -0,0 doit être égal à 0,0
- [SPARK-32753][SQL] Copie uniquement les balises vers les nœuds sans balises lors de la transformation des plans
- [SPARK-32659][SQL] Correction d’un problème de données lors de l’insertion du nettoyage dynamique des partitions sur un type non atomique
- Mises à jour de sécurité du système d’exploitation
- 8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength). Il peut être défini en utilisant.option("maxbinlength", n), où 0 < n <= 8000
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
- 25 août 2020
-
[SPARK-32159][SQL] Correction de l’intégration entre
Aggregator[Array[_], _, _]etUnresolvedMapObjects -
[SPARK-32559][SQL] Correction de la logique de découpage dans
UTF8String.toInt/toLong, qui n’a pas géré correctement les caractères non ASCII -
[SPARK-32543][R] Supprime l’utilisation de
arrow::as_tibbledans SparkR - [SPARK-32091][CORE] Ignore l’erreur de dépassement de délai lors de la suppression de blocs sur l’exécuteur perdu
- Correction d’un problème concernant le connecteur Azure Synapse avec les informations d’identification MSI
- Correction de la résolution des attributs ambigus dans l’auto-fusion
-
[SPARK-32159][SQL] Correction de l’intégration entre
- 18 août 2020
- [SPARK-32594][SQL] Correction de la sérialisation des dates insérées dans les tables Hive
- [SPARK-32237][SQL] Résout le conseil dans une expression de table commune
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- [SPARK-32467][UI] Évite d’encoder deux fois l’URL lors d’une redirection HTTPS
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
- 11 août 2020
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight doit uniquement réécrire les attributs des nœuds ancêtres du plan en conflit
- [SPARK-32234][SQL] Les commandes SQL Spark échouent lors de la sélection des tables ORC
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
Databricks Runtime 6.6
Consultez Databricks Runtime 6.6 (EoS).
- 1er décembre 2020
- [SPARK-33260][SQL] Correction des résultats incorrects de SortExec lorsque la valeur de sortOrder est Stream
- [SPARK-32635][SQL] Correction de la propagation pliable
- 3 novembre 2020
- Mise à jour de Java de la version 1.8.0_252 vers la version 1.8.0_265
- Correction du verrouillage d’ABFS et de WASB en ce qui concerne UserGroupInformation.getCurrentUser()
- Correction d’un bogue de boucle infinie du lecteur Avro lors de la lecture des octets MAGIC
- 13 octobre 2020
- Mises à jour de sécurité du système d’exploitation
- [SPARK-32999][SQL][2.4] Utilise Utils.getSimpleName pour éviter de rencontrer un nom de classe Malformé dans TreeNode
- Correction de l’énumération des répertoires dans le montage FUSE qui contiennent des noms de fichiers avec des caractères XML non valides
- Le montage FUSE n’utilise plus ListMultipartUploads
- 24 septembre 2020
- Mises à jour de sécurité du système d’exploitation
- 8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength). Il peut être défini en utilisant.option("maxbinlength", n), où 0 < n <= 8000 - Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
- 25 août 2020
- Correction de la résolution des attributs ambigus dans l’auto-fusion
- 18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
- 11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
- [SPARK-31967][UI] Rétablit la version 4.21.0 de vis.js pour corriger la régression du temps de chargement de l’interface utilisateur Travaux
- 3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 6.5
Consultez Databricks Runtime 6.5 (EoS).
- 24 septembre 2020
- Correction d’une limitation précédente où la connexion directe sur un cluster standard restreignait toujours l’utilisation de l’implémentation du système de fichiers. Désormais, les utilisateurs peuvent accéder aux systèmes de fichiers locaux sans aucune restriction.
- Mises à jour de sécurité du système d’exploitation
- 8 septembre 2020
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
maxbinlength. Ce paramètre est utilisé pour contrôler la longueur des colonnes de type binaire et se traduit parVARBINARY(maxbinlength). Il peut être défini en utilisant.option("maxbinlength", n), où 0 < n <= 8000 - Mise à jour du Kit de développement logiciel (SDK) Stockage Azure vers la version 8.6.4 et activation de la métrique Keep Alive TCP sur les connexions effectuées par le pilote WASB
- Un nouveau paramètre a été créé pour Azure Synapse Analytics,
- 25 août 2020
- Correction de la résolution des attributs ambigus dans l’auto-fusion
- 18 août 2020
- [SPARK-32431][SQL] Vérifie les colonnes imbriquées en double dans la lecture des sources de données intégrées
- Correction d’une condition de concurrence dans le connecteur AQS lors de l’utilisation de Trigger.Once
- 11 août 2020
- [SPARK-28676][CORE] Évite une journalisation excessive de ContextCleaner
- 3 août 2020
- Vous pouvez désormais utiliser la fonction de transformation LDA sur un cluster avec accès direct.
- Mises à jour de sécurité du système d’exploitation
- 7 juillet 2020
- Mise à jour de Java de la version 1.8.0_242 vers la version 1.8.0_252
- 21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
Databricks Runtime 6.3
Consultez Databricks Runtime 6.3 (EoS).
7 juillet 2020
- Mise à jour de Java de la version 1.8.0_232 vers la version 1.8.0_252
21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
10 mars 2020
- Le connecteur Snowflake (
spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9.snowflake-jdbcest mis à jour vers la version 3.12.0
- Le connecteur Snowflake (
18 février 2020
- La transmission des informations d'identification avec ADLS entraîne une dégradation des performances en raison d'une mauvaise gestion des variables locales de thread lorsque la prérécupération du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
11 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect
- Ajout de la fonction overwrite à une liste d’autorisation afin que l’élément « MLModels étend MLWriter » puisse appeler la fonction
Databricks Runtime 6.2
Consultez Databricks Runtime 6.2 (EoS).
21 avril 2020
- [SPARK-31312][SQL] Met en cache l’instance de classe pour l’instance UDF dans HiveFunctionWrapper
7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
25 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
spark.databricks.driver.disableScalaOutputsurtrue. Par défaut, la valeur de l’indicateur estfalse. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
10 mars 2020
- Le connecteur Snowflake (
spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9.snowflake-jdbcest mis à jour vers la version 3.12.0
- Le connecteur Snowflake (
18 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- La transmission des informations d'identification avec ADLS entraîne une dégradation des performances en raison d'une mauvaise gestion des variables locales de thread lorsque la prérécupération du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
28 janvier 2020
- Ajout de la fonction overwrite de ML Model Writers pour les clusters activés pour le passage des informations d’identification, afin que la sauvegarde des modèles puisse utiliser le mode de remplacement sur les clusters avec passage des informations d’identification.
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation.
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect.
mardi 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
10 décembre 2019
- [SPARK-29904][SQL] Analyse des timestamps avec une précision de l’ordre de la microseconde par des sources de données JSON/CSV
Databricks Runtime 6.1
Consultez Databricks Runtime 6.1 (EoS).
7 avril 2020
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
ARROW_PRE_0_15_IPC_FORMAT=1) pour activer la prise en charge de ces versions de PyArrow. Voir les instructions dans [SPARK-29367]
- Pour résoudre un problème lié aux UDF pandas qui ne fonctionnent pas avec PyArrow 0.15.0 et versions ultérieures, nous avons ajouté une variable d’environnement (
25 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
spark.databricks.driver.disableScalaOutputsurtrue. Par défaut, la valeur de l’indicateur estfalse. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
10 mars 2020
- Le connecteur Snowflake (
spark-snowflake_2.11) inclus dans Databricks Runtime est mis à jour vers la version 2.5.9.snowflake-jdbcest mis à jour vers la version 3.12.0
- Le connecteur Snowflake (
18 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
- La transmission des informations d'identification avec ADLS entraîne une dégradation des performances en raison d'une mauvaise gestion des variables locales de thread lorsque la prérécupération du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
28 janvier 2020
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation.
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect.
mardi 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
7 novembre 2019
- [SPARK-29743][SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true.
- Secrets référencés à partir des propriétés de configuration et des variables d’environnement de Spark dans la Préversion publique. Voir Utiliser un secret dans une propriété de configuration ou une variable d’environnement Spark.
5 novembre 2019
- Correction d’un bogue dans DBFS FUSE pour gérer les points de montage ayant
//dans son chemin - [SPARK-29081] Remplace les appels à SerializationUtils.clone sur les propriétés par une implémentation plus rapide
- [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
- (6.1 ML) La bibliothèque mkl version 2019.4 a été installée par inadvertance. Nous l’avons rétablie à la version 2019.3 de mkl pour qu’elle corresponde à Anaconda Distribution 2019.03
- Correction d’un bogue dans DBFS FUSE pour gérer les points de montage ayant
Databricks Runtime 6.0
Consultez Databricks Runtime 6.0 (EoS).
25 mars 2020
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
spark.databricks.driver.disableScalaOutputsurtrue. Par défaut, la valeur de l’indicateur estfalse. L’indicateur contrôle la sortie des cellules pour les travaux JAR Scala et les notebooks Scala. Si l’indicateur est activé, Spark ne renvoie pas les résultats de l’exécution du travail au client. L’indicateur n’affecte pas les données écrites dans les fichiers journaux du cluster. Définir cet indicateur est recommandé uniquement pour les clusters automatisés pour les travaux JAR, car il désactive les résultats du notebook
- La sortie des travaux, telle que la sortie de journal émise vers stdout, est soumise à une limite de taille de 20 Mo. Si la sortie totale a une taille supérieure, l’exécution est annulée et marquée comme ayant échoué. Pour éviter de rencontrer cette limite, vous pouvez empêcher le renvoi de stdout du pilote en définissant la configuration Spark
18 février 2020
- La transmission des informations d'identification avec ADLS entraîne une dégradation des performances en raison d'une mauvaise gestion des variables locales de thread lorsque la prérécupération du client ADLS est activée. Cette version désactive la pré-extraction d’ADLS lorsque le passage des informations d’identification est activé jusqu’à ce que nous ayons un correctif approprié
11 février 2020
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 doit lever une exception
28 janvier 2020
- [SPARK-30447][SQL] Problème constant de la possibilité de valeurs NULL dans la propagation.
- [SPARK-28152][SQL] Ajout d’une configuration héritée pour l’ancien mappage numérique MsSqlServerDialect.
mardi 14 janvier 2020
- Mise à jour de Java de la version 1.8.0_222 vers la version 1.8.0_232
19 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
5 novembre 2019
-
dbutils.tensorboard.start()prend désormais en charge TensorBoard 2.0 (s’il est installé manuellement). - Correction d’un bogue dans DBFS FUSE pour gérer les points de montage ayant
//dans son chemin - [SPARK-29081] Remplace les appels à SerializationUtils.clone sur les propriétés par une implémentation plus rapide
-
23 octobre 2019
- [SPARK-29244][CORE] Empêche la page libérée dans BytesToBytesMap de se libérer à nouveau
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la version 2.6.10 du pilote ODBC Apache Spark de Simba)
- Correction d’un problème concernant l’utilisation de la commande
Optimizeavec des clusters dont la liste de contrôle d’accès des tables est activée. - Correction d’un problème où les bibliothèques
pyspark.mléchouaient en raison d’une erreur UDF Scala interdite sur les clusters dont la liste de contrôle d’accès des tables et le passage des informations d’identification sont activés - Les méthodes SerDe/SerDeUtil ont été ajoutées à une liste d’autorisation pour le passage des informations d’identification
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
- Correction du problème où les informations d’identification de l’utilisateur n’étaient pas transférées aux travaux créés par
dbutils.notebook.run()
Databricks Runtime 5.4 ML
Consultez Databricks Runtime 5.4 pour ML (EoS).
- 18 juin 2019
- Amélioration de la gestion des exécutions actives de MLflow dans l’intégration de Hyperopt
- Amélioration des messages dans Hyperopt
- Mise à jour du package
Marchkdownde la version 3.1 vers la version 3.1.1
Databricks Runtime 5.4
Consultez Databricks Runtime 5.4 (EoS).
- 19 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
- 8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
- 10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642]Masquer les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
- [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
- 27 août 2019
- Correction d’un problème concernant certaines expressions
transform
- Correction d’un problème concernant certaines expressions
- 13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
- 30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485]EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
- 2 juillet 2019
- Mise à jour de snappy-java de la version 1.1.7.1 vers la version 1.1.7.3
- 18 juin 2019
- Amélioration de la gestion des exécutions actives de MLflow dans l’intégration de MLlib
- Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
Databricks Runtime 5.3
Consultez Databricks Runtime 5.3 (EoS).
7 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
- Correction de l’exception NullPointerException lors de la vérification du code d’erreur dans le client WASB
10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642]Masquer les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
- [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
27 août 2019
- Correction d’un problème concernant certaines expressions
transform
- Correction d’un problème concernant certaines expressions
13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485]EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
18 juin 2019
- Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
28 mai 2019
- Amélioration de la stabilité de Delta
- Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
- Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
7 mai 2019
- Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage
- Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage
- Correction d’un bogue concernant les listes de contrôle d’accès des tables
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- S’assure que la mise en cache n’est pas désactivée lorsque les listes de contrôle d’accès des tables sont activées
- [SPARK-27494][ss] Les clés/valeurs Null ne fonctionnent pas dans la source Kafka v2
- [SPARK-27446][r] Utilise la configuration Spark existante si elle est disponible
- [SPARK-27454][spark-27454][ML][sql] Échec de la source de données d’image Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][sql] Correction de DecimalType lors de la génération de filtres orc
- [SPARK-27338][core] Corriger le blocage entre UnsafeExternalSorter et TaskMemoryManager
Databricks Runtime 5.2
Consultez Databricks Runtime 5.2 (EoS).
10 septembre 2019
- Ajout d’un itérateur sécurisé de threads à BytesToBytesMap
- Correction d’un bogue touchant certaines requêtes d’agrégation globale
- [SPARK-27330][SS] Prend en charge l’abandon de tâche dans l’enregistreur foreach
- [SPARK-28642]Masquer les informations d’identification dans SHOW CREATE TABLE
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
- [SPARK-28699][CORE] Correction d’un cas particulier pour l’abandon d’une étape indéterminée
27 août 2019
- Correction d’un problème concernant certaines expressions
transform
- Correction d’un problème concernant certaines expressions
13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485]EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
2 juillet 2019
- Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
18 juin 2019
- Amélioration du message Databricks Advisor lié à l’utilisation de la mise en cache du disque
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
28 mai 2019
- Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
7 mai 2019
- Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage
- Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- S’assure que la mise en cache n’est pas désactivée lorsque les listes de contrôle d’accès des tables sont activées
- [SPARK-27494][ss] Les clés/valeurs Null ne fonctionnent pas dans la source Kafka v2
- [SPARK-27454][spark-27454][ML][sql] Échec de la source de données d’image Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][sql] Correction de DecimalType lors de la génération de filtres orc
- [SPARK-27338][core] Corriger le blocage entre UnsafeExternalSorter et TaskMemoryManager
26 mars 2019
- Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
- [SPARK-26665][CORE] Correction d’un bogue qui fait que BlockTransferService.fetchBlockSync peut se bloquer indéfiniment
- [SPARK-27134][SQL] La fonction array_distinct ne fonctionne pas correctement avec des colonnes contenant un tableau de tableau
- [SPARK-24669][SQL] Invalidation des tables en cas de DROP DATABASE CASCADE.
- [SPARK-26572][SQL] Correction de l’évaluation des résultats de l’agrégat de codegen
- Correction d’un bogue touchant certaines UDF Python
26 février 2019
- [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
- [SPARK-26887][PYTHON] Crée datetime.date directement au lieu de créer datetime64 comme donnée intermédiaire
- Correction d’un bogue touchant le serveur JDBC/ODBC
- Correction d’un bogue touchant PySpark
- Exclut les fichiers cachés lors de la génération de HadoopRDD
- Correction d’un bogue dans Delta qui causait des problèmes de sérialisation
12 février 2019
- Correction d’un problème affectant l’utilisation de Delta avec des points de montage Azure ADLS.
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabledest défini sur true)
30 janvier 2019
- Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
-
[SPARK-26706][SQL] Correction de
illegalNumericPrecedencepour ByteType - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Les sources de données CSV/JSON doivent éviter les chemins d’accès de globbing lors de l’inférence du schéma
- Correction de l’inférence de contrainte sur l’opérateur Window
- Correction d’un problème concernant l’installation de bibliothèques egg avec des clusters dont la liste de contrôle d’accès des tables est activée
Databricks Runtime 5.1
Consultez Databricks Runtime 5.1 (EoS).
13 août 2019
- La source de streaming Delta doit vérifier le protocole le plus récent d’une table
- [SPARK-28489][SS] Correction d’un bogue où KafkaOffsetRangeCalculator.getRanges peut supprimer des décalages
30 juillet 2019
- [SPARK-28015][SQL] Vérifie que stringToDate() consomme une entrée entière pour les formats aaaa et aaaa-[m]m
- [SPARK-28308][CORE] La partie de CalendarInterval inférieure à une seconde doit être complétée avant l’analyse
- [SPARK-27485]EnsureRequirements.reorder doit gérer les expressions dupliquées correctement
2 juillet 2019
- Tolère les IOExceptions lors de la lecture du fichier Delta LAST_CHECKPOINT
18 juin 2019
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
- Correction d’un bogue touchant les requêtes de métadonnées Delta
28 mai 2019
- Ajout de la récupération en cas d’échec de l’installation de la bibliothèque
7 mai 2019
- Portage de HADOOP-15778 (ABFS : Correction de la limitation de la lecture côté client) au connecteur Azure Data Lake Storage
- Portage de HADOOP-16040 (ABFS : Correction d’un bogue dans la configuration de tolerateOobAppends) au connecteur Azure Data Lake Storage
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- [SPARK-27494][ss] Les clés/valeurs Null ne fonctionnent pas dans la source Kafka v2
- [SPARK-27454][spark-27454][ML][sql] Échec de la source de données d’image Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][sql] Correction de DecimalType lors de la génération de filtres orc
- [SPARK-27338][core] Corriger le blocage entre UnsafeExternalSorter et TaskMemoryManager
26 mars 2019
- Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
- Correction d’un bogue touchant certaines UDF Python
26 février 2019
- [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
- Correction d’un bogue touchant le serveur JDBC/ODBC
- Exclut les fichiers cachés lors de la génération de HadoopRDD
12 février 2019
- Correction d’un problème concernant l’installation de bibliothèques egg avec des clusters dont la liste de contrôle d’accès des tables est activée
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
-
[SPARK-26706][SQL] Correction de
illegalNumericPrecedencepour ByteType - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Correction de l’inférence de contrainte sur l’opérateur Window
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabledest défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener
df.rdd.count()avec UDT à renvoyer une réponse incorrecte dans certains cas - Correction d’un problème concernant l’installation de répertoires wheelhouse
- [SPARK-26267]Nouvelle tentative lors de la détection de décalages incorrects provenant de Kafka.
- Correction d’un bogue concernant plusieurs sources de flux de fichiers dans une requête de streaming
- Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
- Correction d’un problème pouvant amener
8 janvier 2019
- Correction du problème à l’origine de l’erreur
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted - [SPARK-26352]La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie.
- [SPARK-26366]ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Amélioration de la stabilité de Delta Lake
- Delta Lake est activé
- Correction du problème qui empêchait l'accès à Azure Data Lake Storage lorsque la transmission des informations d'identification de Microsoft Entra ID est activée pour Azure Data Lake Storage Gen1.
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
- Correction du problème à l’origine de l’erreur
Databricks Runtime 5.0
Consultez Databricks Runtime 5.0 (EoS).
18 juin 2019
- Correction d’un bogue touchant l’utilisation des fonctions d’ordre supérieur
7 mai 2019
- Correction d’une condition de concurrence lors du chargement d’un fichier de somme de contrôle du journal Delta
- Correction de la logique de détection de conflit Delta pour ne pas identifier l’opération « insérer + remplacer » comme une pure opération « ajouter »
- [SPARK-27494][ss] Les clés/valeurs Null ne fonctionnent pas dans la source Kafka v2
- [SPARK-27454][spark-27454][ML][sql] Échec de la source de données d’image Spark lors de la rencontre de certaines images illégales
- [SPARK-27160][sql] Correction de DecimalType lors de la génération de filtres orc
- [SPARK-27338][core] Corriger le blocage entre UnsafeExternalSorter et TaskMemoryManager
26 mars 2019
- Évite d’incorporer des décalages dépendant de la plateforme littéralement dans le code généré par l’ensemble de l’étape
- Correction d’un bogue touchant certaines UDF Python
12 mars 2019
- [SPARK-26864][SQL] La requête peut renvoyer un résultat incorrect lorsque l’UDF Python est utilisée comme condition de semi-jointure gauche
26 février 2019
- Correction d’un bogue touchant le serveur JDBC/ODBC
- Exclut les fichiers cachés lors de la génération de HadoopRDD
12 février 2019
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
-
[SPARK-26706][SQL] Correction de
illegalNumericPrecedencepour ByteType - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Correction de l’inférence de contrainte sur l’opérateur Window
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabledest défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener
df.rdd.count()avec UDT à renvoyer une réponse incorrecte dans certains cas - [SPARK-26267]Nouvelle tentative lors de la détection de décalages incorrects provenant de Kafka.
- Correction d’un bogue concernant plusieurs sources de flux de fichiers dans une requête de streaming
- Correction de l’erreur StackOverflowError lors de la mise en place du conseil de jointure asymétrique sur la relation mise en cache
- Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
- Correction d’un problème pouvant amener
8 janvier 2019
- Correction du problème à l’origine de l’erreur
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted - [SPARK-26352]La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie.
- [SPARK-26366]ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Amélioration de la stabilité de Delta Lake
- Delta Lake est activé
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
- Correction du problème à l’origine de l’erreur
18 décembre 2018
- [SPARK-26293]Exception de cast lors de la présence d’une UDF Python dans une sous-requête
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
6 décembre 2018
- Correction d’un problème qui provoquait un résultat de requête incorrect lors de l’utilisation d’orderBy, suivi immédiatement de groupBy avec la clé group-by comme partie de début de la clé sort-by
- Mise à niveau du connecteur Snowflake pour Spark de la version 2.4.9.2-spark_2.4_pre_release vers la version 2.4.10
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
spark.sql.files.ignoreCorruptFilesouspark.sql.files.ignoreMissingFilesest activé - Correction d’un problème touchant certaines requêtes d’auto-union
- Correction d’un bogue avec le serveur thrift où les sessions sont parfois divulguées lorsqu’elles sont annulées
- [SPARK-26307]Correction de CTAS lorsque INSERT une table partitionnée en utilisant Hive SerDe.
- [SPARK-26147]Les UDF Python dans les conditions de jointure échouent même en utilisant les colonnes d’un seul côté de la jointure
- [SPARK-26211]Correction de InSet pour les binaires et struct et array avec Null
-
[SPARK-26181] La méthode
hasMinMaxStatsdeColumnStatsMapn’est pas correcte - Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
20 novembre 2018
- Correction d’un problème qui rendait impossible l’utilisation d’un notebook après l’annulation d’une requête de streaming
- Correction d’un problème touchant certaines requêtes qui utilisent des fonctions de fenêtre
- Correction d’un problème touchant un flux provenant de Delta avec plusieurs modifications de schéma
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
Databricks Runtime 4.3
Consultez Databricks Runtime 4.3 (EoS).
9 avril 2019
- [SPARK-26665][CORE] Correction d’un bogue pouvant entraîner le blocage permanent de BlockTransferService.fetchBlockSync
- [SPARK-24669][SQL] Invalidation des tables en cas de DROP DATABASE CASCADE.
12 mars 2019
- Correction d’un bogue touchant la génération de code
- Correction d’un bogue touchant Delta
26 février 2019
- Correction d’un bogue touchant le serveur JDBC/ODBC
12 février 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Exclusion des fichiers cachés lors de la génération de HadoopRDD
- Correction de la conversion du filtre Parquet pour le prédicat IN lorsque sa valeur est vide
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabledest défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener
df.rdd.count()avec UDT à renvoyer une réponse incorrecte dans certains cas - Correction de l’incohérence entre le RDD mis en cache d’un cache SQL et son plan physique, ce qui génère un résultat incorrect.
- Correction d’un problème pouvant amener
8 janvier 2019
- Correction du problème à l’origine de l’erreur
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted - Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
- [SPARK-26352]La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie.
- [SPARK-26366]ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Delta Lake est activé
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
- Correction du problème à l’origine de l’erreur
18 décembre 2018
- [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- [SPARK-26307]Correction de CTAS lorsque INSERT une table partitionnée en utilisant Hive SerDe.
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
spark.sql.files.ignoreCorruptFilesouspark.sql.files.ignoreMissingFilesest activé -
[SPARK-26181] La méthode
hasMinMaxStatsdeColumnStatsMapn’est pas correcte - Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
- Correction d’un problème de performances dans l’analyseur de requêtes
- Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
- Correction d’un problème touchant certaines requêtes d’auto-union
20 novembre 2018
- [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
- [SPARK-25387] Correction d’un bogue NPE causé par une entrée CSV incorrecte
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
6 novembre 2018
- [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
- Correction d’un problème concernant le nettoyage des objets temporaires dans le connecteur Synapse Analytics
- [SPARK-25816] Correction de la résolution des attributs dans les extracteurs imbriqués
- 16 octobre 2018
- Correction d’un bogue touchant la sortie de l’exécution de
SHOW CREATE TABLEsur les tables Delta - Correction d’un bogue touchant l’opération
Union
- Correction d’un bogue touchant la sortie de l’exécution de
- 25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de
NotSerializableExceptiondans la source de données Avro
- 11 septembre 2018
-
[SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
failOnDataLoss=false - [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
- La réduction du filtre doit gérer correctement la valeur Null
- Amélioration de la stabilité du moteur d’exécution
-
[SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
- 28 août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
-
[SPARK-25142] Ajout de messages d’erreur lorsque le Worker Python ne pouvait pas ouvrir de socket dans
_load_from_socket
- 23 août 2018
-
[SPARK-23935] mapEntry lève l’exception
org.codehaus.commons.compiler.CompileException - Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- [SPARK-25051][SQL] FixNullability ne doit pas s’arrêter sur AnalysisBarrier
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
- [SPARK-25096] Assouplissement de la possibilité d’accepter la valeur Null si le cast est forcé à accepter la valeur Null
- Diminution du nombre de threads par défaut utilisés par la commande Delta Lake Optimize, ce qui réduit la surcharge de mémoire et accélère la validation des données
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
- Correction de la révision du gestionnaire de secrets lorsque la commande réussit partiellement
-
[SPARK-23935] mapEntry lève l’exception
Databricks Runtime 4.2
Consultez Databricks Runtime 4.2 (EoS).
26 février 2019
- Correction d’un bogue touchant le serveur JDBC/ODBC
12 février 2019
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery ne gère pas correctement les enregistrements vides
- Exclusion des fichiers cachés lors de la génération de HadoopRDD
- Correction de la conversion du filtre Parquet pour le prédicat IN lorsque sa valeur est vide
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabledest défini sur true)
30 janvier 2019
- Correction d’un problème pouvant amener
df.rdd.count()avec UDT à renvoyer une réponse incorrecte dans certains cas
- Correction d’un problème pouvant amener
8 janvier 2019
- Correction du problème à l’origine de l’erreur
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted - Informations d’identification supprimées des noms de RDD dans l’interface utilisateur de Spark
- [SPARK-26352]La réorganisation des jointures ne doit pas modifier l’ordre des attributs de sortie.
- [SPARK-26366]ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Delta Lake est activé
- Cache d’E/S Databricks est maintenant activé pour les types d’instance de travail de la série LS pour tous les niveaux tarifaires
- Correction du problème à l’origine de l’erreur
18 décembre 2018
- [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- [SPARK-26307]Correction de CTAS lorsque INSERT une table partitionnée en utilisant Hive SerDe.
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
spark.sql.files.ignoreCorruptFilesouspark.sql.files.ignoreMissingFilesest activé -
[SPARK-26181] La méthode
hasMinMaxStatsdeColumnStatsMapn’est pas correcte - Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
- Correction d’un problème de performances dans l’analyseur de requêtes
- Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
- Correction d’un problème touchant certaines requêtes d’auto-union
20 novembre 2018
- [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
6 novembre 2018
- [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
- 16 octobre 2018
- Correction d’un bogue touchant la sortie de l’exécution de
SHOW CREATE TABLEsur les tables Delta - Correction d’un bogue touchant l’opération
Union
- Correction d’un bogue touchant la sortie de l’exécution de
- 25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de
NotSerializableExceptiondans la source de données Avro
- 11 septembre 2018
-
[SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
failOnDataLoss=false - [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
- La réduction du filtre doit gérer correctement la valeur Null
-
[SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
- 28 août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
- 23 août 2018
- Correction de l’erreur NoClassDefError pour l’instantané Delta
-
[SPARK-23935] mapEntry lève l’exception
org.codehaus.commons.compiler.CompileException - [SPARK-24957][SQL] La moyenne avec décimale suivie d’une agrégation renvoie un résultat incorrect. Les résultats incorrects de AVERAGE peuvent être renvoyés. Le CAST ajouté dans l’opérateur Average sera contourné si le résultat de Divide est du même type que celui vers lequel il est casté
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
- [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
- [SPARK-24934][SQL] Ajoute explicitement sur une liste d’autorisation les types pris en charge dans les limites supérieures/inférieures pour le nettoyage des partitions en mémoire. Lorsque des types de données complexes sont utilisés dans des filtres de requête sur des données en cache, Spark renvoie toujours un jeu de résultats vide. Le nettoyage basé sur les statistiques en mémoire génère des résultats incorrects, car la valeur Null est définie comme limites supérieure/inférieure pour les types complexes. La correction consiste à ne pas utiliser le nettoyage basé sur les statistiques en mémoire pour les types complexes
- Correction de la révision du gestionnaire de secrets lorsque la commande réussit partiellement
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- 2 août 2018
- Ajout de l’API writeStream.table en Python
- Correction d’un problème touchant les points de contrôle Delta
- [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes
- Correction d’un problème qui pouvait amener la commande
mergeIntoà produire des résultats incorrects - Amélioration de la stabilité lors de l’accès à Azure Data Lake Storage Gen1
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
- [SPARK-24878][SQL] Correction de la fonction inverse pour le type de tableau de type primitif contenant la valeur Null
- 11 juillet 2018
- Correction d’un bogue dans l’exécution des requêtes qui faisait que les agrégations sur des colonnes décimales avec des précisions différentes renvoyaient des résultats incorrects dans certains cas
- Correction d’un bogue
NullPointerExceptionqui était lancé lors d’opérations d’agrégation avancées comme le regroupement d’ensembles
Databricks Runtime 4.1 ML
Consultez Databricks Runtime 4.1 ML (EoS).
- 31 juillet 2018
- Ajout d’Azure Synapse Analytics à ML Runtime 4.1
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Correction d’un bogue touchant la génération de code
- Correction d’un bogue (
java.lang.NoClassDefFoundError) touchant Delta Lake - Amélioration de la gestion des erreurs dans Delta Lake
- Correction d’un bogue qui entraînait la collecte de statistiques incorrectes relatives au saut de données pour les colonnes de chaîne de 32 caractères ou plus
Databricks Runtime 4.1
Consultez Databricks Runtime 4.1 (EoS).
- 8 janv. 2019
- [SPARK-26366]ReplaceExceptWithFilter doit considérer la valeur NULL comme une valeur False.
- Delta Lake est activé
- 18 décembre 2018
- [SPARK-25002]Avro : Révision de l’espace de noms des enregistrements de sortie
- Correction d’un problème touchant certaines requêtes qui utilisent Join et Limit
- [SPARK-26307]Correction de CTAS lorsque INSERT une table partitionnée en utilisant Hive SerDe.
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
spark.sql.files.ignoreCorruptFilesouspark.sql.files.ignoreMissingFilesest activé - Correction d’un problème concernant l’installation de roues Python dans des environnements sans accès à Internet
- Correction d’un problème dans PySpark qui entraînait l’échec des actions DataFrame avec l’erreur « connexion refusée »
- Correction d’un problème touchant certaines requêtes d’auto-union
- 20 novembre 2018
- [SPARK-17916][SPARK-25241] Correction de la chaîne vide étant analysée comme Null lorsque nullValue est défini
- Correction d’un problème concernant certaines requêtes d’agrégation avec des jointures semi/anti gauches
- 6 novembre 2018
- [SPARK-25741] Les URL longues ne sont pas rendues correctement dans l’interface utilisateur web
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
- 16 octobre 2018
- Correction d’un bogue touchant la sortie de l’exécution de
SHOW CREATE TABLEsur les tables Delta - Correction d’un bogue touchant l’opération
Union
- Correction d’un bogue touchant la sortie de l’exécution de
- 25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de
NotSerializableExceptiondans la source de données Avro
- 11 septembre 2018
-
[SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
failOnDataLoss=false - [SPARK-24987][SS] Correction de la fuite des consommateurs Kafka en l’absence de nouveaux décalages pour articlePartition
- La réduction du filtre doit gérer correctement la valeur Null
-
[SPARK-25214][SS] Correction du problème où la source Kafka v2 peut renvoyer des enregistrements dupliqués lorsque
- 28 août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
- [SPARK-25084] « distribuer par » sur plusieurs colonnes (mise entre crochets) peut entraîner un problème de codegen
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
- 23 août 2018
- Correction de l’erreur NoClassDefError pour l’instantané Delta
- [SPARK-24957][SQL] La moyenne avec décimale suivie d’une agrégation renvoie un résultat incorrect. Les résultats incorrects de AVERAGE peuvent être renvoyés. Le CAST ajouté dans l’opérateur Average sera contourné si le résultat de Divide est du même type que celui vers lequel il est casté
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- [SPARK-24934][SQL] Ajoute explicitement sur une liste d’autorisation les types pris en charge dans les limites supérieures/inférieures pour le nettoyage des partitions en mémoire. Lorsque des types de données complexes sont utilisés dans des filtres de requête sur des données en cache, Spark renvoie toujours un jeu de résultats vide. Le nettoyage basé sur les statistiques en mémoire génère des résultats incorrects, car la valeur Null est définie comme limites supérieure/inférieure pour les types complexes. La correction consiste à ne pas utiliser le nettoyage basé sur les statistiques en mémoire pour les types complexes
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- Correction de la rédaction du gestionnaire de secrets lorsque la commande réussit partiellement
- 2 août 2018
- [SPARK-24613][SQL] Le cache avec UDF n’a pas pu être mis en correspondance avec les caches dépendants suivants. Enveloppe le plan logique dans un élément AnalysisBarrier pour la compilation du plan d’exécution dans CacheManager, afin d’éviter que le plan soit à nouveau analysé. Il s’agit également d’une régression de Spark 2.3
- Correction d’un problème de connecteur Synapse Analytics touchant la conversion du fuseau horaire pour l’écriture de données DateType
- Correction d’un problème touchant les points de contrôle Delta
- Correction d’un problème qui pouvait amener la commande
mergeIntoà produire des résultats incorrects - [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
- 11 juillet 2018
- Correction d’un bogue dans l’exécution des requêtes qui faisait que les agrégations sur des colonnes décimales avec des précisions différentes renvoyaient des résultats incorrects dans certains cas
- Correction d’un bogue
NullPointerExceptionqui était lancé lors d’opérations d’agrégation avancées comme le regroupement d’ensembles
- 28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
- 7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Correction d’un bogue touchant la génération de code
- Correction d’un bogue (
java.lang.NoClassDefFoundError) touchant Delta Lake - Amélioration de la gestion des erreurs dans Delta Lake
- 17 mai 2018
- Correction d’un bogue qui entraînait la collecte de statistiques incorrectes relatives au saut de données pour les colonnes de chaîne de 32 caractères ou plus
Databricks Runtime 4.0
Consultez Databricks Runtime 4.0 (EoS).
- 6 novembre 2018
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
- 16 octobre 2018
- Correction d’un bogue touchant l’opération
Union
- Correction d’un bogue touchant l’opération
- 25 septembre 2018
- [SPARK-25368][SQL] Une inférence de contrainte incorrecte renvoie un résultat erroné
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de
NotSerializableExceptiondans la source de données Avro
- 11 septembre 2018
- La réduction du filtre doit gérer correctement la valeur Null
- 28 août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
- 23 août 2018
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- Correction de la rédaction du gestionnaire de secrets lorsque la commande réussit partiellement
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
- 2 août 2018
- [SPARK-24452] Évite tout dépassement possible dans int add ou multiple
- [SPARK-24588] La jointure en continu doit nécessiter HashClusteredPartitioning des enfants
- Correction d’un problème qui pouvait amener la commande
mergeIntoà produire des résultats incorrects - [SPARK-24867][SQL] Ajout de AnalysisBarrier à DataFrameWriter. Le cache SQL n’est pas utilisé lors de l’utilisation de DataFrameWriter pour écrire un DataFrame avec UDF. Il s’agit d’une régression causée par les modifications que nous avons apportées à AnalysisBarrier, car les règles de l’analyseur ne sont pas toutes idempotentes
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
- 28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
- 7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Amélioration de la gestion des erreurs dans Delta Lake
- 17 mai 2018
- Correction de bogues pour la gestion des secrets Databricks
- Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
- Correction d’un bogue concernant la mise en cache des RDD
- Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
- 24 avril 2018
- Mise à niveau du Kit de développement logiciel (SDK) Azure Data Lake Store de la version 2.0.11 vers la version 2.2.8 pour améliorer la stabilité de l’accès à Azure Data Lake Store
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque
spark.databricks.io.hive.fastwriter.enableda la valeurfalse - Correction d’un problème qui faisait échouer la sérialisation des tâches
- Amélioration de la stabilité de Delta Lake
- 14 mars 2018
- Empêche les mises à jour inutiles des métadonnées lors de l’écriture dans Delta Lake
- Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie
Databricks Runtime 3.5 LTS
Consultez Databricks Runtime 3.5 LTS (EoS).
7 novembre 2019
- [SPARK-29743] [SQL] L’échantillon doit définir needCopyResult sur true si le needCopyResult de son enfant est true
8 octobre 2019
- Changements côté serveur pour permettre au pilote ODBC Apache Spark de Simba de se reconnecter et de continuer après un échec de connexion pendant l’extraction des résultats (nécessite la mise à jour du pilote ODBC Apache Spark de Simba vers la version 2.6.10)
10 septembre 2019
- [SPARK-28699][SQL] Désactive l’utilisation du tri de base pour ShuffleExchangeExec dans le cas d’un repartitionnement
9 avril 2019
- [SPARK-26665][CORE] Correction d’un bogue pouvant entraîner le blocage permanent de BlockTransferService.fetchBlockSync
12 février 2019
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
spark.network.crypto.enabledest défini sur true)
- Correction d’un problème pouvant entraîner l’arrêt du protocole réseau de bas niveau de Spark lors de l’envoi de messages d’erreur RPC volumineux avec le chiffrement activé (lorsque
30 janvier 2019
- Correction d’un problème pouvant amener
df.rdd.count()avec UDT à renvoyer une réponse incorrecte dans certains cas
- Correction d’un problème pouvant amener
18 décembre 2018
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
spark.sql.files.ignoreCorruptFilesouspark.sql.files.ignoreMissingFilesest activé - Correction d’un problème touchant certaines requêtes d’auto-union
- Ignore uniquement les fichiers endommagés après une ou plusieurs nouvelles tentatives lorsque l’indicateur
20 novembre 2018
- [SPARK-25816] Correction de la résolution des attributs dans les extracteurs imbriqués
6 novembre 2018
- [SPARK-25714] Corrige la gestion des valeurs Null dans la règle BooleanSimplification de l’optimiseur
- 16 octobre 2018
- Correction d’un bogue touchant l’opération
Union
- Correction d’un bogue touchant l’opération
- 25 septembre 2018
- [SPARK-25402][SQL] Gestion des valeurs Null dans BooleanSimplification
- Correction de
NotSerializableExceptiondans la source de données Avro
- 11 septembre 2018
- La réduction du filtre doit gérer correctement la valeur Null
- 28 août 2018
- Correction d’un bogue dans la commande Delta Lake Delete qui supprimait incorrectement les lignes où la condition a la valeur Null
- [SPARK-25114] Correction de RecordBinaryComparator lorsque la soustraction entre deux mots est divisible par Integer.MAX_VALUE
- 23 août 2018
- [SPARK-24809] La sérialisation de LongHashedRelation dans l’exécuteur peut entraîner une erreur de données
- Correction du problème de mappage pouvant accepter la valeur Null dans le lecteur Parquet
- [SPARK-25081] Correction d’un bogue où ShuffleExternalSorter peut accéder à une page de mémoire libérée lorsque le déversement ne parvient pas à allouer de la mémoire
- Correction d’une interaction entre Databricks Delta et Pyspark, ce qui pouvait entraîner des échecs de lecture temporaires
- 28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
- 28 juin 2018
- Correction d’un bogue qui pouvait entraîner des résultats de requête incorrects lorsque le nom d’une colonne de partition utilisée dans un prédicat diffère de la casse de cette colonne dans le schéma de la table
- 7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Amélioration de la gestion des erreurs dans Delta Lake
- 17 mai 2018
- Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
- Correction d’un bogue concernant la mise en cache des RDD
- Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
- Correction d’un bogue touchant certaines agrégations dans les requêtes de streaming
- 24 avril 2018
- Mise à niveau du Kit de développement logiciel (SDK) Azure Data Lake Store de la version 2.0.11 vers la version 2.2.8 pour améliorer la stabilité de l’accès à Azure Data Lake Store
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque
spark.databricks.io.hive.fastwriter.enableda la valeurfalse - Correction d’un problème qui faisait échouer la sérialisation des tâches
- 09 mars 2018
- Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie
- 01 mars 2018
- Amélioration de l’efficacité de la gestion des flux dont l’arrêt peut prendre beaucoup de temps
- Correction d’un problème concernant l’autocomplétion en Python
- Application des correctifs de sécurité Ubuntu
- Correction d’un problème touchant certaines requêtes qui utilisent des UDF Python et des fonctions de fenêtre
- Correction d’un problème concernant l’utilisation des UDF sur un cluster dont le contrôle d’accès aux tables est activé
- 29 janvier 2018
- Correction d’un problème concernant la manipulation de tables stockées dans Stockage Blob Azure
- Correction de l’agrégation après l’opération dropDuplicates sur un DataFrame vide
Databricks Runtime 3.4
Consultez Databricks Runtime 3.4 (EoS).
- 7 juin 2018
- Correction d’un bogue concernant le moteur d’exécution Spark SQL
- Amélioration de la gestion des erreurs dans Delta Lake
- 17 mai 2018
- Amélioration de la stabilité lors de la lecture des données stockées dans Azure Data Lake Store
- Correction d’un bogue concernant la mise en cache des RDD
- Correction d’un bogue concernant l’opérateur Null-safe Equal dans Spark SQL
- 24 avril 2018
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque
spark.databricks.io.hive.fastwriter.enableda la valeurfalse
- Correction d’un bogue concernant l’insertion de remplacements dans les tables Hive partitionnées lorsque
- 09 mars 2018
- Correction d’un problème causé par une condition de concurrence qui pouvait, dans de rares circonstances, entraîner la perte de certains fichiers de sortie
- 13 décembre 2017
- Correction d’un problème concernant les UDF en Scala
- Correction d’un problème concernant l’utilisation d’un index de saut de données sur les tables de sources de données stockées sous des chemins non DBFS
- 07 décembre 2017
- Amélioration de la stabilité de la lecture aléatoire
Versions non prises en charge de Databricks Runtime
Pour les notes de publication d’origine, suivez le lien situé sous le sous-titre.