Databricks Runtime 7.0 (EoS)

Nota:

El soporte técnico con esta versión de Databricks Runtime ha finalizado. Para obtener la fecha de finalización del soporte técnico, consulte Historial de finalización del soporte técnico. Para ver todas las versiones de Databricks Runtime con soporte técnico, consulte las notas de la versión de Databricks Runtime versiones y compatibilidad.

Databricks publicó esta versión en junio de 2020.

Las siguientes notas de la versión proporcionan información sobre Databricks Runtime 7.0, con tecnología de Apache Spark 3.0.

Nuevas características

Databricks Runtime 7.0 incluye las siguientes características nuevas:

Scala 2.12

Databricks Runtime 7.0 actualiza Scala de 2.11.12 a 2.12.10. La lista de cambios entre Scala 2.12 y 2.11 se encuentra en las notas de la versión de Scala 2.12.0.
Auto Loader (Versión preliminar pública), publicado en Databricks Runtime 6.4, se ha mejorado en Databricks Runtime 7.0

Auto Loader proporciona una manera más eficaz de procesar nuevos archivos de datos de forma incremental a medida que llegan a un almacén de blobs en la nube durante ETL. Se trata de una mejora con respecto a Structured Streaming basado en archivos, que identifica los nuevos archivos enumerando repetidamente el directorio en la nube y haciendo un seguimiento de los archivos que se han visto, y puede ser muy ineficaz a medida que crece el directorio. El cargador automático también es más cómodo y eficaz que el streaming estructurado basado en notificaciones de archivos, lo que requiere que configure manualmente los servicios de notificación de archivos en la nube y no le permita rellenar los archivos existentes. Para obtener más información, consulte ¿Qué es el cargador automático?.

En Databricks Runtime 7.0 ya no es necesario solicitar una imagen de Databricks Runtime personalizada para usar Auto Loader.
COPY INTO (Versión preliminar pública), que permite cargar datos en Delta Lake con reintentos idempotentes, se ha mejorado en Databricks Runtime 7.0

Publicado como Versión preliminar pública en Databricks Runtime 6.4, el comando SQL COPY INTO permite cargar datos en Delta Lake con reintentos idempotentes. Para cargar datos en Delta Lake hoy en día, debe usar las API de DataFrame de Apache Spark. Si hay errores durante las cargas, debe controlarlos de forma eficaz. El nuevo comando COPY INTO proporciona una interfaz declarativa conocida, para cargar datos en SQL. El comando realiza un seguimiento de los archivos cargados previamente, y el usuario lo vuelve a ejecutar de forma segura en caso de errores. Para obtener más información, consulte COPY INTO.

Mejoras

El conector de Azure Synapse (anteriormente SQL Data Warehouse) admite la instrucción COPY.

La principal ventaja de COPY es que los usuarios con menos privilegios pueden escribir datos en Azure Synapse sin necesidad de permisos CONTROL estrictos en Azure Synapse.
El comando magic %matplotlib inline ya no es necesario para mostrar objetos de Matplolibalineados en las celdas del cuaderno. Siempre se muestran alineados de manera predeterminada.
Las figuras de Matplolib ahora se representan con transparent=False, para que los fondos especificados por el usuario no se pierdan. Este comportamiento puede invalidarse estableciendo la configuración spark.databricks.workspace.matplotlib.transparent true de Spark.
Al ejecutar trabajos de producción de Structured Streaming en clústeres en modo de simultaneidad alta, los reinicios de un trabajo producirían errores ocasionalmente, ya que el trabajo que se estaba ejecutando anteriormente no se terminó correctamente. Databricks Runtime 6.3 introdujo la capacidad de establecer la configuración spark.sql.streaming.stopActiveRunOnRestart true de SQL en el clúster, para asegurarse de que se detiene la ejecución anterior. Esta configuración se establece de manera predeterminada en Databricks Runtime 7.0.

Cambios importantes en la biblioteca

Paquetes de Python

Paquetes importantes de Python actualizados:

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 -> 3.1.3
numpy 1.16.2 -> 1.18.1
pandas 0.24.2 -> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 -> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

Paquetes de Python quitados:

boto (utilice boto3)
pycurl

Nota:

El entorno de Python de Databricks Runtime 7.0 usa Python 3.7, que es diferente de la versión de Python con el sistema Ubuntu instalado: /usr/bin/python y /usr/bin/python2 están vinculados a Python 2.7 y /usr/bin/python3 está vinculado a Python 3.6.

Paquetes de R

Paquetes de R agregados:

escoba
más alto
isoband
tejido
Formato Markdown
modelr
ejemplo reproducible
rmarkdown
rvest
selectr
tidyverse
tinytex
xfun

Paquetes de R quitados:

abind
bitops
automóvil
datosDelCoche
doMC
Gbm
H₂O
más pequeño/a
lme4
mapproj
Mapas
maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils
RcppEigen
RCurl
río
Sp
DispersoM
statmod
cremallera

Bibliotecas de Java y Scala

La versión de Apache Hive usada para controlar funciones definidas por el usuario de Hive y Hive SerDes se ha actualizado a la versión 2.3.
Anteriormente, los archivos jar de Azure Storage y Key Vault se empaquetaban como parte de Databricks Runtime, lo que impedía usar versiones diferentes de esas bibliotecas asociadas a clústeres. Las clases en com.microsoft.azure.storage y com.microsoft.azure.keyvault ya no están en la ruta de acceso de clase en Databricks Runtime. Si depende de cualquiera de esas rutas de acceso de clase, ahora debe asociar Azure Storage SDK o Azure Key Vault SDK a los clústeres.

Cambios de comportamiento

En esta sección se enumeran los cambios de comportamiento de Databricks Runtime 6.6 a Databricks Runtime 7.0. Debe tener en cuenta estos cambios a medida que migra cargas de trabajo de versiones anteriores de Databricks Runtime a Databricks Runtime 7.0 y posteriores.

Cambios de comportamiento en Spark

Como Databricks Runtime 7.0 es el primer Databricks Runtime basado en Spark 3.0, hay muchos cambios que debe tener en cuenta al migrar cargas de trabajo desde Databricks Runtime 5.5 LTS o 6.x, que se basan en Spark 2.4. Estos cambios se enumeran en la sección "Cambios de comportamiento" de cada área funcional, en la sección de Apache Spark de este artículo de notas de la versión:

Cambios de comportamiento para Spark Core, Spark SQL y Structured Streaming
Cambios de comportamiento para MLlib
Cambios de comportamiento para SparkR

Otros cambios de comportamiento

La actualización a Scala 2.12 implica los siguientes cambios:
- La serialización de celdas de paquetes se controla de forma diferente. En el ejemplo siguiente se muestra el cambio de comportamiento y cómo controlarlo.
  
  Si se ejecuta foo.bar.MyObjectInPackageCell.run() como se define en la siguiente celda de paquetes, se desencadenará el error java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Para evitar este error, puede encapsular MyObjectInPackageCell dentro de una clase serializable.
- Algunos casos que usan DataStreamWriter.foreachBatch requerirán una actualización del código fuente. Este cambio se debe al hecho de que Scala 2.12 tiene conversión automática de expresiones lambda a tipos SAM y puede provocar ambigüedad.
  
  Por ejemplo, el código de Scala siguiente no se puede compilar:
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Para corregir el error de compilación, cambie foreachBatch { (df, id) => myFunc(df, id) } a foreachBatch(myFunc _) o use la API de Java explícitamente: foreachBatch(new VoidFunction2 ...).

Dado que la versión de Apache Hive que se usa para controlar las funciones definidas por el usuario de Hive y Hive SerDes se actualiza a la versión 2.3, se requieren dos cambios:
- La interfaz de SerDe Hive se reemplaza por una clase AbstractSerDeabstracta . Para cualquier implementación personalizada de Hive SerDe es necesario migrar a AbstractSerDe.
- Establecer spark.sql.hive.metastore.jars en builtin implica que se usará el cliente de metastore de Hive 2.3 para acceder a los metastores de Databricks Runtime 7.0.x. Si necesita acceder a los metastores externos basados en Hive 1.2, establezca spark.sql.hive.metastore.jars en la carpeta que contiene los archivos jar de Hive 1.2.

Desusos y eliminaciones

El índice de omisión de datos quedó en desuso a partir de Databricks Runtime 4.3 y se eliminó en Databricks Runtime 7.0. Se recomienda usar tablas Delta en su lugar, que ofrecen funcionalidades mejoradas de omisión de datos.
En Databricks Runtime 7.0, la versión subyacente de Apache Spark usa Scala 2.12. Dado que las bibliotecas compiladas en Scala 2.11 pueden deshabilitar los clústeres de Databricks Runtime 7.0 de formas inesperadas, los clústeres que ejecutan Databricks Runtime 7.0 y posteriores no instalan bibliotecas configuradas para instalarse en todos los clústeres. La pestaña Libraries (Bibliotecas) del clúster muestra un estado Skipped y un mensaje de desuso que explica los cambios en el control de bibliotecas. Pero si tiene un clúster que se creó en una versión anterior de Databricks Runtime, antes de que se publicara en el área de trabajo la versión 3.20 de la plataforma Azure Databricks, y ahora edita ese clúster para usar Databricks Runtime 7.0, todas las bibliotecas configuradas para instalarse en todos los clústeres se instalarán en ese clúster. En este caso, los archivos JAR incompatibles de las bibliotecas instaladas pueden hacer que el clúster se deshabilite. La solución alternativa es clonar el clúster o crear uno nuevo.

Apache Spark

Databricks Runtime 7.0 incluye Apache Spark 3.0.

Core, Spark SQL, Structured Streaming

Aspectos destacados

(Project Hydrogen) Programador compatible con acelerador (SPARK-24615)
Ejecución de consultas adaptables (SPARK-31412)
Eliminación dinámica de particiones (SPARK-11150)
API UDF de Pandas rediseñada con sugerencias de tipo (SPARK-28264)
UI de Structured Streaming (SPARK-29543)
API del complemento de catálogo (SPARK-31121)
Mejor compatibilidad de SQL ANSI

Mejoras de rendimiento

Ejecución de consultas adaptables (SPARK-31412)
- Marco básico (SPARK-23128)
- Ajuste posterior del número de partición aleatorio (SPARK-28177)
- Reutilización de subconsulta dinámica (SPARK-28753)
- Lector aleatorio local (SPARK-28560)
- Optimización de la combinación de sesgos (SPARK-29544)
- Optimización de la lectura de bloques aleatorios contiguos (SPARK-9853)
Eliminación dinámica de particiones (SPARK-11150)
Otras reglas del optimizador
- Regla ReuseSubquery (SPARK-27279)
- Regla PushDownLeftSemiAntiJoin (SPARK-19712)
- Regla PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Regla ReplaceNullWithFalse (SPARK-25860)
- Regla Eliminar ordenaciones sin límite en la subconsulta de combinación/agregación (SPARK-29343)
- Regla PruneHiveTablePartitions (SPARK-15616)
- Eliminar campos anidados innecesarios de Generate (SPARK-27707)
- Regla RewriteNonCorrelatedExists (SPARK-29800)
Minimizar los costes de sincronización de caché de tablas (SPARK-26917), (SPARK-26617) (SPARK-26548)
Dividir el código de agregación en funciones pequeñas (SPARK-21870)
Agregue procesamiento por lotes en los comandos INSERT y ALTER TABLE ADD PARTITION (SPARK-29938)

Mejoras de extensibilidad

API del complemento de catálogo (SPARK-31121)
Refactorización de API de origen de datos V2 (SPARK-25390)
Compatibilidad con la metastore de Hive 3.0 y 3.1 (SPARK-27970), (SPARK-24360)
Extensión de la interfaz del complemento Spark al controlador (SPARK-29396)
Extensión del sistema de métricas de Spark con métricas definidas por el usuario mediante complementos de ejecutor (SPARK-28091)
API de desarrolladores para la compatibilidad ampliada con el procesamiento de columnas (SPARK-27396)
Migración de origen integrada mediante DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
Permita FunctionInjection en SparkExtensions (SPARK-25560)
Permite que el Agregador se registre como UDAF (SPARK-27296)

Mejoras del conector

Eliminación de columnas mediante expresiones no deterministas (SPARK-29768)
Compatibilidad con spark.sql.statistics.fallBackToHdfs en tablas de origen de datos (SPARK-25474)
Permita la eliminación de particiones con filtros de subconsulta en el origen de archivo (SPARK-26893)
Evite la delegación de subconsultas en filtros de origen de datos (SPARK-25482)
Carga recursiva de datos desde orígenes de archivos (SPARK-27990)
Parquet/ORC
- Delegación de predicados disyuntivos (SPARK-27699)
- Generalizar la eliminación de columnas anidadas (SPARK-25603) y su activación de manera predeterminada (SPARK-29805)
- Solo Parquet
  - Aplicación de predicado parquet para campos anidados (SPARK-17636)
- Solo ORC
  - Compatibilidad con el esquema de combinación para ORC (SPARK-11412)
  - Eliminar esquemas anidados para ORC (SPARK-27034)
  - Reducción de complejidad de la conversión de predicados para ORC (SPARK-27105, SPARK-28108)
  - Actualización de Apache ORC a 1.5.9 (SPARK-30695)
CSV
- Compatibilidad con delegación de filtros en el origen de datos de CSV (SPARK-30323)
Hive SerDe
- No hay inferencia de esquema al leer la tabla serde de Hive con el origen de datos nativo (SPARK-27119)
- Los comandos CTAS de Hive deben usar el origen de datos si es convertible (SPARK-25271)
- Uso del origen de datos nativo para optimizar la inserción de tablas de Hive con particiones (SPARK-28573)
Apache Kafka
- Adición de compatibilidad con encabezados Kafka (SPARK-23539)
- Adición de compatibilidad con tokens de delegación de Kafka (SPARK-25501)
- Introducción de una nueva opción al origen de Kafka: desplazamiento por marca de tiempo (inicio/final) (SPARK-26848)
- Compatibilidad con la opción minPartitions en origen por lotes de Kafka y origen de streaming v1 (SPARK-30656)
- Actualización de Kafka a la versión 2.4.1 (SPARK-31126)
Nuevos orígenes de datos integrados
- Nuevos orígenes de datos de archivos binarios integrados (SPARK-25348)
- Nuevos orígenes de datos por lotes no operativos (SPARK-26550) y receptor de streaming no operativo (SPARK-26649)

Mejoras de las características

[Hydrogen] Programador compatible con acelerador (SPARK-24615)
Introducción a un conjunto completo de Sugerencias de combinación (SPARK-27225)
Agregar sugerencia PARTITION BY para consultas SQL (SPARK-28746)
Control de metadatos en un servidor Thrift (SPARK-28426)
Adición de funciones de orden superior a la API de Scala (SPARK-27297)
Compatibilidad con la recopilación de todo simple en el contexto de la tarea de barrera (SPARK-30667)
Las UDF de Hive admiten el tipo UDT (SPARK-28158)
Compatibilidad con los operadores DELETE/UPDATE/MERGE en Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
Implementación de DataFrame.tail (SPARK-30185)
Nuevas funciones integradas
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- cualquiera, cada, algunos (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- entradas_del_mapa (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- versión (SPARK-29554)
- xxhash64 (SPARK-27099)
Mejoras en las funciones integradas existentes
- Mejoras de las operaciones o funciones integradas de fecha y hora (SPARK-31415)
- Modo de FAILFAST compatible para from_json (SPARK-25243)
- array_sort agrega un nuevo parámetro de comparador (SPARK-29020)
- El filtro ahora puede tomar el índice como entrada, así como el elemento (SPARK-28962)

Mejoras de compatibilidad de SQL

Cambio al calendario gregoriano proléptico (SPARK-26651)
Construir la propia definición del patrón de fecha y hora de Spark (SPARK-31408)
Introducción de la directiva de asignación de almacén ANSI para la inserción de tablas (SPARK-28495)
Seguir la regla de asignación de almacén ANSI, en la inserción de tablas, de manera predeterminada (SPARK-28885)
Agregar un patrón spark.sql.ansi.enabled de SQLConf (SPARK-28989)
Compatibilidad con la cláusula de filtro SQL ANSI para la expresión de agregado (SPARK-27986)
Compatibilidad con la función OVERLAY de SQL ANSI (SPARK-28077)
Compatibilidad con comentarios de ANSI anidados entre corchetes (SPARK-28880)
Excepción en el desbordamiento para enteros (SPARK-26218)
Comprobación de desbordamiento para operaciones aritméticas de intervalo (SPARK-30341)
Excepción cuando la cadena no válida se convierte al tipo numérico (SPARK-30292)
Asegurar que el comportamiento de desbordamiento al multiplicar y dividir intervalos sea consistente con otras operaciones (SPARK-30919)
Agregar alias de tipo ANSI para datos char y decimal (SPARK-29941)
El analizador SQL define palabras clave reservadas compatibles con ANSI (SPARK-26215)
Prohibición de palabras clave reservadas como identificadores cuando el modo ANSI está encendido (SPARK-26976)
Compatibilidad con la sintaxis LIKE ... ESCAPE de SQL ANSI (SPARK-28083)
Compatibilidad con la sintaxis Boolean-Predicate (booleano-predicado) de SQL ANSI (SPARK-27924)
Mejor compatibilidad con el procesamiento de subconsulta correlacionada (SPARK-18455)

Mejoras de supervisión y depuración

UI nueva de Structured Streaming (SPARK-29543)
SHS: permita que se reviertan los registros de eventos para ejecutar aplicaciones de streaming (SPARK-28594)
Agregue una API que permita a un usuario definir y observar métricas arbitrarias en consultas por lotes y streaming (SPARK-29345)
Instrumentación para el seguimiento del tiempo de planificación por consulta (SPARK-26129)
Coloque las métricas básicas de orden aleatorio en el operador de intercambio SQL (SPARK-26139)
La instrucción SQL se muestra en SQL Tab en lugar de en callsite (SPARK-27045)
Adición de información sobre herramientas a SparkUI (SPARK-29449)
Mejora del rendimiento simultáneo del Historial del servidor (SPARK-29043)
comando EXPLAIN FORMATTED (SPARK-27395)
Compatibilidad con el volcado de planes truncados y el código generado en un archivo (SPARK-26023)
Mejora del marco de descripción para describir la salida de una consulta (SPARK-26982)
Agregación del comando SHOW VIEWS (SPARK-31113)
Mejora de los mensajes de error del analizador de SQL (SPARK-27901)
Compatibilidad con la supervisión de Prometheus de forma nativa (SPARK-29429)

Mejoras de PySpark

UDF de Pandas rediseñados con sugerencias de tipo (SPARK-28264)
Canalización de UDF de Pandas (SPARK-26412)
Compatibilidad con StructType como argumentos y tipos de valor devuelto para la UDF escalar de Pandas (SPARK-27240)
Compatibilidad con DataFrame Cogroup mediante UDF de Pandas (SPARK-27463)
Agregación de mapInPandas para permitir un iterador de DataFrames (SPARK-28198)
Algunas funciones SQL deben tomar también nombres de columna (SPARK-26979)
Hacer que las excepciones SQL de PySpark se parezcan más a las de Python (SPARK-31849)

Mejoras en la documentación y la cobertura de pruebas

Crear una referencia SQL (SPARK-28588)
Creación de una guía de usuario para WebUI (SPARK-28372)
Creación de una página para la documentación de la configuración SQL (SPARK-30510)
Agregar información de versión para la configuración de Spark (SPARK-30839)
Pruebas de regresión de puertos de PostgreSQL (SPARK-27763)
Cobertura de pruebas de servidores de Thrift (SPARK-28608)
Cobertura de pruebas de UDF (UDF de Python, UDF de Pandas, UDF de Scala) (SPARK-27921)

Otros cambios importantes

Actualización de ejecución integrada de Hive de 1.2.1 a 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Uso de la dependencia de Apache Hive 2.3 de manera predeterminada (SPARK-30034)
GA Scala 2.12 y eliminación de la versión 2.11 (SPARK-26132)
Mejora de la lógica para los ejecutores de tiempo de espera en la asignación dinámica (SPARK-20286)
Bloques RDD persistentes en disco, servidos por el servicio de orden aleatorio y omitidos para la asignación dinámica (SPARK-27677)
Adquisición de nuevos ejecutores para evitar el bloqueo debido a la lista de bloqueados (SPARK-22148)
Permitir el uso compartido de asignadores de grupo de memoria de Netty (SPARK-24920)
Corrección del interbloqueo entre TaskMemoryManager y UnsafeExternalSorter$SpillableIterator (SPARK-27338)
Introducción de las API de AdmissionControl para StructuredStreaming (SPARK-30669)
Mejora del rendimiento de la página principal del historial de Spark (SPARK-25973)
Acelere y aligere la agregación de métricas en el agente de escucha SQL (SPARK-29562)
Evite la red cuando se capturan bloques aleatorios desde el mismo host (SPARK-27651)
Mejora de la lista de archivos para DistributedFileSystem (SPARK-27801)

Cambios de comportamiento para Spark Core, Spark SQL y Structured Streaming

Las siguientes guías de migración enumeran los cambios de comportamiento entre Apache Spark 2.4 y 3.0. Estos cambios pueden requerir actualizaciones de los trabajos que se han estado ejecutando en versiones anteriores de Databricks Runtime:

Los siguientes cambios de comportamiento no se tratan en estas guías de migración:

En Spark 3.0 se ha quitado la clase org.apache.spark.sql.streaming.ProcessingTime en desuso. En su lugar, use org.apache.spark.sql.streaming.Trigger.ProcessingTime. Del mismo modo, se ha quitado org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger en favor de Trigger.Continuous, y org.apache.spark.sql.execution.streaming.OneTimeTrigger se ha ocultado en favor de Trigger.Once. (SPARK-28199)
En Databricks Runtime 7.0, al leer una tabla de Hive SerDe, Spark no permite de manera predeterminada leer archivos en un subdirectorio que no sea una partición de tabla. Para habilitarlo, establezca la configuración spark.databricks.io.hive.scanNonpartitionedDirectory.enabled en true. Esto no afecta a los lectores de tablas nativas de Spark ni a los lectores de archivos.

MLlib

Aspectos destacados

Se ha agregado compatibilidad con varias columnas a Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) y PySpark QuantileDiscretizer (SPARK-22796)
Compatibilidad con la transformación de la característica basada en árbol (SPARK-13677)
Se han agregado dos nuevos evaluadores MultilabelClassificationEvaluator (SPARK-16692) y RankingEvaluator (SPARK-28045)
Se agregó compatibilidad con pesos de ejemplo en DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) y GaussianMixture (SPARK-30102)
Se ha agregado la API de R para PowerIterationClustering (SPARK-19827)
Se ha agregado el agente de escucha de Spark ML, para realizar el seguimiento del estado de la canalización ML (SPARK-23674)
Se agregó el ajuste con un conjunto de validación a árboles impulsados por gradiente en Python (SPARK-24333)
Se ha agregado el transformador RobustScaler (SPARK-28399)
Se han agregado clasificadores y regresores de Factorization Machines (SPARK-29224)
Se agregaron Gaussian Naive Bayes (SPARK-16872) y Complement Naive Bayes (SPARK-29942)
Paridad de función ML entre Scala y Python (SPARK-28958)
predictRaw se hace público en todos los Modelos de clasificación. predictProbability se hace público en todos los Modelos de clasificación excepto LinearSVCModel (SPARK-30358)

Cambios de comportamiento para MLlib

Guía de migración: MLlib (Machine Learning)

Los siguientes cambios de comportamiento no se tratan en la guía de migración:

En Spark 3.0, una regresión logística multiclase en Pyspark ahora devolverá (correctamente) LogisticRegressionSummary, no la subclase BinaryLogisticRegressionSummary. De todos modos, los métodos adicionales expuestos por BinaryLogisticRegressionSummary no funcionarán en este caso. (SPARK-31681)
En Spark 3.0, los mixins de pyspark.ml.param.shared.Has* ya no proporcionan ningún método Setter set*(self, value). En su lugar, use la instrucción self.set(self.*, value) correspondiente. Consulte SPARK-29093 para más detalles. (SPARK-29093)

SparkR

Optimización de flechas en la interoperabilidad de SparkR (SPARK-26759)
Mejora del rendimiento mediante R vectorizado gapply(), dapply(), createDataFrame, collect()
"Ejecución diligente" para el shell de R, IDE (SPARK-24572)
API de R para la agrupación en clústeres de iteración de energía (SPARK-19827)

Cambios de comportamiento en SparkR

Guía de migración: SparkR (R en Spark)

En desuso

Compatibilidad con Python 2 en desuso (SPARK-27884)
Compatibilidad con R < 3.4 en desuso (SPARK-26014)

Problemas conocidos

El análisis del día del año mediante la letra de patrón 'D' devuelve el resultado incorrecto si falta el campo año. Esto puede ocurrir en funciones SQL como to_timestamp, que analiza la cadena datetime como valores de datetime (fecha y hora) mediante una cadena de patrón. (SPARK-31939)
Las subconsultas internas de combinación, de ventana o de funciones agregadas pueden dar lugar a resultados incorrectos, si las claves tienen valores -0.0 y 0.0. (SPARK-31958)
Una consulta de ventana puede producir un error inesperado de autocombinación ambigua. (SPARK-31956)
Es posible que las consultas de streaming con el operador dropDuplicates no puedan reiniciarse con el punto de control escrito por Spark 2.x. (SPARK-31990)

Actualizaciones de mantenimiento

Consulte Actualizaciones de mantenimiento de Databricks Runtime 7.0.

Entorno del sistema

Sistema operativo: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: Versión R 3.6.3 (29-02-2020)
Delta Lake 0.7.0

Bibliotecas de Python instaladas

Biblioteca	Versión	Biblioteca	Versión	Biblioteca	Versión
asn1crypto	1.3.0	llamada de retorno	0.1.0	boto3	1.12.0
botocore	1.15.0	certifi	2020.4.5	cffi	1.14.0
chardet	3.0.4	criptografía	2.8	ciclista	0.10.0
Cython	0.29.15	decorador	4.4.1	docutils	0.15.2
puntos de entrada	0,3	idna	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	Jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	Cliente Jupyter	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	3.1.3
numpy	1.18.1	Pandas	1.0.1	parso	0.5.2
chivo expiatorio	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
pepita	20.0.2	prompt-toolkit	3.0.3	psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2.19
Pygments	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
Python-dateutil	2.8.1	pytz	2019.3	pyzmq	18.1.1
Solicitudes	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
scipy	1.4.1	biblioteca de visualización de datos de Python llamada seaborn	0.10.0	setuptools	45.2.0
six (seis)	1.14.0	ssh-import-id	5.7	statsmodels (paquete de Python para análisis estadístico)	0.11.0
tornado	6.0.3	traitlets	4.3.3	actualizaciones desatendidas	0,1
urllib3	1.25.8	virtualenv	16.7.10	wcwidth	0.1.8
rueda	0.34.2

Bibliotecas de R instaladas

Las bibliotecas de R se instalan desde la instantánea de Microsoft CRAN del 22-04-2020.

Biblioteca	Versión	Biblioteca	Versión	Biblioteca	Versión
askpass	1.1	asegúrate de que	0.2.1	retroportaciones	1.1.6
base	3.6.3	base64enc	0.1-3	BH	1.72.0-3
poco	1.1-15.2	bit 64	0.9-7	mancha	1.2.1
bota	1.3-25	fermentar	1.0-6	escoba	0.5.6
callr	3.4.3	cursor	6.0-86	cellranger (herramienta de análisis de datos celulares)	1.1.0
Chron	2.3-55	clase	7.3-17	Cli	2.0.2
clipr	0.7.0	conglomerado	2.1.0	codetools	0.2-16
espacio de colores	1.4-1	commonmark	1.7	compilador	3.6.3
configuración	0,3	cubierta	3.5.0	crayón	1.3.4
diafonía	1.1.0.1	rizo	4.3	tabla de datos	1.12.8
conjuntos de datos	3.6.3	DBI	1.1.0	dbplyr	1.4.3
Descripción	1.2.0	devtools	2.3.0	digerir	0.6.25
dplyr	0.8.5	DIRECTOR TÉCNICO	0,13	elipsis	0.3.0
evaluar	0.14	fans	0.4.1	colores	2.0.3
mapa rápido	1.0.1	convictos	0.5.0	foreach	1.5.0
extranjero	0.8-76	fragua	0.2.0	Fs	1.4.1
genéricos	0.0.2	ggplot2	3.3.0	Gh	1.1.0
git2r	0.26.1	glmnet	3.0-2	globales	0.12.5
pegamento	1.4.0	Gower	0.2.1	elementos gráficos	3.6.3
grDevices	3.6.3	rejilla	3.6.3	gridExtra	2.3
gsubfn	0,7	gtable	0.3.0	refugio	2.2.0
más alto	0.8	HMS	0.5.3	herramientas de HTML	0.4.0
htmlwidgets	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	ini	0.3.1
ipred	0.9-9	isoband	0.2.1	Iteradores	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	tejido	1.28
etiquetado	0,3	más tarde	1.0.0	retícula	0.20-41
lava	1.6.7	evaluación diferida	0.2.2	ciclo de vida	0.2.0
lubridate	1.7.8	magrittr	1.5	Formato Markdown	1.1
MASA	7.3-51.6	Matriz	1.2-18	memorizar	1.1.0
métodos	3.6.3	mgcv	1.8-31	mimo	0.9
ModelMetrics	1.2.2.2	modelr	0.1.6	munsell	0.5.0
nlme	3.1-147	nnet	7.3-14	numDeriv	2016.8-1.1
openssl (software de cifrado)	1.4.1	paralelo	3.6.3	pilar	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	elogio	1.0.0
prettyunits	1.1.1	Proc	1.16.2	processx	3.4.2
prodlim	2019.11.13	progreso	1.2.2	promesas	1.1.0
prototipo	1.0.0	P.D	1.3.2	ronroneo	0.3.4
r2d3	0.2.3	R6	2.4.1	Bosque Aleatorio (randomForest)	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	readr	1.3.1	readxl	1.3.1
recetas	0.1.10	partido de revancha	1.0.1	segunda revancha	2.1.1
Telecontroles	2.1.1	ejemplo reproducible	0.3.0	reshape2	1.4.4
Rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0,11	rversions	2.0.1
rvest	0.3.5	balanzas	1.1.0	selectr	0.4-2
información de sesión	1.1.1	forma	1.4.4	brillante	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
espacial	7.3-11	Tiras	3.6.3	sqldf	0.4-11
SQUAREM	2020.2	Estadísticas	3.6.3	estadísticas4	3.6.3
stringi	1.4.6	stringr	1.4.0	supervivencia	3.1-12
sys	3.3	tcltk	3.6.3	TeachingDemos	2,10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
tidyselect	1.0.0	tidyverse	1.3.0	fechaHora	3043.102
tinytex	0,22	herramientas	3.6.3	usa esto	1.6.0
utf8	1.1.4	utilidades	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	bigotes	0,4	withr	2.2.0
xfun	0,13	xml2	1.3.1	xopen	1.0.0
xtable	1.8-4	yaml	2.2.1

Bibliotecas de Java y Scala instaladas (versión de clúster de Scala 2.12)

Identificador de grupo	Identificador de artefacto	Versión
antlr	antlr	2.7.7
com.amazonaws	cliente de Amazon Kinesis	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config (configuración del SDK de Java de AWS)	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing (paquete de software para la gestión de balanceo de carga elástica)	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis (kit de desarrollo de software Java para AWS Kinesis)	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs (registros del SDK de AWS para Java)	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway (SDK de Java para Storage Gateway de AWS)	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	SDK de AWS para Java - Soporte	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	flujo	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo sombreado	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	compañero de clase	1.3.4
com.fasterxml.jackson.core	jackson-annotations	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.cafeína	cafeína	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	núcleo	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	sistema_nativo-java	1.1
com.github.fommil.netlib	sistema_nativo-java-nativos	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	Gson	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guayaba	15,0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	perfilador	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.microsoft.azure	azure-data-lake-store-sdk (SDK de Azure para almacenamiento en lago de datos)	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lentes_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	configuración	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	analizadores de univocidad	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2,4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	compresor de aire	0,10
io.dropwizard.metrics	núcleo de métricas	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	métricas y verificaciones de salud	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activación	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.transaction	API de transacciones	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolución	javolución	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	pyrolita	4,30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.12.0
net.snowflake	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combinado_todo	0,1
org.acplt.remotetea	remotetea-oncrpc (servicio de comunicación remota)	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	plantilla de cadenas	3.2.1
org.apache.ant	hormiga	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	lanzador de aplicaciones Ant	1.9.2
org.apache.arrow	formato de flecha	0.15.1
org.apache.arrow	memoria de flecha	0.15.1
org.apache.arrow	vector de flecha	0.15.1
org.apache.avro	avro	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curador-cliente	2.7.1
org.apache.curator	marco de trabajo para curadores	2.7.1
org.apache.curator	curador-recetas	2.7.1
org.apache.derby	derbi	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	anotaciones de Hadoop	2.7.4
org.apache.hadoop	hadoop-auth	2.7.4
org.apache.hadoop	hadoop-cliente	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	Hadoop-HDFS	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	hive-metastore	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	Hive-shims	2.3.7
org.apache.hive	API de almacenamiento de hive	2.7.1
org.apache.hive	Generador de código vectorial Hive	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common	2.3.7
org.apache.hive.shims	planificador-de-adaptadores-hive	2.3.7
org.apache.htrace	htrace-core	3.1.0-incubación
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	hiedra	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	calzos de orco	1.5.10
org.apache.parquet	parquet-columna	1.10.1.2-databricks4
org.apache.parquet	parquet-common	1.10.1.2-databricks4
org.apache.parquet	codificación de parquet	1.10.1.2-databricks4
org.apache.parquet	formato parquet	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	velocidad	1.5
org.apache.xbean	xbean-asm7 sombreado	4.15
org.apache.yetus	anotaciones de audiencia	0.5.0
org.apache.zookeeper	guardián de zoológico	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	compilador común	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-continuation	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	jetty-plus	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy	9.4.18.v20190429
org.eclipse.jetty	Seguridad de Jetty	9.4.18.v20190429
org.eclipse.jetty	servidor Jetty	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	jetty-util	9.4.18.v20190429
org.eclipse.jetty	Aplicación web de Jetty	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	servlet de contenedor de Jersey	2,30
org.glassfish.jersey.containers	jersey-container-servlet-core	2,30
org.glassfish.jersey.core	jersey-client	2,30
org.glassfish.jersey.core	jersey-common	2,30
org.glassfish.jersey.core	jersey-server	2,30
org.glassfish.jersey.inject	jersey-hk2	2,30
org.glassfish.jersey.media	jersey-media-jaxb	2,30
org.hibernate.validator	validador de hibernación	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1.7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	Cuñas	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	interfaz de prueba	1,0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1,0
org.scalanlp	breeze_2.12	1,0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	no utilizado	1.0.0
org.springframework	spring-core	4.1.4.LANZAMIENTO
org.springframework	Prueba de primavera	4.1.4.LANZAMIENTO
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	maquinista_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
Stax	stax-api	1.0.1
xmlenc	xmlenc	0,52

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-06-22

Compartir a través de

Databricks Runtime 7.0 (EoS)

Nuevas características

Mejoras

Cambios importantes en la biblioteca

Paquetes de Python

Paquetes de R

Bibliotecas de Java y Scala

Cambios de comportamiento

Cambios de comportamiento en Spark

Otros cambios de comportamiento

Desusos y eliminaciones

Apache Spark

En esta sección:

Core, Spark SQL, Structured Streaming

Aspectos destacados

Mejoras de rendimiento

Mejoras de extensibilidad

Mejoras del conector

Mejoras de las características

Mejoras de compatibilidad de SQL

Mejoras de supervisión y depuración

Mejoras de PySpark

Mejoras en la documentación y la cobertura de pruebas

Otros cambios importantes

Cambios de comportamiento para Spark Core, Spark SQL y Structured Streaming

MLlib

Aspectos destacados

Cambios de comportamiento para MLlib

SparkR

Cambios de comportamiento en SparkR

En desuso

Problemas conocidos

Actualizaciones de mantenimiento

Entorno del sistema

Bibliotecas de Python instaladas

Bibliotecas de R instaladas

Bibliotecas de Java y Scala instaladas (versión de clúster de Scala 2.12)

Comentarios

Recursos adicionales