Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Nota:
El soporte técnico con esta versión de Databricks Runtime ha finalizado. Para obtener la fecha de finalización del soporte técnico, consulte Historial de finalización del soporte técnico. Para ver todas las versiones de Databricks Runtime con soporte técnico, consulte las notas de la versión de Databricks Runtime versiones y compatibilidad.
Databricks publicó esta versión en junio de 2020.
Las siguientes notas de la versión proporcionan información sobre Databricks Runtime 7.0, con tecnología de Apache Spark 3.0.
Nuevas características
Databricks Runtime 7.0 incluye las siguientes características nuevas:
Scala 2.12
Databricks Runtime 7.0 actualiza Scala de 2.11.12 a 2.12.10. La lista de cambios entre Scala 2.12 y 2.11 se encuentra en las notas de la versión de Scala 2.12.0.
Auto Loader (Versión preliminar pública), publicado en Databricks Runtime 6.4, se ha mejorado en Databricks Runtime 7.0
Auto Loader proporciona una manera más eficaz de procesar nuevos archivos de datos de forma incremental a medida que llegan a un almacén de blobs en la nube durante ETL. Se trata de una mejora con respecto a Structured Streaming basado en archivos, que identifica los nuevos archivos enumerando repetidamente el directorio en la nube y haciendo un seguimiento de los archivos que se han visto, y puede ser muy ineficaz a medida que crece el directorio. El cargador automático también es más cómodo y eficaz que el streaming estructurado basado en notificaciones de archivos, lo que requiere que configure manualmente los servicios de notificación de archivos en la nube y no le permita rellenar los archivos existentes. Para obtener más información, consulte ¿Qué es el cargador automático?.
En Databricks Runtime 7.0 ya no es necesario solicitar una imagen de Databricks Runtime personalizada para usar Auto Loader.
COPY INTO(Versión preliminar pública), que permite cargar datos en Delta Lake con reintentos idempotentes, se ha mejorado en Databricks Runtime 7.0Publicado como Versión preliminar pública en Databricks Runtime 6.4, el comando SQL
COPY INTOpermite cargar datos en Delta Lake con reintentos idempotentes. Para cargar datos en Delta Lake hoy en día, debe usar las API de DataFrame de Apache Spark. Si hay errores durante las cargas, debe controlarlos de forma eficaz. El nuevo comandoCOPY INTOproporciona una interfaz declarativa conocida, para cargar datos en SQL. El comando realiza un seguimiento de los archivos cargados previamente, y el usuario lo vuelve a ejecutar de forma segura en caso de errores. Para obtener más información, consulteCOPY INTO.
Mejoras
El conector de Azure Synapse (anteriormente SQL Data Warehouse) admite la instrucción
COPY.La principal ventaja de
COPYes que los usuarios con menos privilegios pueden escribir datos en Azure Synapse sin necesidad de permisosCONTROLestrictos en Azure Synapse.El comando magic
%matplotlib inlineya no es necesario para mostrar objetos de Matplolibalineados en las celdas del cuaderno. Siempre se muestran alineados de manera predeterminada.Las figuras de Matplolib ahora se representan con
transparent=False, para que los fondos especificados por el usuario no se pierdan. Este comportamiento puede invalidarse estableciendo la configuraciónspark.databricks.workspace.matplotlib.transparent truede Spark.Al ejecutar trabajos de producción de Structured Streaming en clústeres en modo de simultaneidad alta, los reinicios de un trabajo producirían errores ocasionalmente, ya que el trabajo que se estaba ejecutando anteriormente no se terminó correctamente. Databricks Runtime 6.3 introdujo la capacidad de establecer la configuración
spark.sql.streaming.stopActiveRunOnRestart truede SQL en el clúster, para asegurarse de que se detiene la ejecución anterior. Esta configuración se establece de manera predeterminada en Databricks Runtime 7.0.
Cambios importantes en la biblioteca
Paquetes de Python
Paquetes importantes de Python actualizados:
- boto3 1.9.162 -> 1.12.0
- matplotlib 3.0.3 -> 3.1.3
- numpy 1.16.2 -> 1.18.1
- pandas 0.24.2 -> 1.0.1
- pip 19.0.3 -> 20.0.2
- pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 -> 2.8.4
- scikit-learn 0.20.3 -> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seaborn 0.9.0 -> 0.10.0
Paquetes de Python quitados:
- boto (utilice boto3)
- pycurl
Nota:
El entorno de Python de Databricks Runtime 7.0 usa Python 3.7, que es diferente de la versión de Python con el sistema Ubuntu instalado: /usr/bin/python y /usr/bin/python2 están vinculados a Python 2.7 y /usr/bin/python3 está vinculado a Python 3.6.
Paquetes de R
Paquetes de R agregados:
- escoba
- más alto
- isoband
- tejido
- Formato Markdown
- modelr
- ejemplo reproducible
- rmarkdown
- rvest
- selectr
- tidyverse
- tinytex
- xfun
Paquetes de R quitados:
- abind
- bitops
- automóvil
- datosDelCoche
- doMC
- Gbm
- H₂O
- más pequeño/a
- lme4
- mapproj
- Mapas
- maptools
- MatrixModels
- minqa
- mvtnorm
- nloptr
- openxlsx
- pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils
- RcppEigen
- RCurl
- río
- Sp
- DispersoM
- statmod
- cremallera
Bibliotecas de Java y Scala
- La versión de Apache Hive usada para controlar funciones definidas por el usuario de Hive y Hive SerDes se ha actualizado a la versión 2.3.
- Anteriormente, los archivos jar de Azure Storage y Key Vault se empaquetaban como parte de Databricks Runtime, lo que impedía usar versiones diferentes de esas bibliotecas asociadas a clústeres. Las clases en
com.microsoft.azure.storageycom.microsoft.azure.keyvaultya no están en la ruta de acceso de clase en Databricks Runtime. Si depende de cualquiera de esas rutas de acceso de clase, ahora debe asociar Azure Storage SDK o Azure Key Vault SDK a los clústeres.
Cambios de comportamiento
En esta sección se enumeran los cambios de comportamiento de Databricks Runtime 6.6 a Databricks Runtime 7.0. Debe tener en cuenta estos cambios a medida que migra cargas de trabajo de versiones anteriores de Databricks Runtime a Databricks Runtime 7.0 y posteriores.
Cambios de comportamiento en Spark
Como Databricks Runtime 7.0 es el primer Databricks Runtime basado en Spark 3.0, hay muchos cambios que debe tener en cuenta al migrar cargas de trabajo desde Databricks Runtime 5.5 LTS o 6.x, que se basan en Spark 2.4. Estos cambios se enumeran en la sección "Cambios de comportamiento" de cada área funcional, en la sección de Apache Spark de este artículo de notas de la versión:
- Cambios de comportamiento para Spark Core, Spark SQL y Structured Streaming
- Cambios de comportamiento para MLlib
- Cambios de comportamiento para SparkR
Otros cambios de comportamiento
La actualización a Scala 2.12 implica los siguientes cambios:
La serialización de celdas de paquetes se controla de forma diferente. En el ejemplo siguiente se muestra el cambio de comportamiento y cómo controlarlo.
Si se ejecuta
foo.bar.MyObjectInPackageCell.run()como se define en la siguiente celda de paquetes, se desencadenará el errorjava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }Para evitar este error, puede encapsular
MyObjectInPackageCelldentro de una clase serializable.Algunos casos que usan
DataStreamWriter.foreachBatchrequerirán una actualización del código fuente. Este cambio se debe al hecho de que Scala 2.12 tiene conversión automática de expresiones lambda a tipos SAM y puede provocar ambigüedad.Por ejemplo, el código de Scala siguiente no se puede compilar:
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }Para corregir el error de compilación, cambie
foreachBatch { (df, id) => myFunc(df, id) }aforeachBatch(myFunc _)o use la API de Java explícitamente:foreachBatch(new VoidFunction2 ...).
- Dado que la versión de Apache Hive que se usa para controlar las funciones definidas por el usuario de Hive y Hive SerDes se actualiza a la versión 2.3, se requieren dos cambios:
- La interfaz de
SerDeHive se reemplaza por una claseAbstractSerDeabstracta . Para cualquier implementación personalizada de HiveSerDees necesario migrar aAbstractSerDe. - Establecer
spark.sql.hive.metastore.jarsenbuiltinimplica que se usará el cliente de metastore de Hive 2.3 para acceder a los metastores de Databricks Runtime 7.0.x. Si necesita acceder a los metastores externos basados en Hive 1.2, establezcaspark.sql.hive.metastore.jarsen la carpeta que contiene los archivos jar de Hive 1.2.
- La interfaz de
Desusos y eliminaciones
- El índice de omisión de datos quedó en desuso a partir de Databricks Runtime 4.3 y se eliminó en Databricks Runtime 7.0. Se recomienda usar tablas Delta en su lugar, que ofrecen funcionalidades mejoradas de omisión de datos.
- En Databricks Runtime 7.0, la versión subyacente de Apache Spark usa Scala 2.12. Dado que las bibliotecas compiladas en Scala 2.11 pueden deshabilitar los clústeres de Databricks Runtime 7.0 de formas inesperadas, los clústeres que ejecutan Databricks Runtime 7.0 y posteriores no instalan bibliotecas configuradas para instalarse en todos los clústeres. La pestaña Libraries (Bibliotecas) del clúster muestra un estado
Skippedy un mensaje de desuso que explica los cambios en el control de bibliotecas. Pero si tiene un clúster que se creó en una versión anterior de Databricks Runtime, antes de que se publicara en el área de trabajo la versión 3.20 de la plataforma Azure Databricks, y ahora edita ese clúster para usar Databricks Runtime 7.0, todas las bibliotecas configuradas para instalarse en todos los clústeres se instalarán en ese clúster. En este caso, los archivos JAR incompatibles de las bibliotecas instaladas pueden hacer que el clúster se deshabilite. La solución alternativa es clonar el clúster o crear uno nuevo.
Apache Spark
Databricks Runtime 7.0 incluye Apache Spark 3.0.
En esta sección:
Core, Spark SQL, Structured Streaming
Aspectos destacados
- (Project Hydrogen) Programador compatible con acelerador (SPARK-24615)
- Ejecución de consultas adaptables (SPARK-31412)
- Eliminación dinámica de particiones (SPARK-11150)
- API UDF de Pandas rediseñada con sugerencias de tipo (SPARK-28264)
- UI de Structured Streaming (SPARK-29543)
- API del complemento de catálogo (SPARK-31121)
- Mejor compatibilidad de SQL ANSI
Mejoras de rendimiento
- Ejecución de consultas adaptables (SPARK-31412)
- Marco básico (SPARK-23128)
- Ajuste posterior del número de partición aleatorio (SPARK-28177)
- Reutilización de subconsulta dinámica (SPARK-28753)
- Lector aleatorio local (SPARK-28560)
- Optimización de la combinación de sesgos (SPARK-29544)
- Optimización de la lectura de bloques aleatorios contiguos (SPARK-9853)
- Eliminación dinámica de particiones (SPARK-11150)
- Otras reglas del optimizador
- Regla ReuseSubquery (SPARK-27279)
- Regla PushDownLeftSemiAntiJoin (SPARK-19712)
- Regla PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Regla ReplaceNullWithFalse (SPARK-25860)
- Regla Eliminar ordenaciones sin límite en la subconsulta de combinación/agregación (SPARK-29343)
- Regla PruneHiveTablePartitions (SPARK-15616)
- Eliminar campos anidados innecesarios de Generate (SPARK-27707)
- Regla RewriteNonCorrelatedExists (SPARK-29800)
- Minimizar los costes de sincronización de caché de tablas (SPARK-26917), (SPARK-26617) (SPARK-26548)
- Dividir el código de agregación en funciones pequeñas (SPARK-21870)
- Agregue procesamiento por lotes en los comandos INSERT y ALTER TABLE ADD PARTITION (SPARK-29938)
Mejoras de extensibilidad
- API del complemento de catálogo (SPARK-31121)
- Refactorización de API de origen de datos V2 (SPARK-25390)
- Compatibilidad con la metastore de Hive 3.0 y 3.1 (SPARK-27970), (SPARK-24360)
- Extensión de la interfaz del complemento Spark al controlador (SPARK-29396)
- Extensión del sistema de métricas de Spark con métricas definidas por el usuario mediante complementos de ejecutor (SPARK-28091)
- API de desarrolladores para la compatibilidad ampliada con el procesamiento de columnas (SPARK-27396)
- Migración de origen integrada mediante DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- Permita FunctionInjection en SparkExtensions (SPARK-25560)
- Permite que el Agregador se registre como UDAF (SPARK-27296)
Mejoras del conector
- Eliminación de columnas mediante expresiones no deterministas (SPARK-29768)
- Compatibilidad con
spark.sql.statistics.fallBackToHdfsen tablas de origen de datos (SPARK-25474) - Permita la eliminación de particiones con filtros de subconsulta en el origen de archivo (SPARK-26893)
- Evite la delegación de subconsultas en filtros de origen de datos (SPARK-25482)
- Carga recursiva de datos desde orígenes de archivos (SPARK-27990)
- Parquet/ORC
- Delegación de predicados disyuntivos (SPARK-27699)
- Generalizar la eliminación de columnas anidadas (SPARK-25603) y su activación de manera predeterminada (SPARK-29805)
- Solo Parquet
- Aplicación de predicado parquet para campos anidados (SPARK-17636)
- Solo ORC
- Compatibilidad con el esquema de combinación para ORC (SPARK-11412)
- Eliminar esquemas anidados para ORC (SPARK-27034)
- Reducción de complejidad de la conversión de predicados para ORC (SPARK-27105, SPARK-28108)
- Actualización de Apache ORC a 1.5.9 (SPARK-30695)
- CSV
- Compatibilidad con delegación de filtros en el origen de datos de CSV (SPARK-30323)
- Hive SerDe
- No hay inferencia de esquema al leer la tabla serde de Hive con el origen de datos nativo (SPARK-27119)
- Los comandos CTAS de Hive deben usar el origen de datos si es convertible (SPARK-25271)
- Uso del origen de datos nativo para optimizar la inserción de tablas de Hive con particiones (SPARK-28573)
- Apache Kafka
- Adición de compatibilidad con encabezados Kafka (SPARK-23539)
- Adición de compatibilidad con tokens de delegación de Kafka (SPARK-25501)
- Introducción de una nueva opción al origen de Kafka: desplazamiento por marca de tiempo (inicio/final) (SPARK-26848)
- Compatibilidad con la opción
minPartitionsen origen por lotes de Kafka y origen de streaming v1 (SPARK-30656) - Actualización de Kafka a la versión 2.4.1 (SPARK-31126)
- Nuevos orígenes de datos integrados
- Nuevos orígenes de datos de archivos binarios integrados (SPARK-25348)
- Nuevos orígenes de datos por lotes no operativos (SPARK-26550) y receptor de streaming no operativo (SPARK-26649)
Mejoras de las características
- [Hydrogen] Programador compatible con acelerador (SPARK-24615)
- Introducción a un conjunto completo de Sugerencias de combinación (SPARK-27225)
- Agregar sugerencia
PARTITION BYpara consultas SQL (SPARK-28746) - Control de metadatos en un servidor Thrift (SPARK-28426)
- Adición de funciones de orden superior a la API de Scala (SPARK-27297)
- Compatibilidad con la recopilación de todo simple en el contexto de la tarea de barrera (SPARK-30667)
- Las UDF de Hive admiten el tipo UDT (SPARK-28158)
- Compatibilidad con los operadores DELETE/UPDATE/MERGE en Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
- Implementación de DataFrame.tail (SPARK-30185)
- Nuevas funciones integradas
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- cualquiera, cada, algunos (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- entradas_del_mapa (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- versión (SPARK-29554)
- xxhash64 (SPARK-27099)
- Mejoras en las funciones integradas existentes
- Mejoras de las operaciones o funciones integradas de fecha y hora (SPARK-31415)
- Modo de
FAILFASTcompatible parafrom_json(SPARK-25243) -
array_sortagrega un nuevo parámetro de comparador (SPARK-29020) - El filtro ahora puede tomar el índice como entrada, así como el elemento (SPARK-28962)
Mejoras de compatibilidad de SQL
- Cambio al calendario gregoriano proléptico (SPARK-26651)
- Construir la propia definición del patrón de fecha y hora de Spark (SPARK-31408)
- Introducción de la directiva de asignación de almacén ANSI para la inserción de tablas (SPARK-28495)
- Seguir la regla de asignación de almacén ANSI, en la inserción de tablas, de manera predeterminada (SPARK-28885)
- Agregar un patrón
spark.sql.ansi.enabledde SQLConf (SPARK-28989) - Compatibilidad con la cláusula de filtro SQL ANSI para la expresión de agregado (SPARK-27986)
- Compatibilidad con la función
OVERLAYde SQL ANSI (SPARK-28077) - Compatibilidad con comentarios de ANSI anidados entre corchetes (SPARK-28880)
- Excepción en el desbordamiento para enteros (SPARK-26218)
- Comprobación de desbordamiento para operaciones aritméticas de intervalo (SPARK-30341)
- Excepción cuando la cadena no válida se convierte al tipo numérico (SPARK-30292)
- Asegurar que el comportamiento de desbordamiento al multiplicar y dividir intervalos sea consistente con otras operaciones (SPARK-30919)
- Agregar alias de tipo ANSI para datos char y decimal (SPARK-29941)
- El analizador SQL define palabras clave reservadas compatibles con ANSI (SPARK-26215)
- Prohibición de palabras clave reservadas como identificadores cuando el modo ANSI está encendido (SPARK-26976)
- Compatibilidad con la sintaxis
LIKE ... ESCAPEde SQL ANSI (SPARK-28083) - Compatibilidad con la sintaxis Boolean-Predicate (booleano-predicado) de SQL ANSI (SPARK-27924)
- Mejor compatibilidad con el procesamiento de subconsulta correlacionada (SPARK-18455)
Mejoras de supervisión y depuración
- UI nueva de Structured Streaming (SPARK-29543)
- SHS: permita que se reviertan los registros de eventos para ejecutar aplicaciones de streaming (SPARK-28594)
- Agregue una API que permita a un usuario definir y observar métricas arbitrarias en consultas por lotes y streaming (SPARK-29345)
- Instrumentación para el seguimiento del tiempo de planificación por consulta (SPARK-26129)
- Coloque las métricas básicas de orden aleatorio en el operador de intercambio SQL (SPARK-26139)
- La instrucción SQL se muestra en SQL Tab en lugar de en callsite (SPARK-27045)
- Adición de información sobre herramientas a SparkUI (SPARK-29449)
- Mejora del rendimiento simultáneo del Historial del servidor (SPARK-29043)
- comando
EXPLAIN FORMATTED(SPARK-27395) - Compatibilidad con el volcado de planes truncados y el código generado en un archivo (SPARK-26023)
- Mejora del marco de descripción para describir la salida de una consulta (SPARK-26982)
- Agregación del comando
SHOW VIEWS(SPARK-31113) - Mejora de los mensajes de error del analizador de SQL (SPARK-27901)
- Compatibilidad con la supervisión de Prometheus de forma nativa (SPARK-29429)
Mejoras de PySpark
- UDF de Pandas rediseñados con sugerencias de tipo (SPARK-28264)
- Canalización de UDF de Pandas (SPARK-26412)
- Compatibilidad con StructType como argumentos y tipos de valor devuelto para la UDF escalar de Pandas (SPARK-27240)
- Compatibilidad con DataFrame Cogroup mediante UDF de Pandas (SPARK-27463)
- Agregación de
mapInPandaspara permitir un iterador de DataFrames (SPARK-28198) - Algunas funciones SQL deben tomar también nombres de columna (SPARK-26979)
- Hacer que las excepciones SQL de PySpark se parezcan más a las de Python (SPARK-31849)
Mejoras en la documentación y la cobertura de pruebas
- Crear una referencia SQL (SPARK-28588)
- Creación de una guía de usuario para WebUI (SPARK-28372)
- Creación de una página para la documentación de la configuración SQL (SPARK-30510)
- Agregar información de versión para la configuración de Spark (SPARK-30839)
- Pruebas de regresión de puertos de PostgreSQL (SPARK-27763)
- Cobertura de pruebas de servidores de Thrift (SPARK-28608)
- Cobertura de pruebas de UDF (UDF de Python, UDF de Pandas, UDF de Scala) (SPARK-27921)
Otros cambios importantes
- Actualización de ejecución integrada de Hive de 1.2.1 a 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Uso de la dependencia de Apache Hive 2.3 de manera predeterminada (SPARK-30034)
- GA Scala 2.12 y eliminación de la versión 2.11 (SPARK-26132)
- Mejora de la lógica para los ejecutores de tiempo de espera en la asignación dinámica (SPARK-20286)
- Bloques RDD persistentes en disco, servidos por el servicio de orden aleatorio y omitidos para la asignación dinámica (SPARK-27677)
- Adquisición de nuevos ejecutores para evitar el bloqueo debido a la lista de bloqueados (SPARK-22148)
- Permitir el uso compartido de asignadores de grupo de memoria de Netty (SPARK-24920)
- Corrección del interbloqueo entre
TaskMemoryManageryUnsafeExternalSorter$SpillableIterator(SPARK-27338) - Introducción de las API de
AdmissionControlpara StructuredStreaming (SPARK-30669) - Mejora del rendimiento de la página principal del historial de Spark (SPARK-25973)
- Acelere y aligere la agregación de métricas en el agente de escucha SQL (SPARK-29562)
- Evite la red cuando se capturan bloques aleatorios desde el mismo host (SPARK-27651)
- Mejora de la lista de archivos para
DistributedFileSystem(SPARK-27801)
Cambios de comportamiento para Spark Core, Spark SQL y Structured Streaming
Las siguientes guías de migración enumeran los cambios de comportamiento entre Apache Spark 2.4 y 3.0. Estos cambios pueden requerir actualizaciones de los trabajos que se han estado ejecutando en versiones anteriores de Databricks Runtime:
- Guía de migración: Spark Core
- Guía de migración: SQL, DataSets y DataFrame
- Guía de migración: Structured Streaming
- Guía de migración: PySpark (Python en Spark)
Los siguientes cambios de comportamiento no se tratan en estas guías de migración:
- En Spark 3.0 se ha quitado la clase
org.apache.spark.sql.streaming.ProcessingTimeen desuso. En su lugar, useorg.apache.spark.sql.streaming.Trigger.ProcessingTime. Del mismo modo, se ha quitadoorg.apache.spark.sql.execution.streaming.continuous.ContinuousTriggeren favor deTrigger.Continuous, yorg.apache.spark.sql.execution.streaming.OneTimeTriggerse ha ocultado en favor deTrigger.Once. (SPARK-28199) - En Databricks Runtime 7.0, al leer una tabla de Hive SerDe, Spark no permite de manera predeterminada leer archivos en un subdirectorio que no sea una partición de tabla. Para habilitarlo, establezca la configuración
spark.databricks.io.hive.scanNonpartitionedDirectory.enabledentrue. Esto no afecta a los lectores de tablas nativas de Spark ni a los lectores de archivos.
MLlib
Aspectos destacados
- Se ha agregado compatibilidad con varias columnas a Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) y PySpark QuantileDiscretizer (SPARK-22796)
- Compatibilidad con la transformación de la característica basada en árbol (SPARK-13677)
- Se han agregado dos nuevos evaluadores MultilabelClassificationEvaluator (SPARK-16692) y RankingEvaluator (SPARK-28045)
- Se agregó compatibilidad con pesos de ejemplo en DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) y GaussianMixture (SPARK-30102)
- Se ha agregado la API de R para PowerIterationClustering (SPARK-19827)
- Se ha agregado el agente de escucha de Spark ML, para realizar el seguimiento del estado de la canalización ML (SPARK-23674)
- Se agregó el ajuste con un conjunto de validación a árboles impulsados por gradiente en Python (SPARK-24333)
- Se ha agregado el transformador RobustScaler (SPARK-28399)
- Se han agregado clasificadores y regresores de Factorization Machines (SPARK-29224)
- Se agregaron Gaussian Naive Bayes (SPARK-16872) y Complement Naive Bayes (SPARK-29942)
- Paridad de función ML entre Scala y Python (SPARK-28958)
- predictRaw se hace público en todos los Modelos de clasificación. predictProbability se hace público en todos los Modelos de clasificación excepto LinearSVCModel (SPARK-30358)
Cambios de comportamiento para MLlib
Las siguientes guías de migración enumeran los cambios de comportamiento entre Apache Spark 2.4 y 3.0. Estos cambios pueden requerir actualizaciones de los trabajos que se han estado ejecutando en versiones anteriores de Databricks Runtime:
Los siguientes cambios de comportamiento no se tratan en la guía de migración:
- En Spark 3.0, una regresión logística multiclase en Pyspark ahora devolverá (correctamente)
LogisticRegressionSummary, no la subclaseBinaryLogisticRegressionSummary. De todos modos, los métodos adicionales expuestos porBinaryLogisticRegressionSummaryno funcionarán en este caso. (SPARK-31681) - En Spark 3.0, los mixins de
pyspark.ml.param.shared.Has*ya no proporcionan ningún método Setterset*(self, value). En su lugar, use la instrucciónself.set(self.*, value)correspondiente. Consulte SPARK-29093 para más detalles. (SPARK-29093)
SparkR
- Optimización de flechas en la interoperabilidad de SparkR (SPARK-26759)
- Mejora del rendimiento mediante R vectorizado gapply(), dapply(), createDataFrame, collect()
- "Ejecución diligente" para el shell de R, IDE (SPARK-24572)
- API de R para la agrupación en clústeres de iteración de energía (SPARK-19827)
Cambios de comportamiento en SparkR
Las siguientes guías de migración enumeran los cambios de comportamiento entre Apache Spark 2.4 y 3.0. Estos cambios pueden requerir actualizaciones de los trabajos que se han estado ejecutando en versiones anteriores de Databricks Runtime:
En desuso
- Compatibilidad con Python 2 en desuso (SPARK-27884)
- Compatibilidad con R < 3.4 en desuso (SPARK-26014)
Problemas conocidos
- El análisis del día del año mediante la letra de patrón 'D' devuelve el resultado incorrecto si falta el campo año. Esto puede ocurrir en funciones SQL como
to_timestamp, que analiza la cadena datetime como valores de datetime (fecha y hora) mediante una cadena de patrón. (SPARK-31939) - Las subconsultas internas de combinación, de ventana o de funciones agregadas pueden dar lugar a resultados incorrectos, si las claves tienen valores -0.0 y 0.0. (SPARK-31958)
- Una consulta de ventana puede producir un error inesperado de autocombinación ambigua. (SPARK-31956)
- Es posible que las consultas de streaming con el operador
dropDuplicatesno puedan reiniciarse con el punto de control escrito por Spark 2.x. (SPARK-31990)
Actualizaciones de mantenimiento
Consulte Actualizaciones de mantenimiento de Databricks Runtime 7.0.
Entorno del sistema
- Sistema operativo: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Scala: 2.12.10
- Python: 3.7.5
- R: Versión R 3.6.3 (29-02-2020)
- Delta Lake 0.7.0
Bibliotecas de Python instaladas
| Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
|---|---|---|---|---|---|
| asn1crypto | 1.3.0 | llamada de retorno | 0.1.0 | boto3 | 1.12.0 |
| botocore | 1.15.0 | certifi | 2020.4.5 | cffi | 1.14.0 |
| chardet | 3.0.4 | criptografía | 2.8 | ciclista | 0.10.0 |
| Cython | 0.29.15 | decorador | 4.4.1 | docutils | 0.15.2 |
| puntos de entrada | 0,3 | idna | 2.8 | ipykernel | 5.1.4 |
| ipython | 7.12.0 | ipython-genutils | 0.2.0 | Jedi | 0.14.1 |
| jmespath | 0.9.4 | joblib | 0.14.1 | Cliente Jupyter | 5.3.4 |
| jupyter-core | 4.6.1 | kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
| numpy | 1.18.1 | Pandas | 1.0.1 | parso | 0.5.2 |
| chivo expiatorio | 0.5.1 | pexpect | 4.8.0 | pickleshare | 0.7.5 |
| pepita | 20.0.2 | prompt-toolkit | 3.0.3 | psycopg2 | 2.8.4 |
| ptyprocess | 0.6.0 | pyarrow | 0.15.1 | pycparser | 2.19 |
| Pygments | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
| pyparsing | 2.4.6 | PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
| Python-dateutil | 2.8.1 | pytz | 2019.3 | pyzmq | 18.1.1 |
| Solicitudes | 2.22.0 | s3transfer | 0.3.3 | scikit-learn | 0.22.1 |
| scipy | 1.4.1 | biblioteca de visualización de datos de Python llamada seaborn | 0.10.0 | setuptools | 45.2.0 |
| six (seis) | 1.14.0 | ssh-import-id | 5.7 | statsmodels (paquete de Python para análisis estadístico) | 0.11.0 |
| tornado | 6.0.3 | traitlets | 4.3.3 | actualizaciones desatendidas | 0,1 |
| urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth | 0.1.8 |
| rueda | 0.34.2 |
Bibliotecas de R instaladas
Las bibliotecas de R se instalan desde la instantánea de Microsoft CRAN del 22-04-2020.
| Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
|---|---|---|---|---|---|
| askpass | 1.1 | asegúrate de que | 0.2.1 | retroportaciones | 1.1.6 |
| base | 3.6.3 | base64enc | 0.1-3 | BH | 1.72.0-3 |
| poco | 1.1-15.2 | bit 64 | 0.9-7 | mancha | 1.2.1 |
| bota | 1.3-25 | fermentar | 1.0-6 | escoba | 0.5.6 |
| callr | 3.4.3 | cursor | 6.0-86 | cellranger (herramienta de análisis de datos celulares) | 1.1.0 |
| Chron | 2.3-55 | clase | 7.3-17 | Cli | 2.0.2 |
| clipr | 0.7.0 | conglomerado | 2.1.0 | codetools | 0.2-16 |
| espacio de colores | 1.4-1 | commonmark | 1.7 | compilador | 3.6.3 |
| configuración | 0,3 | cubierta | 3.5.0 | crayón | 1.3.4 |
| diafonía | 1.1.0.1 | rizo | 4.3 | tabla de datos | 1.12.8 |
| conjuntos de datos | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
| Descripción | 1.2.0 | devtools | 2.3.0 | digerir | 0.6.25 |
| dplyr | 0.8.5 | DIRECTOR TÉCNICO | 0,13 | elipsis | 0.3.0 |
| evaluar | 0.14 | fans | 0.4.1 | colores | 2.0.3 |
| mapa rápido | 1.0.1 | convictos | 0.5.0 | foreach | 1.5.0 |
| extranjero | 0.8-76 | fragua | 0.2.0 | Fs | 1.4.1 |
| genéricos | 0.0.2 | ggplot2 | 3.3.0 | Gh | 1.1.0 |
| git2r | 0.26.1 | glmnet | 3.0-2 | globales | 0.12.5 |
| pegamento | 1.4.0 | Gower | 0.2.1 | elementos gráficos | 3.6.3 |
| grDevices | 3.6.3 | rejilla | 3.6.3 | gridExtra | 2.3 |
| gsubfn | 0,7 | gtable | 0.3.0 | refugio | 2.2.0 |
| más alto | 0.8 | HMS | 0.5.3 | herramientas de HTML | 0.4.0 |
| htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
| hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
| ipred | 0.9-9 | isoband | 0.2.1 | Iteradores | 1.0.12 |
| jsonlite | 1.6.1 | KernSmooth | 2.23-17 | tejido | 1.28 |
| etiquetado | 0,3 | más tarde | 1.0.0 | retícula | 0.20-41 |
| lava | 1.6.7 | evaluación diferida | 0.2.2 | ciclo de vida | 0.2.0 |
| lubridate | 1.7.8 | magrittr | 1.5 | Formato Markdown | 1.1 |
| MASA | 7.3-51.6 | Matriz | 1.2-18 | memorizar | 1.1.0 |
| métodos | 3.6.3 | mgcv | 1.8-31 | mimo | 0.9 |
| ModelMetrics | 1.2.2.2 | modelr | 0.1.6 | munsell | 0.5.0 |
| nlme | 3.1-147 | nnet | 7.3-14 | numDeriv | 2016.8-1.1 |
| openssl (software de cifrado) | 1.4.1 | paralelo | 3.6.3 | pilar | 1.4.3 |
| pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
| plogr | 0.2.0 | plyr | 1.8.6 | elogio | 1.0.0 |
| prettyunits | 1.1.1 | Proc | 1.16.2 | processx | 3.4.2 |
| prodlim | 2019.11.13 | progreso | 1.2.2 | promesas | 1.1.0 |
| prototipo | 1.0.0 | P.D | 1.3.2 | ronroneo | 0.3.4 |
| r2d3 | 0.2.3 | R6 | 2.4.1 | Bosque Aleatorio (randomForest) | 4.6-14 |
| rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
| Rcpp | 1.0.4.6 | readr | 1.3.1 | readxl | 1.3.1 |
| recetas | 0.1.10 | partido de revancha | 1.0.1 | segunda revancha | 2.1.1 |
| Telecontroles | 2.1.1 | ejemplo reproducible | 0.3.0 | reshape2 | 1.4.4 |
| Rex | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
| rmarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
| rpart | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
| RSQLite | 2.2.0 | rstudioapi | 0,11 | rversions | 2.0.1 |
| rvest | 0.3.5 | balanzas | 1.1.0 | selectr | 0.4-2 |
| información de sesión | 1.1.1 | forma | 1.4.4 | brillante | 1.4.0.2 |
| sourcetools | 0.1.7 | sparklyr | 1.2.0 | SparkR | 3.0.0 |
| espacial | 7.3-11 | Tiras | 3.6.3 | sqldf | 0.4-11 |
| SQUAREM | 2020.2 | Estadísticas | 3.6.3 | estadísticas4 | 3.6.3 |
| stringi | 1.4.6 | stringr | 1.4.0 | supervivencia | 3.1-12 |
| sys | 3.3 | tcltk | 3.6.3 | TeachingDemos | 2,10 |
| testthat | 2.3.2 | tibble | 3.0.1 | tidyr | 1.0.2 |
| tidyselect | 1.0.0 | tidyverse | 1.3.0 | fechaHora | 3043.102 |
| tinytex | 0,22 | herramientas | 3.6.3 | usa esto | 1.6.0 |
| utf8 | 1.1.4 | utilidades | 3.6.3 | vctrs | 0.2.4 |
| viridisLite | 0.3.0 | bigotes | 0,4 | withr | 2.2.0 |
| xfun | 0,13 | xml2 | 1.3.1 | xopen | 1.0.0 |
| xtable | 1.8-4 | yaml | 2.2.1 |
Bibliotecas de Java y Scala instaladas (versión de clúster de Scala 2.12)
| Identificador de grupo | Identificador de artefacto | Versión |
|---|---|---|
| antlr | antlr | 2.7.7 |
| com.amazonaws | cliente de Amazon Kinesis | 1.12.0 |
| com.amazonaws | aws-java-sdk-autoscaling | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudsearch | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
| com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
| com.amazonaws | aws-java-sdk-cognitoidentity | 1.11.655 |
| com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
| com.amazonaws | aws-java-sdk-config (configuración del SDK de Java de AWS) | 1.11.655 |
| com.amazonaws | aws-java-sdk-core | 1.11.655 |
| com.amazonaws | aws-java-sdk-datapipeline | 1.11.655 |
| com.amazonaws | aws-java-sdk-directconnect | 1.11.655 |
| com.amazonaws | aws-java-sdk-directory | 1.11.655 |
| com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
| com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
| com.amazonaws | aws-java-sdk-ecs | 1.11.655 |
| com.amazonaws | aws-java-sdk-efs | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticbeanstalk | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticloadbalancing (paquete de software para la gestión de balanceo de carga elástica) | 1.11.655 |
| com.amazonaws | aws-java-sdk-elastictranscoder | 1.11.655 |
| com.amazonaws | aws-java-sdk-emr | 1.11.655 |
| com.amazonaws | aws-java-sdk-glacier | 1.11.655 |
| com.amazonaws | aws-java-sdk-iam | 1.11.655 |
| com.amazonaws | aws-java-sdk-importexport | 1.11.655 |
| com.amazonaws | aws-java-sdk-kinesis (kit de desarrollo de software Java para AWS Kinesis) | 1.11.655 |
| com.amazonaws | aws-java-sdk-kms | 1.11.655 |
| com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
| com.amazonaws | aws-java-sdk-logs (registros del SDK de AWS para Java) | 1.11.655 |
| com.amazonaws | aws-java-sdk-machinelearning | 1.11.655 |
| com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
| com.amazonaws | aws-java-sdk-rds | 1.11.655 |
| com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
| com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
| com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
| com.amazonaws | aws-java-sdk-ses | 1.11.655 |
| com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
| com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
| com.amazonaws | aws-java-sdk-sns | 1.11.655 |
| com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
| com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
| com.amazonaws | aws-java-sdk-storagegateway (SDK de Java para Storage Gateway de AWS) | 1.11.655 |
| com.amazonaws | aws-java-sdk-sts | 1.11.655 |
| com.amazonaws | SDK de AWS para Java - Soporte | 1.11.655 |
| com.amazonaws | aws-java-sdk-swf-libraries | 1.11.22 |
| com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
| com.amazonaws | jmespath-java | 1.11.655 |
| com.chuusai | shapeless_2.12 | 2.3.3 |
| com.clearspring.analytics | flujo | 2.9.6 |
| com.databricks | Rserve | 1.8-3 |
| com.databricks | jets3t | 0.7.1-0 |
| com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
| com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
| com.esotericsoftware | kryo sombreado | 4.0.2 |
| com.esotericsoftware | minlog | 1.3.0 |
| com.fasterxml | compañero de clase | 1.3.4 |
| com.fasterxml.jackson.core | jackson-annotations | 2.10.0 |
| com.fasterxml.jackson.core | jackson-core | 2.10.0 |
| com.fasterxml.jackson.core | jackson-databind | 2.10.0 |
| com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
| com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
| com.fasterxml.jackson.module | jackson-module-paranamer | 2.10.0 |
| com.fasterxml.jackson.module | jackson-module-scala_2.12 | 2.10.0 |
| com.github.ben-manes.cafeína | cafeína | 2.3.4 |
| com.github.fommil | jniloader | 1.1 |
| com.github.fommil.netlib | núcleo | 1.1.2 |
| com.github.fommil.netlib | native_ref-java | 1.1 |
| com.github.fommil.netlib | native_ref-java-natives | 1.1 |
| com.github.fommil.netlib | sistema_nativo-java | 1.1 |
| com.github.fommil.netlib | sistema_nativo-java-nativos | 1.1 |
| com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
| com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1.1 |
| com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
| com.github.luben | zstd-jni | 1.4.4-3 |
| com.github.wendykierp | JTransforms | 3.1 |
| com.google.code.findbugs | jsr305 | 3.0.0 |
| com.google.code.gson | Gson | 2.2.4 |
| com.google.flatbuffers | flatbuffers-java | 1.9.0 |
| com.google.guava | guayaba | 15,0 |
| com.google.protobuf | protobuf-java | 2.6.1 |
| com.h2database | h2 | 1.4.195 |
| com.helger | perfilador | 1.1.1 |
| com.jcraft | jsch | 0.1.50 |
| com.jolbox | bonecp | 0.8.0.RELEASE |
| com.microsoft.azure | azure-data-lake-store-sdk (SDK de Azure para almacenamiento en lago de datos) | 2.2.8 |
| com.microsoft.sqlserver | mssql-jdbc | 8.2.1.jre8 |
| com.ning | compress-lzf | 1.0.3 |
| com.sun.mail | javax.mail | 1.5.2 |
| com.tdunning | json | 1.8 |
| com.thoughtworks.paranamer | paranamer | 2.8 |
| com.trueaccord.lenses | lentes_2.12 | 0.4.12 |
| com.twitter | chill-java | 0.9.5 |
| com.twitter | chill_2.12 | 0.9.5 |
| com.twitter | util-app_2.12 | 7.1.0 |
| com.twitter | util-core_2.12 | 7.1.0 |
| com.twitter | util-function_2.12 | 7.1.0 |
| com.twitter | util-jvm_2.12 | 7.1.0 |
| com.twitter | util-lint_2.12 | 7.1.0 |
| com.twitter | util-registry_2.12 | 7.1.0 |
| com.twitter | util-stats_2.12 | 7.1.0 |
| com.typesafe | configuración | 1.2.1 |
| com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
| com.univocity | analizadores de univocidad | 2.8.3 |
| com.zaxxer | HikariCP | 3.1.0 |
| commons-beanutils | commons-beanutils | 1.9.4 |
| commons-cli | commons-cli | 1.2 |
| commons-codec | commons-codec | 1.10 |
| commons-collections | commons-collections | 3.2.2 |
| commons-configuration | commons-configuration | 1.6 |
| commons-dbcp | commons-dbcp | 1.4 |
| commons-digester | commons-digester | 1.8 |
| commons-fileupload | commons-fileupload | 1.3.3 |
| commons-httpclient | commons-httpclient | 3.1 |
| commons-io | commons-io | 2,4 |
| commons-lang | commons-lang | 2.6 |
| commons-logging | commons-logging | 1.1.3 |
| commons-net | commons-net | 3.1 |
| commons-pool | commons-pool | 1.5.4 |
| info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
| io.airlift | compresor de aire | 0,10 |
| io.dropwizard.metrics | núcleo de métricas | 4.1.1 |
| io.dropwizard.metrics | metrics-graphite | 4.1.1 |
| io.dropwizard.metrics | métricas y verificaciones de salud | 4.1.1 |
| io.dropwizard.metrics | metrics-jetty9 | 4.1.1 |
| io.dropwizard.metrics | metrics-jmx | 4.1.1 |
| io.dropwizard.metrics | metrics-json | 4.1.1 |
| io.dropwizard.metrics | metrics-jvm | 4.1.1 |
| io.dropwizard.metrics | metrics-servlets | 4.1.1 |
| io.netty | netty-all | 4.1.47.Final |
| jakarta.annotation | jakarta.annotation-api | 1.3.5 |
| jakarta.validation | jakarta.validation-api | 2.0.2 |
| jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
| javax.activation | activación | 1.1.1 |
| javax.el | javax.el-api | 2.2.4 |
| javax.jdo | jdo-api | 3.0.1 |
| javax.servlet | javax.servlet-api | 3.1.0 |
| javax.servlet.jsp | jsp-api | 2.1 |
| javax.transaction | jta | 1.1 |
| javax.transaction | API de transacciones | 1.1 |
| javax.xml.bind | jaxb-api | 2.2.2 |
| javax.xml.stream | stax-api | 1.0-2 |
| javolución | javolución | 5.5.1 |
| jline | jline | 2.14.6 |
| joda-time | joda-time | 2.10.5 |
| log4j | apache-log4j-extras | 1.2.17 |
| log4j | log4j | 1.2.17 |
| net.razorvine | pyrolita | 4,30 |
| net.sf.jpam | jpam | 1.1 |
| net.sf.opencsv | opencsv | 2.3 |
| net.sf.supercsv | super-csv | 2.2.0 |
| net.snowflake | snowflake-ingest-sdk | 0.9.6 |
| net.snowflake | snowflake-jdbc | 3.12.0 |
| net.snowflake | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
| net.sourceforge.f2j | arpack_combinado_todo | 0,1 |
| org.acplt.remotetea | remotetea-oncrpc (servicio de comunicación remota) | 1.1.2 |
| org.antlr | ST4 | 4.0.4 |
| org.antlr | antlr-runtime | 3.5.2 |
| org.antlr | antlr4-runtime | 4.7.1 |
| org.antlr | plantilla de cadenas | 3.2.1 |
| org.apache.ant | hormiga | 1.9.2 |
| org.apache.ant | ant-jsch | 1.9.2 |
| org.apache.ant | lanzador de aplicaciones Ant | 1.9.2 |
| org.apache.arrow | formato de flecha | 0.15.1 |
| org.apache.arrow | memoria de flecha | 0.15.1 |
| org.apache.arrow | vector de flecha | 0.15.1 |
| org.apache.avro | avro | 1.8.2 |
| org.apache.avro | avro-ipc | 1.8.2 |
| org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
| org.apache.commons | commons-compress | 1.8.1 |
| org.apache.commons | commons-crypto | 1.0.0 |
| org.apache.commons | commons-lang3 | 3.9 |
| org.apache.commons | commons-math3 | 3.4.1 |
| org.apache.commons | commons-text | 1.6 |
| org.apache.curator | curador-cliente | 2.7.1 |
| org.apache.curator | marco de trabajo para curadores | 2.7.1 |
| org.apache.curator | curador-recetas | 2.7.1 |
| org.apache.derby | derbi | 10.12.1.1 |
| org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
| org.apache.directory.api | api-util | 1.0.0-M20 |
| org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
| org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
| org.apache.hadoop | anotaciones de Hadoop | 2.7.4 |
| org.apache.hadoop | hadoop-auth | 2.7.4 |
| org.apache.hadoop | hadoop-cliente | 2.7.4 |
| org.apache.hadoop | hadoop-common | 2.7.4 |
| org.apache.hadoop | Hadoop-HDFS | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-app | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-core | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-server-common | 2.7.4 |
| org.apache.hive | hive-beeline | 2.3.7 |
| org.apache.hive | hive-cli | 2.3.7 |
| org.apache.hive | hive-common | 2.3.7 |
| org.apache.hive | hive-exec-core | 2.3.7 |
| org.apache.hive | hive-jdbc | 2.3.7 |
| org.apache.hive | hive-llap-client | 2.3.7 |
| org.apache.hive | hive-llap-common | 2.3.7 |
| org.apache.hive | hive-metastore | 2.3.7 |
| org.apache.hive | hive-serde | 2.3.7 |
| org.apache.hive | Hive-shims | 2.3.7 |
| org.apache.hive | API de almacenamiento de hive | 2.7.1 |
| org.apache.hive | Generador de código vectorial Hive | 2.3.7 |
| org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
| org.apache.hive.shims | hive-shims-common | 2.3.7 |
| org.apache.hive.shims | planificador-de-adaptadores-hive | 2.3.7 |
| org.apache.htrace | htrace-core | 3.1.0-incubación |
| org.apache.httpcomponents | httpclient | 4.5.6 |
| org.apache.httpcomponents | httpcore | 4.4.12 |
| org.apache.ivy | hiedra | 2.4.0 |
| org.apache.orc | orc-core | 1.5.10 |
| org.apache.orc | orc-mapreduce | 1.5.10 |
| org.apache.orc | calzos de orco | 1.5.10 |
| org.apache.parquet | parquet-columna | 1.10.1.2-databricks4 |
| org.apache.parquet | parquet-common | 1.10.1.2-databricks4 |
| org.apache.parquet | codificación de parquet | 1.10.1.2-databricks4 |
| org.apache.parquet | formato parquet | 2.4.0 |
| org.apache.parquet | parquet-hadoop | 1.10.1.2-databricks4 |
| org.apache.parquet | parquet-jackson | 1.10.1.2-databricks4 |
| org.apache.thrift | libfb303 | 0.9.3 |
| org.apache.thrift | libthrift | 0.12.0 |
| org.apache.velocity | velocidad | 1.5 |
| org.apache.xbean | xbean-asm7 sombreado | 4.15 |
| org.apache.yetus | anotaciones de audiencia | 0.5.0 |
| org.apache.zookeeper | guardián de zoológico | 3.4.14 |
| org.codehaus.jackson | jackson-core-asl | 1.9.13 |
| org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
| org.codehaus.jackson | jackson-mapper-asl | 1.9.13 |
| org.codehaus.jackson | jackson-xc | 1.9.13 |
| org.codehaus.janino | compilador común | 3.0.16 |
| org.codehaus.janino | janino | 3.0.16 |
| org.datanucleus | datanucleus-api-jdo | 4.2.4 |
| org.datanucleus | datanucleus-core | 4.1.17 |
| org.datanucleus | datanucleus-rdbms | 4.1.19 |
| org.datanucleus | javax.jdo | 3.2.0-m3 |
| org.eclipse.jetty | jetty-client | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-continuation | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-http | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-plus | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-proxy | 9.4.18.v20190429 |
| org.eclipse.jetty | Seguridad de Jetty | 9.4.18.v20190429 |
| org.eclipse.jetty | servidor Jetty | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-servlets | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-util | 9.4.18.v20190429 |
| org.eclipse.jetty | Aplicación web de Jetty | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
| org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
| org.glassfish.hk2 | hk2-api | 2.6.1 |
| org.glassfish.hk2 | hk2-locator | 2.6.1 |
| org.glassfish.hk2 | hk2-utils | 2.6.1 |
| org.glassfish.hk2 | osgi-resource-locator | 1.0.3 |
| org.glassfish.hk2.external | aopalliance-repackaged | 2.6.1 |
| org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
| org.glassfish.jersey.containers | servlet de contenedor de Jersey | 2,30 |
| org.glassfish.jersey.containers | jersey-container-servlet-core | 2,30 |
| org.glassfish.jersey.core | jersey-client | 2,30 |
| org.glassfish.jersey.core | jersey-common | 2,30 |
| org.glassfish.jersey.core | jersey-server | 2,30 |
| org.glassfish.jersey.inject | jersey-hk2 | 2,30 |
| org.glassfish.jersey.media | jersey-media-jaxb | 2,30 |
| org.hibernate.validator | validador de hibernación | 6.1.0.Final |
| org.javassist | javassist | 3.25.0-GA |
| org.jboss.logging | jboss-logging | 3.3.2.Final |
| org.jdbi | jdbi | 2.63.1 |
| org.joda | joda-convert | 1.7 |
| org.jodd | jodd-core | 3.5.2 |
| org.json4s | json4s-ast_2.12 | 3.6.6 |
| org.json4s | json4s-core_2.12 | 3.6.6 |
| org.json4s | json4s-jackson_2.12 | 3.6.6 |
| org.json4s | json4s-scalap_2.12 | 3.6.6 |
| org.lz4 | lz4-java | 1.7.1 |
| org.mariadb.jdbc | mariadb-java-client | 2.1.2 |
| org.objenesis | objenesis | 2.5.1 |
| org.postgresql | postgresql | 42.1.4 |
| org.roaringbitmap | RoaringBitmap | 0.7.45 |
| org.roaringbitmap | Cuñas | 0.7.45 |
| org.rocksdb | rocksdbjni | 6.2.2 |
| org.rosuda.REngine | REngine | 2.1.0 |
| org.scala-lang | scala-compiler_2.12 | 2.12.10 |
| org.scala-lang | scala-library_2.12 | 2.12.10 |
| org.scala-lang | scala-reflect_2.12 | 2.12.10 |
| org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
| org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
| org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
| org.scala-sbt | interfaz de prueba | 1,0 |
| org.scalacheck | scalacheck_2.12 | 1.14.2 |
| org.scalactic | scalactic_2.12 | 3.0.8 |
| org.scalanlp | breeze-macros_2.12 | 1,0 |
| org.scalanlp | breeze_2.12 | 1,0 |
| org.scalatest | scalatest_2.12 | 3.0.8 |
| org.slf4j | jcl-over-slf4j | 1.7.30 |
| org.slf4j | jul-to-slf4j | 1.7.30 |
| org.slf4j | slf4j-api | 1.7.30 |
| org.slf4j | slf4j-log4j12 | 1.7.30 |
| org.spark-project.spark | no utilizado | 1.0.0 |
| org.springframework | spring-core | 4.1.4.LANZAMIENTO |
| org.springframework | Prueba de primavera | 4.1.4.LANZAMIENTO |
| org.threeten | threeten-extra | 1.5.0 |
| org.tukaani | xz | 1.5 |
| org.typelevel | algebra_2.12 | 2.0.0-M2 |
| org.typelevel | cats-kernel_2.12 | 2.0.0-M4 |
| org.typelevel | maquinista_2.12 | 0.6.8 |
| org.typelevel | macro-compat_2.12 | 1.1.1 |
| org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
| org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
| org.typelevel | spire-util_2.12 | 0.17.0-M1 |
| org.typelevel | spire_2.12 | 0.17.0-M1 |
| org.xerial | sqlite-jdbc | 3.8.11.2 |
| org.xerial.snappy | snappy-java | 1.1.7.5 |
| org.yaml | snakeyaml | 1.24 |
| oro | oro | 2.0.8 |
| pl.edu.icm | JLargeArrays | 1.5 |
| software.amazon.ion | ion-java | 1.0.2 |
| Stax | stax-api | 1.0.1 |
| xmlenc | xmlenc | 0,52 |