Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Observação
O suporte para esta versão do Databricks Runtime foi encerrado. Para obter a data de fim do suporte, consulte o Histórico de fim do suporte. Para todas as versões compatíveis do Databricks Runtime, consulte Versões e compatibilidade de notas sobre a versão do Databricks Runtime.
O Databricks lançou essa versão em junho de 2020.
As notas sobre a versão a seguir fornecem informações sobre o Databricks Runtime 7.0, da plataforma Apache Spark 3.0.
Novos recursos
O Databricks Runtime 7.0 inclui os seguintes novos recursos:
Scala 2.12
O Databricks Runtime 7.0 atualiza o Scala de 2.11.12 para 2.12.10. A lista de alterações entre Scala 2.12 e 2.11 está nas notas de versão do Scala 2.12.0.
O Carregador Automático (Visualização Pública), lançado no Databricks Runtime 6.4, foi aprimorado no Databricks Runtime 7.0
O Carregador Automático oferece uma forma mais eficiente de processar novos arquivos de dados de maneira incremental conforme eles chegam em um armazenamento de blobs de nuvem durante o ETL. Esse é um aprimoramento em relação ao streaming estruturado baseado em arquivo, que identifica novos arquivos listando repetidamente o diretório de nuvem e acompanhando os arquivos que foram vistos e que pode ser muito ineficiente à medida que o diretório cresce. O Carregador Automático também é mais conveniente e eficaz do que o streaming estruturado baseado em notificações de arquivo, que exige que você configure manualmente os serviços de notificação de arquivo na nuvem e não permite que você reprocessar arquivos existentes. Para ver detalhes, confira O que é o Carregador Automático?.
No Databricks Runtime 7.0, você não precisa mais solicitar uma imagem Databricks Runtime personalizada para usar o Carregador Automático.
COPY INTO(Visualização Pública), que permite carregar dados no Delta Lake com as recuperações idempotentes, foi melhorada com o Databricks Runtime 7.0Lançado como uma visualização pública no Databricks Runtime 6.4, o comando SQL
COPY INTOpermite carregar dados no Delta Lake com as recuperações idempotentes. Para carregar dados no Delta Lake hoje, você precisa usar a API de DataFrame do Apache Spark. Se houver falhas durante as cargas, você precisará lidar com elas com eficiência. O novo comandoCOPY INTOfornece uma interface declarativa conhecida carregarem os dados no SQL. O comando mantém o controle dos arquivos já carregados, e você o executa com segurança em caso de falhas. Para obter detalhes, consulteCOPY INTO.
Aprimoramentos
Azure Synapse (anteriormente SQL Data Warehouse) dá suporte à instrução
COPY.O principal benefício do
COPYé que os usuários com privilégios inferiores podem gravar dados em Azure Synapse sem a necessidade de permissõesCONTROLestritas no Azure Synapse.O comando magic
%matplotlib inlinenão é mais necessário para exibir display Matplolib em linha em células do notebook. Elas são sempre exibidas em linha por padrão.As figuras matplolib agora são renderizadas com
transparent=False, de modo que as origens especificadas pelo usuário não sejam perdidas. Esse comportamento pode ser substituído definindo a configuração do Sparkspark.databricks.workspace.matplotlib.transparent true.Ao executar trabalhos de produção de Streaming Estruturado em clusters de modo de alta simultaneidade, as reinicializações de um trabalho ocasionalmente falhavam, porque o trabalho em execução anteriormente não era encerrado corretamente. O Databricks Runtime 6.3 introduziu a capacidade de definir a configuração de SQL
spark.sql.streaming.stopActiveRunOnRestart trueno cluster para garantir que a execução anterior seja interrompida. Essa configuração é definida por padrão Databricks Runtime 7.0.
Principais alterações na biblioteca
Pacotes do Python
Principais pacotes do Python atualizados:
- boto3 1.9.162 –> 1.12.0
- matplotlib 3.0.3 –> 3.1.3
- numpy 1.16.2 –> 1.18.1
- pandas 0.24.2 -> 1.0.1
- pip 19.0.3 –> 20.0.2
- pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 –> 2.8.4
- scikit-learn 0.20.3 –> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seaborn 0.9.0 -> 0.10.0
Pacotes do Python removidos:
- boto (utilize boto3)
- pycurl
Observação
O ambiente Python no Databricks Runtime 7.0 usa o Python 3.7, que é diferente do python do sistema Ubuntu instalado: /usr/bin/python e /usr/bin/python2 estão vinculados ao Python 2.7 e /usr/bin/python3 está vinculado ao Python 3.6.
Pacotes R
Pacotes R adicionados:
- vassoura
- mais alto
- isoband
- malhador
- redução de preço
- modelador
- exemplo reprodutível (reprex)
- rmarkdown
- rvest
- Seletor
- tidyverse
- tinytex
- xfun
Pacotes R removidos:
- abind
- bitops
- carro
- dadosDoCarro
- doMC
- Gbm
- H₂O
- menor
- lme4
- mapproj
- mapas
- maptools
- MatrixModels
- minqa
- mvtnorm
- nloptr
- openxlsx
- pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils
- RcppEigen
- RCurl
- rio
- São Paulo
- Esparso
- statmod
- zíper
Bibliotecas do Java e do Scala
- Apache Hive versão usada para lidar com funções definidas pelo usuário do Hive e Hive SerDes atualizados para a versão 2.3.
- Anteriormente, jars de Armazenamento do Azure e Key Vault eram empacotados como parte do Databricks Runtime, o que impediria o uso de diferentes versões dessas bibliotecas anexadas a clusters. Classes em
com.microsoft.azure.storageecom.microsoft.azure.keyvaultnão estão mais no caminho de classe em Databricks Runtime. Se você depender de qualquer um desses caminhos de classe, agora deverá anexar o SDK do Armazenamento do Microsoft Azure ou do Azure Key Vault aos seus clusters.
Alterações de comportamento
Esta seção lista as alterações de comportamento de Databricks Runtime 6.6 para Databricks Runtime 7.0. Você deve estar ciente deles ao migrar cargas de trabalho de versões inferiores Databricks Runtime para Databricks Runtime 7.0 e superior.
Outras alterações do Spark
Como Databricks Runtime 7.0 é o primeiro Databricks Runtime criado no Spark 3.0, há muitas alterações que você deve conhecer ao migrar cargas de trabalho de Databricks Runtime 5.5 LTS ou 6.x, que são criadas no Spark 2.4. Essas alterações são listadas na seção "alterações de comportamento" de cada área funcional na seção Apache Spark deste artigo de notas de versão:
- Alterações de comportamento para Spark core, Spark SQL e Streaming Estruturado
- Alterações de comportamento para MLlib
- Alterações de comportamento para SparkR
Outras alterações de comportamento
A atualização para o Scala 2.12 envolve as seguintes alterações:
A serialização de célula do pacote é tratada de forma diferente. O exemplo a seguir ilustra a alteração de comportamento e como tratá-la.
A execução de
foo.bar.MyObjectInPackageCell.run()conforme definido na célula do pacote a seguir disparará o errojava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }Para contornar esse erro, você pode encapsular
MyObjectInPackageCelldentro de uma classe serializável.Determinados casos que usam
DataStreamWriter.foreachBatchexigirão uma atualização do código-fonte. Essa alteração ocorre devido ao fato de que o Scala 2.12 tem conversão automática de expressões lambda em tipos SAM e pode causar ambiguidade.Por exemplo, o código Scala a seguir não pode compilar:
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }Para corrigir o erro de compilação, altere
foreachBatch { (df, id) => myFunc(df, id) }paraforeachBatch(myFunc _)ou use a API Java explicitamente:foreachBatch(new VoidFunction2 ...).
- Como a versão do Apache Hive usada para lidar com funções definidas pelo usuário do Hive e o Hive SerDes é atualizada para 2.3, duas alterações são necessárias:
- A interface do
SerDeHive é substituída por uma classeAbstractSerDeabstrata. Para qualquer implementaçãoSerDepersonalizada do Hive, a migração paraAbstractSerDeé obrigatória. - A definição de
spark.sql.hive.metastore.jarscomobuiltinsignifica que o cliente de metastore do Hive 2.3 será usado para acessar metastores para o Databricks Runtime 7.0. Se você precisar acessar metastores externos baseados no Hive 1.2, definaspark.sql.hive.metastore.jarscomo a pasta que contém jars do Hive 1.2.
- A interface do
Desativações e remoções
- O índice que ignora dados foi preterido no Databricks Runtime 4.3 e removido no Databricks Runtime 7.0. Recomendamos usar tabelas Delta no lugar, pois oferecem recursos aprimorados de omissão de dados.
- No Databricks Runtime 7.0, a versão subjacente do Apache Spark usa o Scala 2.12. Como as bibliotecas compiladas no Scala 2.11 podem desabilitar os clusters do Databricks Runtime 7.0 de maneiras inesperadas, os clusters que executam o Databricks Runtime 7.0 e superior não instalam bibliotecas configuradas para serem instaladas em todos os clusters. A guia Bibliotecas do cluster mostra um status
Skippede uma mensagem de obsolescência que explica as alterações no tratamento da biblioteca. No entanto, se você tiver um cluster criado em uma versão anterior do Databricks Runtime antes da versão da plataforma do Azure Databricks 3.20 ser lançada em seu espaço de trabalho, e agora editar esse cluster para usar o Databricks Runtime 7.0, todas as bibliotecas que foram configuradas para serem instaladas em todos os clusters serão instaladas naquele cluster. Nesse caso, quaisquer JARs incompatíveis nas bibliotecas instaladas podem fazer com que o cluster seja desabilitado. A solução alternativa é clonar o cluster ou criar um novo cluster.
Apache Spark
O Databricks Runtime 7.0 inclui o Apache Spark 3.0.
Nesta seção:
Core, Spark SQL, Fluxo estruturado
Destaques
- (Project Hydrogen) Agendador com reconhecimento de acelerador (SPARK-24615)
- Execução de consulta adaptável (SPARK-31412)
- Remoção de partição dinâmica (SPARK-11150)
- API do UDF do pandas remodelada com dicas de tipo (Spark-28264)
- Interface do usuário de fluxo estruturado (Spark-29543)
- API de plug-in de catálogo (SPARK-31121)
- Melhor compatibilidade com SQL ANSI
Aprimoramentos de desempenho
- Execução de consulta adaptável (SPARK-31412)
- Estrutura básica (SPARK-23128)
- Pós-ajuste de número de partição em ordem aleatória (SPARK-28177)
- Reutilização de subconsulta dinâmica (SPARK-28753)
- Leitor de ordem aleatória local (SPARK-28560)
- Otimização de junção de distorção (SPARK-29544)
- Otimizar a leitura de blocos de ordem aleatória contígua (SPARK-9853)
- Remoção de partição dinâmica (SPARK-11150)
- Outras regras do otimizador
- Regra ReuseSubquery (SPARK-27279)
- Regra PushDownLeftSemiAntiJoin (SPARK-19712)
- Regra PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Regra ReplaceNullWithFalse (SPARK-25860)
- A regra elimina as classificações sem limite na subconsulta de junção/agregação (SPARK-29343)
- Regra PruneHiveTablePartitions (SPARK-15616)
- Removendo campos aninhados desnecessários da geração (SPARK-27707)
- Regra RewriteNonCorrelatedExists (SPARK-29800)
- Minimizar os custos de sincronização do cache de tabela (SPARK-26917), (SPARK-26617), (SPARK-26548)
- Dividir o código de agregação em funções pequenas(SPARK-21870)
- Adicionar o processamento em lote em INSERT e ALTER TABLE no comando ADD PARTITION (SPARK-29938)
Aprimoramentos de extensibilidade
- API de plug-in de catálogo (SPARK-31121)
- Refatoração da API da fonte de dados V2 (Spark-25390)
- Suporte ao metastore do Hive 3.0 e 3.1 (SPARK-27970),(SPARK-24360)
- Estender a interface de plug-in do Spark para o driver (SPARK-29396)
- Estender o sistema de métricas do Spark com métricas definidas pelo usuário usando plug-ins de executor (SPARK-28091)
- APIs de desenvolvedor para Suporte de Processamento de Coluna estendida (SPARK-27396)
- Migração de origem interna usando DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- Permitir FunctionInjection no SparkExtensions (SPARK-25560)
- Permite que o Agregador seja registrado como um UDAF (SPARK-27296)
Aprimoramentos do conector
- Remoção de coluna por expressões não determinísticas (SPARK-29768)
- Suporte
spark.sql.statistics.fallBackToHdfsem tabelas de fontes de dados (SPARK-25474) - Permitir remoção de partição com filtros de subconsulta na origem do arquivo (SPARK-26893)
- Evitar aplicação de subconsultas em filtros de fonte de dados (SPARK-25482)
- Carregamento recursivo de dados de fontes de arquivo (SPARK-27990)
- Parquet/ORC
- Aplicação de predicados disjuntivos (SPARK-27699)
- Generalizar a remoção de colunas aninhadas (SPARK-25603) e ativadas por padrão (SPARK-29805)
- Somente parquet
- Pushdown de predicado parquet para campos aninhados (SPARK-17636)
- Somente ORC
- Suporte ao esquema de mesclagem para ORC (SPARK-11412)
- Remoção de esquema aninhado para ORC (SPARK-27034)
- Redução da complexidade de conversão de predicado para ORC (SPARK-27105, SPARK-28108)
- Atualização do Apache ORC para 1.5.9 (SPARK-30695)
- CSV
- Suporte ao pushdown de filtros na fonte de dados CSV (SPARK-30323)
- Hive SerDe
- Nenhuma inferência de esquema ao ler a tabela Hive serde com fonte de dados nativa (SPARK-27119)
- Os comandos CTAS do Hive devem usar a fonte de dados se ela for conversível (SPARK-25271)
- Uso de fonte de dados nativa para otimizar a inserção da tabela do Hive particionada (SPARK-28573)
- Apache Kafka
- Adição de suporte para os cabeçalhos do Kafka (SPARK-23539)
- Adição de suporte a token de delegação do Kafka (SPARK-25501)
- Introdução da nova opção para a origem do Kafka: deslocamento por data/hora (iniciando/terminando) (SPARK-26848)
- Dar suporte à opção
minPartitionsna origem do lote do Kafka e na fonte de streaming v1 (SPARK-30656) - Atualização do Kafka para 2.4.1 (SPARK-31126)
- Novas origens de dados incorporadas
- Novas fontes de dados de arquivo binário (SPARK-25348)
- Novas fontes de dados em lote não operacionais (SPARK-26550) e o coletor de streaming não operacional (SPARK-26649)
Aprimoramentos de recursos
- [Hydrogen] Agendador com reconhecimento de acelerador (SPARK-24615)
- Introduzir um conjunto completo de dicas de junção (SPARK-27225)
- Adicionar dica
PARTITION BYpara consultas SQL (SPARK-28746) - Tratamento de metadados no servidor Thrift (SPARK-28426)
- Adicionar funções de ordem superior à API scala (SPARK-27297)
- Dar suporte a coletas simples no contexto da tarefa de barreira (SPARK-30667)
- As UDFs do Hive são compatíveis com o tipo UDT (SPARK-28158)
- Catalyst: Suporte aos operadores DELETE/UPDATE/MERGE (SPARK-28351, SPARK-28892, SPARK-28893)
- Implementar DataFrame.tail (SPARK-30185)
- Novas funções internas
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- qualquer, todo, algum (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extração (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- versão (SPARK-29554)
- xxhash64 (SPARK-27099)
- Melhorias em funções existentes
- Melhoria de funções/operações de data/hora (SPARK-31415)
- Modo
FAILFASTde suporte parafrom_json(SPARK-25243) -
array_sortadiciona um novo parâmetro comparador(SPARK-29020) - O filtro agora pode usar o índice como entrada, bem como o elemento (SPARK-28962)
Aprimoramentos na compatibilidade com o SQL
- Alternar para calendário Gregoriano Proléptico (SPARK-26651)
- Criar a definição de padrão de data e hora do Spark (SPARK-31408)
- Introdução de política de atribuição de armazenamento ANSI para inserção de tabela (SPARK-28495)
- Seguir a regra de atribuição de armazenamento ANSI na inserção de tabela por padrão (SPARK-28885)
- Adicionar um SQLConf
spark.sql.ansi.enabled(SPARK-28989) - Dar suporte à cláusula de filtro SQL ANSI para expressão de agregação (SPARK-27986)
- Dar suporte à função SQL
OVERLAYANSI (SPARK-28077) - Suporte aos comentários em colchetes aninhados ANSI (SPARK-28880)
- Lançar exceção no estouro para inteiros (SPARK-26218)
- Verificação de estouro para operações aritméticas de intervalo (SPARK-30341)
- Lançar Exceção quando a cadeia de caracteres inválida é lançada em tipo numérico (SPARK-30292)
- Tornar o comportamento de estouro nas operações de multiplicação e divisão de intervalos consistente com outras operações (SPARK-30919)
- Adicionar aliases de tipo ANSI para caractere e decimal (SPARK-29941)
- O Analisador SQL define palavras-chave reservadas em conformidade com ANSI (SPARK-26215)
- Proibir palavras-chave reservadas como identificadores quando o modo ANSI estiver em (SPARK-26976)
- Suporte à sintaxe
LIKE ... ESCAPESQL ANSI (SPARK-28083) - Suporte à sintaxe SQL de Booliano-Predicado ANSI (SPARK-27924)
- Melhor suporte para processamento de subconsulta correlacionada (SPARK-18455)
Aprimoramentos de monitoramento e depuração
- Nova Interface do Usuário de Fluxo Estruturado (SPARK-29543)
- SHS: permite que os logs de eventos para aplicativos de streaming em execução sejam transferidos (SPARK-28594)
- Adiciona uma API que permite que um usuário defina e observe métricas arbitrárias em consultas de lote e streaming (SPARK-29345)
- Instrumentação para acompanhar o tempo de planejamento por consulta (SPARK-26129)
- Coloca as métricas aleatórias básicas no operador de troca de dados SQL (SPARK-26139)
- A instrução SQL é mostrada na guia SQL em vez do site de chamada (SPARK-27045)
- Adicionar dica de ferramenta ao SparkUI (SPARK-29449)
- Melhorar o desempenho simultâneo do Servidor de Histórico (SPARK-29043)
- Comando
EXPLAIN FORMATTED(SPARK-27395) - Suporte ao despejo de planos truncados e código gerado para um arquivo (SPARK-26023)
- Aprimorar a estrutura de descrição para descrever a saída de uma consulta (SPARK-26982)
- Adicionar comando
SHOW VIEWS(SPARK-31113) - Melhorar as mensagens de erro do analisador SQL (SPARK-27901)
- Suporte ao monitoramento do Prometheus de forma nativa (SPARK-29429)
Aprimoramentos do PySpark
- UDFs do Pandas reformuladas com dicas de tipo (SPARK-28264)
- Pipeline de UDF do Pandas (SPARK-26412)
- Suporte a StructType como argumentos e tipos de retorno para a UDF do Pandas do Scalar (SPARK-27240 )
- Suporte ao Dataframe Cogroup por meio de UDFs do Pandas (SPARK-27463)
- Adicionar
mapInPandaspara permitir um iterador de DataFrames (SPARK-28198) - Determinadas SQL funções também devem ter nomes de coluna (SPARK-26979)
- Tornar as exceções do SQL PySpark mais compatíveis com Python (SPARK-31849)
Aprimoramentos de cobertura de documentação e teste
- Compilar uma Referência de SQL (SPARK-28588)
- Compilar um guia do usuário para o WebUI (SPARK-28372)
- Compilar uma página para a documentação de configuração do SQL (SPARK-30510)
- Adicionar informações de versão para a configuração do Spark (Spark-30839)
- Testes de regressão de porta do PostgreSQL (Spark-27763)
- Cobertura de teste do servidor Thrift (SPARK-28608)
- Cobertura de teste de UDFs (UDF do python, UDF de pandas, UDF de escala) (SPARK-27921)
Outras alterações importantes
- Atualização de execução interna do Hive de 1.2.1 para 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Usar a dependência Apache Hive 2.3 por padrão (SPARK-30034)
- GA escala 2.12 e remover 2.11 (SPARK-26132)
- Melhorar a lógica para executores de tempo limite em alocação dinâmica (SPARK-20286)
- Blocos de RDD persistentes de disco servidos pelo serviço de ordem aleatória e ignorados para Alocação Dinâmica (SPARK-27677)
- Adquirir novos executores para evitar a interrupção por causa do inclusão na lista de bloqueados (SPARK-22148)
- Permitir o compartilhamento de alocadores de pool de memória do Netty (SPARK-24920)
- Corrigir o deadlock entre
TaskMemoryManagereUnsafeExternalSorter$SpillableIterator(SPARK-27338) - Introduzir
AdmissionControlAPIs para StructuredStreaming (SPARK-30669) - Aprimoramento de desempenho da página principal do histórico do Spark (SPARK-25973)
- Acelerar e reduzir a agregação de métrica no ouvinte de SQL (SPARK-29562)
- Evitar a rede quando blocos de ordem aleatória são buscados do mesmo host (SPARK-27651)
- Melhorar a listagem de arquivos para
DistributedFileSystem(SPARK-27801)
Alterações de comportamento para Spark core, Spark SQL e Streaming Estruturado
Os guias de migração a seguir listam as alterações de comportamento entre Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para os trabalhos que você está executando em versões mais baixas do Databricks Runtime:
- Guia de migração: Spark Core
- Guia de migração: SQL, conjuntos de dados e DataFrame
- Guia de migração: Streaming Estruturado
- Guia de migração: PySpark (Python no Spark)
As seguintes alterações de comportamento não são abordadas nesses guias de migração:
- No Spark 3.0, a classe preterida
org.apache.spark.sql.streaming.ProcessingTimefoi removida. Useorg.apache.spark.sql.streaming.Trigger.ProcessingTimeem vez disso. Da mesma forma,org.apache.spark.sql.execution.streaming.continuous.ContinuousTriggerfoi removido em favor deTrigger.Continuouseorg.apache.spark.sql.execution.streaming.OneTimeTriggerfoi ocultado em favor deTrigger.Once. (SPARK-28199) - No Databricks Runtime 7.0, ao ler uma tabela SerDe do Hive, por padrão, o Spark não permite a leitura de arquivos em um subdiretório que não seja uma partição de tabela. Para habilitá-lo, defina a configuração
spark.databricks.io.hive.scanNonpartitionedDirectory.enabledcomotrue. Isso não afeta os leitores da tabela nativa do Spark e os leitores de arquivo.
MLlib
Destaques
- Suporte a várias colunas foi adicionado ao Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) e PySpark QuantileDiscretizer (SPARK-22796)
- Suporte à transformação de recursos baseada em árvore (SPARK-13677)
- Dois novos avaliadores MultilabelClassificationEvaluator (SPARK-16692) e RankingEvaluator (SPARK-28045) foram adicionados
- O suporte a pesos de exemplo foi adicionado em DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) e GaussianMixture (SPARK-30102)
- A API do R para PowerIterationClustering foi adicionada (SPARK-19827)
- Ouvinte do spark ML adicionado para acompanhar o status do pipeline de ML (SPARK-23674)
- A opção de ajustar ao conjunto de validação foi adicionada às árvores aumentadas de gradiente no Python (SPARK-24333)
- Adição do transformador RobustScaler (SPARK-28399)
- Adição do classificador e do regressor das Máquinas de Fatoração (SPARK-29224)
- O Naive Bayes Gaussiano (SPARK-16872) e o Complemento Naive Bayes (SPARK-29942) foram adicionados
- A paridade de função de ML entre Scala e Python (SPARK-28958)
- O predictRaw torna-se público em todos os modelos de Classificação. O predictProbability torna-se público em todos os modelos de classificação, exceto LinearSVCModel (Spark-30358)
Alterações de comportamento para MLlib
O guia de migração a seguir lista as alterações de comportamento entre Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para os trabalhos que você está executando em versões mais baixas do Databricks Runtime:
As seguintes alterações de comportamento não são abordadas no guia de migração:
- No Spark 3.0, uma regressão logística de multiclasse no Pyspark agora retornará (corretamente)
LogisticRegressionSummary, não a subclasseBinaryLogisticRegressionSummary. Os métodos adicionais expostos peloBinaryLogisticRegressionSummarynão funcionariam nesse caso, de qualquer forma. (SPARK-31681) - No Spark 3.0,
pyspark.ml.param.shared.Has*os mixins não fornecem mais nenhum método setterset*(self, value); use o respectivoself.set(self.*, value). Confira o SPARK-29093 para obter detalhes. (SPARK-29093)
SparkR
- Otimização de Arrow na interoperabilidade do SparkR (SPARK-26759)
- Aprimoramento de desempenho por meio de R gapply(), dapply(), createDataFrame, collect() vetorizados
- "Execução adiantada" para o R Shell, IDE (SPARK-24572)
- R API para clustering de iteração de energia (SPARK-19827)
Alterações de comportamento para SparkR
O guia de migração a seguir lista as alterações de comportamento entre Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para os trabalhos que você está executando em versões mais baixas do Databricks Runtime:
Desativações
- Suporte ao Python 2 preterido (SPARK-27884)
- Suporte ao R < 3.4 preterido (SPARK-26014)
Problemas conhecidos
- A análise do dia do ano usando a letra padrão 'D' retornará o resultado errado se o campo de ano estiver ausente. Isso pode acontecer em funções SQL, como
to_timestamp, que analisa a cadeia de caracteres datetime como valores datetime usando uma cadeia de caracteres de padrão. (SPARK-31939) - Junção/janela/agregação dentro de subconsultas pode levar a resultados incorretos se as chaves tiverem valores -0,0 e 0,0. (SPARK-31958)
- Uma consulta de janela pode falhar com um erro de autojunção ambíguo inesperadamente. (SPARK-31956)
- As consultas de streaming com operador
dropDuplicatespodem não conseguir reiniciar com o ponto de verificação gravado pelo Spark 2.x. (SPARK-31990)
Atualizações de manutenção
Confira Atualizações de manutenção do Databricks Runtime 7.0.
Ambiente do sistema
- Sistema operacional: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Scala: 2.12.10
- Python: 3.7.5
- R: R versão 3.6.3 (29-02-2020)
- Delta Lake 0.7.0
Bibliotecas Python instaladas
| Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
|---|---|---|---|---|---|
| asn1crypto | 1.3.0 | chamada de retorno | 0.1.0 | boto3 | 1.12.0 |
| botocore | 1.15.0 | certificação | 2020.4.5 | cffi | 1.14.0 |
| chardet | 3.0.4 | criptografia | 2.8 | ciclista | 0.10.0 |
| Cython | 0.29.15 | decorador | 4.4.1 | docutils | 0.15.2 |
| pontos de entrada | 0,3 | IDNA | 2.8 | ipykernel | 5.1.4 |
| ipython | 7.12.0 | ipython-genutils | 0.2.0 | Jedi | 0.14.1 |
| jmespath | 0.9.4 | joblib | 0.14.1 | Cliente Jupyter | 5.3.4 |
| jupyter-core | 4.6.1 | kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
| numpy | 1.18.1 | Pandas | 1.0.1 | parso | 0.5.2 |
| Patsy | 0.5.1 | pexpect | 4.8.0 | pickleshare | 0.7.5 |
| caroço | 20.0.2 | kit de ferramentas de prompt | 3.0.3 | psycopg2 | 2.8.4 |
| ptyprocess | 0.6.0 | Pyarrow | 0.15.1 | pycparser | 2.19 |
| Pygments | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
| pyparsing | 2.4.6 | PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
| python-dateutil | 2.8.1 | Pytz | 2019.3 | pyzmq | 18.1.1 |
| solicitações | 2.22.0 | s3transfer | 0.3.3 | scikit-aprender | 0.22.1 |
| Scipy | 1.4.1 | seaborn (biblioteca de visualização em Python) | 0.10.0 | Ferramentas de configuração | 45.2.0 |
| seis | 1.14.0 | ssh-import-id | 5.7 | statsmodels (biblioteca para modelos estatísticos em Python) | 0.11.0 |
| tornado | 6.0.3 | traitlets | 4.3.3 | atualizações não supervisionadas | 0,1 |
| urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth | 0.1.8 |
| wheel | 0.34.2 |
Bibliotecas R instaladas
As bibliotecas do R foram instaladas por meio do instantâneo do Microsoft CRAN em 22/4/2020.
| Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
|---|---|---|---|---|---|
| AskPass | 1,1 | afirme isso | 0.2.1 | backports | 1.1.6 |
| base | 3.6.3 | base64enc | 0.1-3 | BH | 1.72.0-3 |
| bit | 1.1-15.2 | bit64 | 0.9-7 | blob | 1.2.1 |
| ciar | 1.3-25 | Fabricação de cerveja | 1.0-6 | vassoura | 0.5.6 |
| chamador | 3.4.3 | sinal de interpolação | 6.0-86 | Cellranger | 1.1.0 |
| crono | 2.3-55 | classe | 7.3-17 | Interface de Linha de Comando (CLI) | 2.0.2 |
| clipr | 0.7.0 | cluster | 2.1.0 | codetools | 0.2-16 |
| espaço de cores | 1.4-1 | commonmark | 1,7 | compilador | 3.6.3 |
| configuração | 0,3 | cobertor | 3.5.0 | giz de cera | 1.3.4 |
| diafonia | 1.1.0.1 | encurvar | 4.3 | Tabela de Dados | 1.12.8 |
| conjuntos de dados | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
| Descrição | 1.2.0 | devtools | 2.3.0 | hash | 0.6.25 |
| dplyr | 0.8.5 | DT | 0.13 | reticências | 0.3.0 |
| avaliar | 0,14 | fansi | 0.4.1 | cores | 2.0.3 |
| fastmap | 1.0.1 | para gatos | 0.5.0 | para cada | 1.5.0 |
| estrangeiro | 0.8-76 | forja | 0.2.0 | Fs | 1.4.1 |
| genéricos | 0.0.2 | ggplot2 | 3.3.0 | Gh | 1.1.0 |
| git2r | 0.26.1 | glmnet | 3.0-2 | globais | 0.12.5 |
| cola | 1.4.0 | Gower | 0.2.1 | elemento gráfico | 3.6.3 |
| grDevices | 3.6.3 | grade | 3.6.3 | gridExtra | 2.3 |
| gsubfn | 0,7 | gtable | 0.3.0 | refúgio | 2.2.0 |
| mais alto | 0,8 | Hms | 0.5.3 | ferramentas HTML | 0.4.0 |
| htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
| hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
| ipred | 0.9-9 | isoband | 0.2.1 | Iteradores | 1.0.12 |
| jsonlite | 1.6.1 | KernSmooth | 2.23-17 | malhador | 1.28 |
| rotulagem | 0,3 | posterior | 1.0.0 | treliça | 0.20-41 |
| lava vulcânica | 1.6.7 | lazyeval | 0.2.2 | ciclo de vida | 0.2.0 |
| lubrificado | 1.7.8 | magrittr | 1.5 | redução de preço | 1,1 |
| MISSA | 7.3-51.6 | Matriz | 1.2-18 | memorizar | 1.1.0 |
| Métodos | 3.6.3 | mgcv | 1.8-31 | mímica | 0,9 |
| ModelMetrics | 1.2.2.2 | modelador | 0.1.6 | munsell | 0.5.0 |
| nlme | 3.1-147 | nnet | 7.3-14 | numDeriv | 2016.8-1.1 |
| openssl | 1.4.1 | paralelo | 3.6.3 | coluna | 1.4.3 |
| pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
| plogr | 0.2.0 | plyr | 1.8.6 | elogio | 1.0.0 |
| prettyunits | 1.1.1 | Proc | 1.16.2 | processx | 3.4.2 |
| Prodlim | 2019.11.13 | progresso | 1.2.2 | Promessas | 1.1.0 |
| proto | 1.0.0 | P.S. | 1.3.2 | purrr | 0.3.4 |
| r2d3 | 0.2.3 | R6 | 2.4.1 | randomForest | 4.6-14 |
| rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
| Rcpp | 1.0.4.6 | Readr | 1.3.1 | readxl | 1.3.1 |
| Receitas | 0.1.10 | jogo de revanche | 1.0.1 | revanche2 | 2.1.1 |
| Controles remotos | 2.1.1 | exemplo reprodutível (reprex) | 0.3.0 | remodelar2 | 1.4.4 |
| Rex | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
| rmarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
| rpart | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
| RSQLite | 2.2.0 | rstudioapi | 0,11 | rversions | 2.0.1 |
| rvest | 0.3.5 | escamas | 1.1.0 | Seletor | 0.4-2 |
| informações de sessão | 1.1.1 | forma | 1.4.4 | brilhante | 1.4.0.2 |
| sourcetools | 0.1.7 | sparklyr | 1.2.0 | SparkR | 3.0.0 |
| espacial | 7.3-11 | Splines | 3.6.3 | sqldf | 0.4-11 |
| SQUAREM | 2020.2 | estatísticas | 3.6.3 | estatísticas4 | 3.6.3 |
| stringi | 1.4.6 | stringr | 1.4.0 | sobrevivência | 3.1-12 |
| sys | 3.3 | tcltk | 3.6.3 | TeachingDemos | 2,10 |
| testthat | 2.3.2 | tibble | 3.0.1 | tidyr | 1.0.2 |
| tidyselect | 1.0.0 | tidyverse | 1.3.0 | data e hora | 3043.102 |
| tinytex | 0,22 | Ferramentas | 3.6.3 | usethis | 1.6.0 |
| utf8 | 1.1.4 | utilitários | 3.6.3 | vctrs | 0.2.4 |
| viridisLite | 0.3.0 | vibrissa | 0,4 | murchar | 2.2.0 |
| xfun | 0.13 | xml2 | 1.3.1 | xopen | 1.0.0 |
| xtable | 1.8-4 | YAML | 2.2.1 |
Bibliotecas do Java e do Scala instaladas (versão do cluster Scala 2.12)
| ID do Grupo | ID do artefato | Versão |
|---|---|---|
| antlr | antlr | 2.7.7 |
| com.amazonaws | amazon-kinesis-client | 1.12.0 |
| com.amazonaws | aws-java-sdk-autoscaling | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudsearch | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
| com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
| com.amazonaws | aws-java-sdk-cognitoidentity (pacote de identidade Cognito para Java da AWS) | 1.11.655 |
| com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
| com.amazonaws | aws-java-sdk-config | 1.11.655 |
| com.amazonaws | aws-java-sdk-core | 1.11.655 |
| com.amazonaws | aws-java-sdk-datapipeline | 1.11.655 |
| com.amazonaws | aws-java-sdk-directconnect (SDK Java da AWS para conexão direta) | 1.11.655 |
| com.amazonaws | aws-java-sdk-directory | 1.11.655 |
| com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
| com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
| com.amazonaws | SDK Java para o ECS da AWS | 1.11.655 |
| com.amazonaws | aws-java-sdk-efs | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticbeanstalk | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticloadbalancing | 1.11.655 |
| com.amazonaws | aws-java-sdk-elastictranscoder | 1.11.655 |
| com.amazonaws | aws-java-sdk-emr | 1.11.655 |
| com.amazonaws | aws-java-sdk-glacier | 1.11.655 |
| com.amazonaws | aws-java-sdk-iam (kit de desenvolvimento de software Java da AWS para IAM) | 1.11.655 |
| com.amazonaws | aws-java-sdk-importexport | 1.11.655 |
| com.amazonaws | aws-java-sdk-kinesis | 1.11.655 |
| com.amazonaws | aws-java-sdk-kms | 1.11.655 |
| com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
| com.amazonaws | aws-java-sdk-logs | 1.11.655 |
| com.amazonaws | aws-java-sdk-machinelearning (SDK da AWS para aprendizado de máquina) | 1.11.655 |
| com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
| com.amazonaws | aws-java-sdk-rds | 1.11.655 |
| com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
| com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
| com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
| com.amazonaws | aws-java-sdk-ses | 1.11.655 |
| com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
| com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
| com.amazonaws | aws-java-sdk-sns | 1.11.655 |
| com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
| com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
| com.amazonaws | aws-java-sdk-storagegateway | 1.11.655 |
| com.amazonaws | aws-java-sdk-sts | 1.11.655 |
| com.amazonaws | aws-java-sdk-support (suporte para AWS Java SDK) | 1.11.655 |
| com.amazonaws | aws-java-sdk-swf-libraryes | 1.11.22 |
| com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
| com.amazonaws | jmespath-java | 1.11.655 |
| com.chuusai | shapeless_2.12 | 2.3.3 |
| com.clearspring.analytics | fluxo | 2.9.6 |
| com.databricks | Rserve | 1.8-3 |
| com.databricks | jets3t | 0.7.1-0 |
| com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
| com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
| com.esotericsoftware | kryo sombreado | 4.0.2 |
| com.esotericsoftware | minlog | 1.3.0 |
| com.fasterxml | colega de classe | 1.3.4 |
| com.fasterxml.jackson.core | jackson-annotations | 2.10.0 |
| com.fasterxml.jackson.core | jackson-core | 2.10.0 |
| com.fasterxml.jackson.core | jackson-databind | 2.10.0 |
| com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
| com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
| com.fasterxml.jackson.datatype | jackson-module-paranamer | 2.10.0 |
| com.fasterxml.jackson.datatype | jackson-module-scala_2.12 | 2.10.0 |
| com.github.ben-manes.cafeína | cafeína | 2.3.4 |
| com.github.fommil | jniloader | 1,1 |
| com.github.fommil.netlib | núcleo | 1.1.2 |
| com.github.fommil.netlib | native_ref-java | 1,1 |
| com.github.fommil.netlib | native_ref-java-natives | 1,1 |
| com.github.fommil.netlib | sistema_nativo-java | 1,1 |
| com.github.fommil.netlib | sistema_nativo-java-nativos | 1,1 |
| com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1,1 |
| com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1,1 |
| com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
| com.github.luben | zstd-jni | 1.4.4-3 |
| com.github.wendykierp | JTransforms | 3.1 |
| com.google.code.findbugs | jsr305 | 3.0.0 |
| com.google.code.gson | gson | 2.2.4 |
| com.google.flatbuffers | flatbuffers-java | 1.9.0 |
| com.google.guava | goiaba | 15,0 |
| com.google.protobuf | protobuf-java | 2.6.1 |
| com.h2database | h2 | 1.4.195 |
| com.helger | criador de perfil | 1.1.1 |
| com.jcraft | jsch | 0.1.50 |
| com.jolbox | bonecp | VERSÃO.0.8.0. |
| com.microsoft.azure | azure-data-lake-store-sdk | 2.2.8 |
| com.microsoft.sqlserver | mssql-jdbc | 8.2.1.jre8 |
| com.ning | compress-lzf | 1.0.3 |
| com.sun.mail | javax.mail | 1.5.2 |
| com.tdunning | json | 1.8 |
| com.thoughtworks.paranamer | paranamer | 2.8 |
| com.trueaccord.lenses | lentes_2.12 | 0.4.12 |
| com.twitter | chill-java | 0.9.5 |
| com.twitter | chill_2.12 | 0.9.5 |
| com.twitter | util-app_2.12 | 7.1.0 |
| com.twitter | util-core_2.12 | 7.1.0 |
| com.twitter | util-function_2.12 | 7.1.0 |
| com.twitter | util-jvm_2.12 | 7.1.0 |
| com.twitter | util-lint_2.12 | 7.1.0 |
| com.twitter | util-registry_2.12 | 7.1.0 |
| com.twitter | util-stats_2.12 | 7.1.0 |
| com.typesafe | configuração | 1.2.1 |
| com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
| com.univocity | univocity-parsers | 2.8.3 |
| com.zaxxer | HikariCP | 3.1.0 |
| commons-beanutils | commons-beanutils | 1.9.4 |
| commons-cli | commons-cli | 1,2 |
| commons-codec | commons-codec | 1,10 |
| commons-collections (coleções comuns) | commons-collections (coleções comuns) | 3.2.2 |
| commons-configuration | commons-configuration | 1.6 |
| commons-dbcp | commons-dbcp | 1.4 |
| commons-digester | commons-digester | 1.8 |
| commons-fileupload | commons-fileupload | 1.3.3 |
| commons-httpclient | commons-httpclient | 3.1 |
| commons-io | commons-io | 2,4 |
| commons-lang | commons-lang | 2.6 |
| commons-logging | commons-logging | 1.1.3 |
| commons-net | commons-net | 3.1 |
| commons-pool | commons-pool | 1.5.4 |
| info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
| io.airlift | compressor de ar | 0.10 |
| io.dropwizard.metrics | metrics-core | 4.1.1 |
| io.dropwizard.metrics | metrics-graphite | 4.1.1 |
| io.dropwizard.metrics | métricas-verificações de saúde | 4.1.1 |
| io.dropwizard.metrics | metrics-jetty9 | 4.1.1 |
| io.dropwizard.metrics | metrics-jmx | 4.1.1 |
| io.dropwizard.metrics | metrics-json (métricas em JSON) | 4.1.1 |
| io.dropwizard.metrics | metrics-jvm | 4.1.1 |
| io.dropwizard.metrics | metrics-servlets | 4.1.1 |
| io.netty | Netty-all | 4.1.47.Final |
| jakarta.annotation | jakarta.annotation-api | 1.3.5 |
| jakarta.validation | jakarta.validation-api | 2.0.2 |
| jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
| javax.activation | ativação | 1.1.1 |
| javax.el | javax.el-api | 2.2.4 |
| javax.jdo | jdo-api | 3.0.1 |
| javax.servlet | javax.servlet-api | 3.1.0 |
| javax.servlet.jsp | jsp-api | 2.1 |
| javax.transaction | jta | 1,1 |
| javax.transaction | API de transação | 1,1 |
| javax.xml.bind | jaxb-api | 2.2.2 |
| javax.xml.stream | stax-api | 1.0-2 |
| javolution | javolution | 5.5.1 |
| jline | jline | 2.14.6 |
| joda-time | joda-time | 2.10.5 |
| log4j | apache-log4j-extras | 1.2.17 |
| log4j | log4j | 1.2.17 |
| net.razorvine | pirolito | 4,30 |
| net.sf.jpam | jpam | 1,1 |
| net.sf.opencsv | opencsv | 2.3 |
| net.sf.supercsv | super-csv | 2.2.0 |
| net.snowflake | snowflake-ingest-sdk | 0.9.6 |
| net.snowflake | snowflake-jdbc | 3.12.0 |
| net.snowflake | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
| net.sourceforge.f2j | arpack_combined_all | 0,1 |
| org.acplt.remotetea | remotetea-oncrpc | 1.1.2 |
| org.antlr | ST4 | 4.0.4 |
| org.antlr | antlr-runtime | 3.5.2 |
| org.antlr | antlr4-runtime | 4.7.1 |
| org.antlr | stringtemplate | 3.2.1 |
| org.apache.ant | formiga | 1.9.2 |
| org.apache.ant | ant-jsch | 1.9.2 |
| org.apache.ant | lançador de formigas | 1.9.2 |
| org.apache.arrow | formato de seta | 0.15.1 |
| org.apache.arrow | memória de seta | 0.15.1 |
| org.apache.arrow | vetor de seta | 0.15.1 |
| org.apache.avro | Avro | 1.8.2 |
| org.apache.avro | avro-ipc | 1.8.2 |
| org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
| org.apache.commons | commons-compress | 1.8.1 |
| org.apache.commons | commons-crypto | 1.0.0 |
| org.apache.commons | commons-lang3 | 3.9 |
| org.apache.commons | commons-math3 | 3.4.1 |
| org.apache.commons | Texto Comum | 1.6 |
| org.apache.curator | curador-cliente | 2.7.1 |
| org.apache.curator | estrutura do curador | 2.7.1 |
| org.apache.curator | curador de receitas | 2.7.1 |
| org.apache.derby | Derby | 10.12.1.1 |
| org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
| org.apache.directory.api | api-util | 1.0.0-M20 |
| org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
| org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
| org.apache.hadoop | hadoop-annotations | 2.7.4 |
| org.apache.hadoop | hadoop-auth | 2.7.4 |
| org.apache.hadoop | cliente Hadoop | 2.7.4 |
| org.apache.hadoop | hadoop-common (componente comum do Hadoop) | 2.7.4 |
| org.apache.hadoop | hadoop-hdfs | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-app (aplicativo cliente do hadoop-mapreduce) | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-core | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-server-common | 2.7.4 |
| org.apache.hive | hive-beeline (ferramenta de linha de comando para conectar-se ao Hive) | 2.3.7 |
| org.apache.hive | hive-cli | 2.3.7 |
| org.apache.hive | hive-common | 2.3.7 |
| org.apache.hive | hive-exec-core | 2.3.7 |
| org.apache.hive | hive-jdbc | 2.3.7 |
| org.apache.hive | hive-llap-client | 2.3.7 |
| org.apache.hive | hive-llap-common | 2.3.7 |
| org.apache.hive | hive-metastore | 2.3.7 |
| org.apache.hive | hive-serde | 2.3.7 |
| org.apache.hive | hive-shims | 2.3.7 |
| org.apache.hive | API de armazenamento do Hive | 2.7.1 |
| org.apache.hive | hive-vector-code-gen | 2.3.7 |
| org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
| org.apache.hive.shims | hive-shims-common | 2.3.7 |
| org.apache.hive.shims | Agendador de Ajustes do Hive (hive-shims-scheduler) | 2.3.7 |
| org.apache.htrace | htrace-core | 3.1.0-em incubação |
| org.apache.httpcomponents | httpclient | 4.5.6 |
| org.apache.httpcomponents | httpcore | 4.4.12 |
| org.apache.ivy | hera | 2.4.0 |
| org.apache.orc | orc-core | 1.5.10 |
| org.apache.orc | orc-mapreduce | 1.5.10 |
| org.apache.orc | orc-calços | 1.5.10 |
| org.apache.parquet | coluna parquet | 1.10.1.2-databricks4 |
| org.apache.parquet | parquet-comum | 1.10.1.2-databricks4 |
| org.apache.parquet | codificação-parquet | 1.10.1.2-databricks4 |
| org.apache.parquet | formato parquet | 2.4.0 |
| org.apache.parquet | parquet-hadoop | 1.10.1.2-databricks4 |
| org.apache.parquet | parquet-jackson | 1.10.1.2-databricks4 |
| org.apache.thrift | libfb303 | 0.9.3 |
| org.apache.thrift | libthrift | 0.12.0 |
| org.apache.velocity | velocidade | 1.5 |
| org.apache.xbean | xbean-asm7-shaded | 4,15 |
| org.apache.yetus | comentários da audiência | 0.5.0 |
| org.apache.zookeeper | zelador de zoológico | 3.4.14 |
| org.codehaus.jackson | jackson-core-asl | 1.9.13 |
| org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
| org.codehaus.jackson | jackson-mapper-asl | 1.9.13 |
| org.codehaus.jackson | jackson-xc | 1.9.13 |
| org.codehaus.janino | commons-compiler | 3.0.16 |
| org.codehaus.janino | janino | 3.0.16 |
| org.datanucleus | datanucleus-api-jdo | 4.2.4 |
| org.datanucleus | datanucleus-core | 4.1.17 |
| org.datanucleus | datanucleus-rdbms | 4.1.19 |
| org.datanucleus | javax.jdo | 3.2.0-m3 |
| org.eclipse.jetty | jetty-client | 9.4.18.v20190429 |
| org.eclipse.jetty | Continuação do Jetty (jetty-continuation) | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-http | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-plus | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-proxy | 9.4.18.v20190429 |
| org.eclipse.jetty | segurança do jetty | 9.4.18.v20190429 |
| org.eclipse.jetty | servidor jetty | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-servlets | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-util | 9.4.18.v20190429 |
| org.eclipse.jetty | Jetty Webapp | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
| org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
| org.glassfish.hk2 | hk2-api | 2.6.1 |
| org.glassfish.hk2 | hk2-locator | 2.6.1 |
| org.glassfish.hk2 | hk2-utils | 2.6.1 |
| org.glassfish.hk2 | Localizador de Recursos OSGi | 1.0.3 |
| org.glassfish.hk2.external | AliançaAOP-Reempacotado | 2.6.1 |
| org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
| org.glassfish.jersey.containers | jersey-container-servlet | 2.30 |
| org.glassfish.jersey.containers | jersey-container-servlet-core | 2.30 |
| org.glassfish.jersey.core | jersey-client | 2.30 |
| org.glassfish.jersey.core | jersey-comum | 2.30 |
| org.glassfish.jersey.core | jersey-server | 2.30 |
| org.glassfish.jersey.inject | jersey-hk2 | 2.30 |
| org.glassfish.jersey.media | jersey-media-jaxb | 2.30 |
| org.hibernate.validator | hibernate-validator | 6.1.0.Final |
| org.javassist | javassist | 3.25.0-GA |
| org.jboss.logging | jboss-logging | 3.3.2.Final |
| org.jdbi | jdbi | 2.63.1 |
| org.joda | joda-convert | 1,7 |
| org.jodd | jodd-core | 3.5.2 |
| org.json4s | json4s-ast_2.12 | 3.6.6 |
| org.json4s | json4s-core_2.12 | 3.6.6 |
| org.json4s | json4s-jackson_2.12 | 3.6.6 |
| org.json4s | json4s-scalap_2.12 | 3.6.6 |
| org.lz4 | lz4-java | 1.7.1 |
| org.mariadb.jdbc | cliente Java do MariaDB | 2.1.2 |
| org.objenesis | objenésia | 2.5.1 |
| org.postgresql | postgresql | 42.1.4 |
| org.roaringbitmap | RoaringBitmap | 0.7.45 |
| org.roaringbitmap | Calços | 0.7.45 |
| org.rocksdb | rocksdbjni | 6.2.2 |
| org.rosuda.REngine | REngine | 2.1.0 |
| org.scala-lang | scala-compiler_2.12 | 2.12.10 |
| org.scala-lang | scala-library_2.12 | 2.12.10 |
| org.scala-lang | scala-reflect_2.12 | 2.12.10 |
| org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
| org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
| org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
| org.scala-sbt | interface de teste | 1,0 |
| org.scalacheck | scalacheck_2.12 | 1.14.2 |
| org.scalactic | scalactic_2.12 | 3.0.8 |
| org.scalanlp | breeze-macros_2.12 | 1,0 |
| org.scalanlp | breeze_2.12 | 1,0 |
| org.scalatest | scalatest_2.12 | 3.0.8 |
| org.slf4j | jcl-over-slf4j | 1.7.30 |
| org.slf4j | jul-to-slf4j | 1.7.30 |
| org.slf4j | slf4j-api | 1.7.30 |
| org.slf4j | slf4j-log4j12 | 1.7.30 |
| org.spark-project.spark | não utilizado | 1.0.0 |
| org.springframework | spring-core | 4.1.4.LANÇAMENTO |
| org.springframework | teste de primavera | 4.1.4.LANÇAMENTO |
| org.threeten | threeten-extra | 1.5.0 |
| org.tukaani | xz | 1.5 |
| org.typelevel | algebra_2.12 | 2.0.0-M2 |
| org.typelevel | cats-kernel_2.12 | 2.0.0-M4 |
| org.typelevel | maquinista_2.12 | 0.6.8 |
| org.typelevel | macro-compat_2.12 | 1.1.1 |
| org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
| org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
| org.typelevel | spire-util_2.12 | 0.17.0-M1 |
| org.typelevel | spire_2.12 | 0.17.0-M1 |
| org.xerial | sqlite-jdbc | 3.8.11.2 |
| org.xerial.snappy | snappy-java | 1.1.7.5 |
| org.yaml | snakeyaml | 1,24 |
| oro | oro | 2.0.8 |
| pl.edu.icm | JLargeArrays | 1.5 |
| software.amazon.ion | ion-java | 1.0.2 |
| Stax | stax-api | 1.0.1 |
| xmlenc | xmlenc | 0.52 |