Databricks Runtime 7.0(EoS)

참고 항목

이 Databricks Runtime 버전에 대한 지원이 종료되었습니다. 지원 종료 날짜는 지원 종료 기록을 참조하세요. 지원되는 모든 Databricks Runtime 버전은 Databricks Runtime 릴리스 정보 버전 및 호환성을 참조하세요.

Databricks는 2020년 6월에 이 버전을 릴리스했습니다.

다음 릴리스 정보는 Apache Spark 3.0에서 제공하는 Databricks Runtime 7.0에 대한 정보를 제공합니다.

새로운 기능

Databricks Runtime 7.0에는 다음과 같은 새로운 기능이 포함되어 있습니다.

Scala 2.12

Databricks Runtime 7.0은 Scala를 2.11.12에서 2.12.10으로 업그레이드합니다. Scala 2.12와 2.11 사이의 변경 사항 목록은 Scala 2.12.0 릴리스 노트에 있습니다.
Databricks Runtime 6.4에서 릴리스된 자동 로더(공개 미리 보기)가 Databricks Runtime 7.0에서 개선되었습니다.

자동 로더는 ETL 동안 클라우드 Blob 저장소에 도착하는 새 데이터 파일을 증분 방식으로 처리하는 보다 효율적인 방법을 제공합니다. 이는 클라우드 디렉터리를 반복적으로 나열하고 본 파일을 추적하여 새 파일을 식별하는 파일 기반 구조적 스트리밍에 비해 개선되었으며 디렉터리가 커질수록 매우 비효율적일 수 있습니다. 또한 자동 로더는 파일 알림 기반의 구조적 스트리밍보다 더 편리하고 효과적입니다. 따라서 클라우드에서 파일 알림 서비스를 수동으로 구성해야 하며 기존 파일을 다시 채울 수 없습니다. 자세한 내용은 자동 로더란?을 참조하세요.

Databricks Runtime 7.0에서는 자동 로더를 사용하기 위해 더 이상 사용자 지정 Databricks Runtime 이미지를 요청할 필요가 없습니다.
Idempotent 재시도를 사용하여 Delta Lake에 데이터를 로드할 수 있는 COPY INTO(공개 미리 보기)가 Databricks Runtime 7.0에서 개선되었습니다.

Databricks Runtime 6.4에서 공개 미리 보기로 릴리스된 COPY INTO SQL 명령을 사용하면 idempotent 다시 시도를 통해 Delta Lake에 데이터를 로드할 수 있습니다. 현재 Delta Lake에 데이터를 로드하려면 Apache Spark DataFrame API를 사용해야 합니다. 로드 중 오류가 발생하면 이를 효과적으로 처리해야 합니다. 새로운 COPY INTO 명령은 SQL에서 데이터를 로드하기 위한 친숙한 선언적 인터페이스를 제공합니다. 이 명령은 이전에 로드된 파일을 추적하고 실패할 경우 안전하게 다시 실행할 수 있습니다. 자세한 내용은 COPY INTO참조하세요.

향상된 기능

Azure Synapse(이전의 SQL Data Warehouse) 커넥터는 COPY 문을 지원합니다.

COPY의 주요 이점은 권한이 낮은 사용자가 Azure Synapse에 대한 엄격한 CONTROL 권한이 없어도 Azure Synapse에 데이터를 쓸 수 있다는 것입니다.
%matplotlib inline 매직 명령은 더 이상 Notebook 셀에 인라인으로 Matplolib 개체를 표시하는 데 필요하지 않습니다. 기본적으로 항상 인라인으로 표시됩니다.
Matplolib 그림이 이제 transparent=False로 렌더링되므로 사용자 지정 배경이 손실되지 않습니다. 이 동작은 Spark 구성 spark.databricks.workspace.matplotlib.transparent true를 설정하여 재정의할 수 있습니다.
높은 동시성 모드 클러스터에서 구조적 스트리밍 프로덕션 작업을 실행할 때 이전에 실행한 작업이 제대로 종료되지 않았기 때문에 작업의 다시 시작이 실패하는 경우가 있습니다. Databricks Runtime 6.3에서는 이전 실행이 중지되도록 클러스터에서 SQL 구성 spark.sql.streaming.stopActiveRunOnRestart true 설정하는 기능을 도입했습니다. 이 구성은 Databricks Runtime 7.0에서 기본적으로 설정됩니다.

주요 라이브러리 변경 내용

Python 패키지

업그레이드된 주요 Python 패키지:

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 -> 3.1.3
numpy 1.16.2 -> 1.18.1
pandas 0.24.2 -> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 -> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

제거된 Python 패키지:

boto(boto3 사용)
pycurl

참고 항목

Databricks Runtime 7.0의 Python 환경은 설치된 Ubuntu 시스템 Python과 다른 Python 3.7을 사용합니다. /usr/bin/python 및 /usr/bin/python2는 Python 2.7에 연결되고 /usr/bin/python3은 Python 3.6에 연결됩니다.

R 패키지

추가된 R 패키지:

빗자루
더 높다
아이소밴드
니터
마크다운
모델러
레프렉스(문제의 재현 가능한 예시)
r마크다운
rvest (웹 스크래핑을 위한 R 패키지)
선택기
tidyverse (타이디버스)
tinytex
xfun

제거된 R 패키지:

에이바인드
bitops
차량
자동차데이터
doMC
gbm (지엠비엠)
물 (H₂O)
더 작다
lme4
맵프로젝트
맵
maptools
MatrixModels
민카
mvtnorm
nloptr
openxlsx
pbkrtest
pkgKitten
퀀트레그 (quantreg)
R.methodsS3
R.oo
R.utils (R 패키지의 유틸리티 라이브러리)
RcppEigen
RCurl
리오
sp
SparseM
스탯모드
지퍼

Java와 Scala 라이브러리

Hive 사용자 정의 함수 및 Hive SerDes를 처리하는 데 사용되는 Apache Hive 버전이 2.3으로 업그레이드되었습니다.
이전에는 Azure Storage 및 Key Vault jar가 Databricks Runtime의 일부로 패키지되었으므로 클러스터에 연결된 해당 라이브러리의 다른 버전을 사용할 수 없습니다. com.microsoft.azure.storage 및 com.microsoft.azure.keyvault 아래의 클래스는 더 이상 Databricks Runtime의 클래스 경로에 없습니다. 이러한 클래스 경로 중 하나에 의존하는 경우 이제 Azure Storage SDK 또는 Azure Key Vault SDK를 클러스터에 연결해야 합니다.

동작 변경

이 섹션에서는 Databricks Runtime 6.6에서 Databricks Runtime 7.0으로의 동작 변경 내용을 나열합니다. 낮은 Databricks Runtime 릴리스에서 Databricks Runtime 7.0 이상으로 워크로드를 마이그레이션할 때 이러한 점을 알고 있어야 합니다.

Spark 동작 변경 내용

Databricks Runtime 7.0은 Spark 3.0에서 빌드된 첫 번째 Databricks Runtime이므로 Spark 2.4에서 빌드된 Databricks Runtime 5.5 LTS 또는 6.x에서 워크로드를 마이그레이션할 때 알아야 할 변경 내용이 많이 있습니다. 이러한 변경 내용은 이 릴리스 정보 문서의 Apache Spark 섹션에 있는 각 기능 영역의 "동작 변경 내용" 섹션에 나열되어 있습니다.

Spark 코어, Spark SQL 및 구조적 스트리밍의 동작 변경 내용
MLlib의 동작 변경 내용
SparkR의 동작 변경 내용

기타 동작 변경

Scala 2.12로의 업그레이드에 포함된 변경 내용은 다음과 같습니다.
- 패키지 셀 직렬화가 다르게 처리됩니다. 다음 예제에서는 동작 변경과 이를 처리하는 방법을 보여 줍니다.
  
  다음 패키지 셀에서 정의한 대로 foo.bar.MyObjectInPackageCell.run()을 실행하면 java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$ 오류가 트리거됩니다.
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  이 오류를 해결하기 위해 MyObjectInPackageCell을 직렬화 가능한 클래스 내에서 래핑할 수 있습니다.
- DataStreamWriter.foreachBatch 사용하는 특정 경우에는 소스 코드 업데이트가 필요합니다. 이 변경은 Scala 2.12에 람다 식에서 SAM 형식으로의 자동 변환이 있고 모호성을 유발할 수 있기 때문입니다.
  
  예를 들어 다음 Scala 코드는 컴파일할 수 없습니다.
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  컴파일 오류를 수정하려면 foreachBatch { (df, id) => myFunc(df, id) }를 foreachBatch(myFunc _)로 변경하거나 Java API를 명시적으로 사용합니다(foreachBatch(new VoidFunction2 ...)).

Hive 사용자 정의 함수 및 Hive SerDes를 처리하는 데 사용되는 Apache Hive 버전이 2.3으로 업그레이드되므로 다음 두 가지 변경이 필요합니다.
- Hive의 SerDe 인터페이스는 추상 클래스 AbstractSerDe로 대체됩니다. 사용자 지정 Hive SerDe 구현의 경우 AbstractSerDe로 마이그레이션해야 합니다.
- spark.sql.hive.metastore.jars builtin 설정하면 Hive 2.3 메타스토어 클라이언트가 Databricks Runtime 7.0의 메타스토어에 액세스하는 데 사용됩니다. Hive 1.2 기반 외부 메타스토어에 액세스해야 하는 경우 spark.sql.hive.metastore.jars Hive 1.2 jar가 포함된 폴더로 설정합니다.

사용 중단 및 제거

데이터 건너뛰기 인덱스는 Databricks Runtime 4.3에서 더 이상 사용되지 않으며 Databricks Runtime 7.0에서 제거되었습니다. 대신 델타 테이블을 사용하는 것이 좋습니다. 이 테이블은향상된 데이터 건너뛰기 기능을 제공합니다.
Databricks Runtime 7.0에서 Apache Spark의 기본 버전은 Scala 2.12를 사용합니다. Scala 2.11에 대해 컴파일된 라이브러리는 예기치 않은 방식으로 Databricks Runtime 7.0 클러스터를 사용하지 않도록 설정할 수 있으므로 Databricks Runtime 7.0 이상을 실행하는 클러스터는 모든 클러스터에 설치되도록 구성된 라이브러리를 설치하지 않습니다. 클러스터 라이브러리 탭에는 상태 Skipped와 라이브러리 처리 변경 내용을 설명하는 사용 중단 메시지가 표시됩니다. 그러나 Azure Databricks 플랫폼 버전 3.20이 작업 영역에 릴리스되기 전 이전 버전의 Databricks Runtime에서 만들어진 클러스터가 있고 이제 Databricks Runtime 7.0을 사용하도록 해당 클러스터를 편집하는 경우, 모든 클러스터에 설치되도록 구성되어 있으면 해당 클러스터에 설치됩니다. 이 경우 설치된 라이브러리의 호환되지 않는 JAR로 인해 클러스터가 사용하지 않도록 설정될 수 있습니다. 해결 방법은 클러스터를 복제하거나 새 클러스터를 만드는 것입니다.

Apache Spark

Databricks Runtime 7.0에는 Apache Spark 3.0이 포함되어 있습니다.

Core, Spark SQL, 구조적 스트리밍

중요 사항

(Project Hydrogen) 가속기 인식 스케줄러(SPARK-24615)
적응형 쿼리 실행(SPARK-31412)
동적 파티션 정리(SPARK-11150)
형식 힌트가 포함된 재설계된 pandas UDF API(SPARK-28264)
구조화된 스트리밍 UI(SPARK-29543)
카탈로그 플러그 인 API(SPARK-31121)
더 나은 ANSI SQL 호환성

성능 향상

적응 쿼리 실행(SPARK-31412)
- 기본 프레임워크(SPARK-23128)
- 셔플 후 파티션 번호 조정 (SPARK-28177)
- 동적 하위 쿼리 재사용(SPARK-28753)
- 로컬 순서 섞기 판독기(SPARK-28560)
- 스큐 조인 최적화(SPARK-29544)
- 연속 셔플 블록 읽기 최적화(SPARK-9853)
동적 파티션 정리(SPARK-11150)
기타 최적화 프로그램 규칙
- 규칙 ReuseSubquery(SPARK-27279)
- 규칙 PushDownLeftSemiAntiJoin(SPARK-19712)
- 규칙 PushLeftSemiLeftAntiThroughJoin(SPARK-19712)
- 규칙 ReplaceNullWithFalse(SPARK-25860)
- 규칙 조인/집계의 하위 쿼리에서 제한 없이 정렬 제거(SPARK-29343)
- 규칙 PruneHiveTablePartitions(SPARK-15616)
- Generate(SPARK-27707)에서 불필요한 중첩 필드 정리
- 규칙 RewriteNonCorrelatedExists(SPARK-29800)
테이블 캐시 동기화 비용 최소화(SPARK-26917), (SPARK-26617), (SPARK-26548)
집계 코드를 작은 함수로 분할(SPARK-21870)
INSERT 일괄 처리 추가 및 ALTER TABLE ADD PARTITION 명령(SPARK-29938)

확장성 향상

카탈로그 플러그 인 API(SPARK-31121)
데이터 원본 V2 API 리팩터링(SPARK-25390)
Hive 3.0 및 3.1 메타스토어 지원(SPARK-27970),(SPARK-24360)
Spark 플러그 인 인터페이스를 드라이버로 확장(SPARK-29396)
실행기 플러그 인을 사용하여 사용자 정의 메트릭으로 Spark 메트릭 시스템 확장(SPARK-28091)
확장된 열 형식 처리 지원을 위한 개발자 API(SPARK-27396)
DSV2를 사용한 기본 제공 원본 마이그레이션: parquet, ORC, CSV, JSON, Kafka, Text, Avro(SPARK-27589)
SparkExtensions에서 FunctionInjection 허용(SPARK-25560)
집계를 UDAF로 등록 허용(SPARK-27296).

커넥터 개선 사항

비결정적 식을 통한 열 정리(SPARK-29768)
데이터 원본 테이블의 spark.sql.statistics.fallBackToHdfs 지원(SPARK-25474)
파일 원본에서 하위 쿼리 필터를 사용하여 파티션 정리 허용(SPARK-26893)
데이터 원본 필터에서 하위 쿼리 푸시다운 방지(SPARK-25482)
파일 원본에서 재귀 데이터 로드(SPARK-27990)
Parquet/ORC
- 분리 조건자 푸시다운(SPARK-27699)
- 중첩 열 정리 일반화(SPARK-25603) 및 기본적으로 활성화(SPARK-29805)
- Parquet만
  - 중첩 필드에 대한 Parquet 조건자 푸시다운(SPARK-17636)
- ORC만
  - ORC(SPARK-11412)에 대한 병합 스키마 지원
  - ORC에 대한 중첩된 스키마 정리(SPARK-27034)
  - ORC에 대한 조건자 변환 복잡성 감소(SPARK-27105, SPARK-28108)
  - Apache ORC를 1.5.9로 업그레이드(SPARK-30695)
CSV
- CSV 데이터 원본에서 필터 푸시다운 지원(SPARK-30323)
하이브 SerDe
- 네이티브 데이터 원본을 사용하여 Hive serde 테이블을 읽을 때 스키마 유추 없음(SPARK-27119)
- Hive CTAS 명령은 변환 가능한 데이터 원본을 사용해야 함(SPARK-25271)
- 네이티브 데이터 원본을 사용하여 분할된 Hive 테이블 삽입 최적화(SPARK-28573)
Apache Kafka
- Kafka 헤더 지원 추가(SPARK-23539)
- Kafka 위임 토큰 지원 추가(SPARK-25501)
- Kafka 원본에 새 옵션 소개: 타임스탬프별 오프셋(시작/종료)(SPARK-26848)
- Kafka 일괄 처리 원본 및 스트리밍 원본 v1에서 minPartitions 옵션 지원(SPARK-30656)
- Kafka를 2.4.1로 업그레이드(SPARK-31126)
새 기본 제공 데이터 원본
- 새로운 기본 제공 이진 파일 데이터 원본(SPARK-25348)
- 새로운 no-op 일괄 처리 데이터 원본(SPARK-26550) 및 no-op 스트리밍 싱크(SPARK-26649)

향상된 기능

[Hydrogen] 가속기 인식 스케줄러(SPARK-24615)
전체 조인 힌트 집합 소개(SPARK-27225)
SQL 쿼리에 대한 PARTITION BY 힌트 추가(SPARK-28746)
Thrift 서버의 메타데이터 처리(SPARK-28426)
scala API에 고차 함수 추가(SPARK-27297)
장벽 작업 컨텍스트에서 단순 모두 수집 지원(SPARK-30667)
Hive UDF에서 UDT 형식 지원(SPARK-28158)
Catalyst에서 DELETE/UPDATE/MERGE 연산자 지원(SPARK-28351, SPARK-28892, SPARK-28893)
DataFrame.tail 구현(SPARK-30185)
새로운 기본 제공 함수
- sinh, cosh, tanh, asinh, acosh, atanh(SPARK-28133)
- any, every, some(SPARK-19851)
- bit_and, bit_or(SPARK-27879)
- bit_count(SPARK-29491)
- bit_xor(SPARK-29545)
- bool_and, bool_or(SPARK-30184)
- count_if(SPARK-27425)
- date_part(SPARK-28690)
- extract(SPARK-23903)
- forall(SPARK-27905)
- from_csv(SPARK-25393)
- make_date(SPARK-28432)
- make_interval(SPARK-29393)
- make_timestamp(SPARK-28459)
- map_entries(SPARK-23935)
- map_filter(SPARK-23937)
- map_zip_with(SPARK-23938)
- max_by, min_by(SPARK-27653)
- schema_of_csv(SPARK-25672)
- to_csv(SPARK-25638)
- transform_keys(SPARK-23939)
- transform_values(SPARK-23940)
- typeof(SPARK-29961)
- version(SPARK-29554)
- xxhash64(SPARK-27099)
기존 기본 제공 함수의 향상된 기능
- 기본 제공 날짜-시간 함수/작업 개선(SPARK-31415)
- FAILFAST에 대한 from_json 모드 지원(SPARK-25243)
- array_sort가 새 비교기 매개 변수 추가(SPARK-29020)
- 필터는 이제 요소와 함께 인덱스를 사용할 수 있음(SPARK-28962).

SQL 호환성 향상

그레고리력으로 전환(SPARK-26651)
Spark 자체 날짜/시간 패턴 정의 빌드(SPARK-31408)
테이블 삽입에 대한 ANSI 저장소 할당 정책 도입(SPARK-28495)
기본적으로 테이블 삽입에서 ANSI 저장소 할당 규칙을 따릅니다(spark-28885).
SQLConf spark.sql.ansi.enabled 추가(SPARK-28989)
집계 식에 대한 ANSI SQL 필터 절 지원(SPARK-27986)
ANSI SQL OVERLAY 함수 지원(SPARK-28077)
ANSI 중첩 괄호 주석 지원(SPARK-28880)
정수에 대한 오버플로에 예외 throw(SPARK-26218)
간격 산술 연산에 대한 오버플로 검사(SPARK-30341)
잘못된 문자열이 숫자 형식으로 캐스팅되면 예외 throw(SPARK-30292)
간격의 곱셈과 나눗셈 오버플로 동작을 다른 연산과 일치하도록 합니다(SPARK-30919)
char 및 decimal에 대한 ANSI 형식 별칭 추가(SPARK-29941)
SQL 파서는 ANSI 호환 예약 키워드를 정의함(SPARK-26215)
ANSI 모드가 켜져 있을 때 예약어를 식별자로 사용 금지(SPARK-26976)
ANSI SQL LIKE ... ESCAPE 구문 지원(SPARK-28083)
ANSI SQL Boolean-Predicate 구문 지원(SPARK-27924)
상호 관련된 하위 쿼리 처리 지원 향상(SPARK-18455)

모니터링 및 디버그 가능성 향상

새로운 구조적 스트리밍 UI(SPARK-29543)
SHS: 실행 중인 스트리밍 앱에 대한 이벤트 로그가 롤오버되도록 허용(SPARK-28594)
사용자가 일괄 처리 및 스트리밍 쿼리에서 임의의 메트릭을 정의하고 관찰할 수 있는 API 추가(SPARK-29345)
쿼리별 계획 시간 추적을 위한 계측(SPARK-26129)
SQL 교환 연산자에 기본 순서 섞기 메트릭 넣기(SPARK-26139).
SQL 문이 callsite 대신 SQL 탭에 표시됨(SPARK-27045)
SparkUI에 도구 설명 추가(SPARK-29449)
기록 서버의 동시 성능 향상(SPARK-29043)
EXPLAIN FORMATTED 명령(SPARK-27395)
잘린 계획 및 생성 코드를 파일로 덤핑 지원(SPARK-26023)
쿼리 출력을 설명하는 설명 프레임워크 향상(SPARK-26982)
SHOW VIEWS 명령 추가(SPARK-31113)
SQL 파서의 오류 메시지 개선(SPARK-27901)
기본적으로 Prometheus 모니터링 지원(SPARK-29429)

PySpark 개선 사항

형식 힌트가 있는 재설계된 pandas UDF(SPARK-28264)
Pandas UDF 파이프라인(SPARK-26412)
StructType을 Scalar Pandas UDF에 대한 인수 및 반환 형식으로 지원(SPARK-27240)
Pandas UDF를 통한 데이터 프레임 공동 그룹 지원(SPARK-27463)
DataFrames의 반복기를 허용하려면 mapInPandas 추가(SPARK-28198)
특정 SQL 함수는 열 이름도 사용해야 합니다(SPARK-26979).
PySpark SQL 예외를 Python 형식으로 만들기(SPARK-31849)

설명서 및 테스트 적용 범위 향상

SQL 참조 빌드(SPARK-28588)
WebUI용 사용자 가이드 빌드(SPARK-28372)
SQL 구성 설명서용 페이지 빌드(SPARK-30510)
Spark 구성에 대한 버전 정보 추가(SPARK-30839)
PostgreSQL의 포트 회귀 테스트(SPARK-27763)
Thrift 서버 테스트 적용 범위(SPARK-28608)
UDF의 테스트 적용 범위(python UDF, pandas UDF, scala UDF)(SPARK-27921)

기타 주목할 만한 변경 내용

1.2.1에서 2.3.6으로 기본 제공 Hive 실행 업그레이드(SPARK-23710, SPARK-28723, SPARK-31381)
기본적으로 Apache Hive 2.3 종속성 사용(SPARK-30034)
GA Scala 2.12 및 2.11 제거(SPARK-26132)
동적 할당에서 실행기 시간 초과에 대한 논리 개선(SPARK-20286)
순서 섞기 서비스에서 제공하고 동적 할당에 대해 무시되는 디스크 지속형 RDD 블록(SPARK-27677)
차단 목록으로 인한 중단을 방지하기 위해 새 실행기 확보(SPARK-22148)
Netty의 메모리 풀 할당자 공유 허용(SPARK-24920)
TaskMemoryManager와 UnsafeExternalSorter$SpillableIterator 사이의 교착 상태 수정(SPARK-27338)
StructuredStreaming용 AdmissionControl API 도입(SPARK-30669)
Spark 기록 기본 페이지 성능 개선(SPARK-25973)
SQL 수신기의 메트릭 집계 속도 향상 및 축소(SPARK-29562)
동일한 호스트에서 순서 섞기 블록을 가져올 때 네트워크 방지(SPARK-27651)
DistributedFileSystem에 대한 파일 목록 개선(SPARK-27801)

Spark core, Spark SQL 및 구조적 스트리밍에 대한 동작 변경 내용

다음 마이그레이션 가이드에서는 Apache Spark 2.4와 3.0 사이의 동작 변경 내용을 나열합니다. 이러한 변경 내용에는 낮은 Databricks Runtime 버전에서 실행 중인 작업에 대한 업데이트가 필요할 수 있습니다.

다음 동작 변경 내용은 이 마이그레이션 가이드에서 다루지 않습니다.

Spark 3.0에서는 더 이상 사용되지 않는 클래스 org.apache.spark.sql.streaming.ProcessingTime이 제거되었습니다. 대신 org.apache.spark.sql.streaming.Trigger.ProcessingTime를 사용하세요. 마찬가지로 org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger가 Trigger.Continuous를 위해 제거되고 org.apache.spark.sql.execution.streaming.OneTimeTrigger가 Trigger.Once를 위해 숨겨졌습니다. (SPARK-28199)
Databricks Runtime 7.0에서 Hive SerDe 테이블을 읽을 때 기본적으로 Spark는 테이블 파티션이 아닌 하위 디렉터리에서 파일을 읽을 수 없습니다. 사용하도록 설정하려면 구성 spark.databricks.io.hive.scanNonpartitionedDirectory.enabledtrue설정합니다. Spark 네이티브 테이블 판독기 및 파일 판독기는 영향을 주지 않습니다.

MLlib

중요 사항

Binarizer(SPARK-23578), StringIndexer(SPARK-11215), StopWordsRemover(SPARK-29808) 및 PySpark QuantileDiscretizer(SPARK-22796)에 여러 열을 지원하는 기능이 추가되었습니다.
트리 기반 기능 변환 지원(SPARK-13677)
두 개의 새로운 평가자 MultilabelClassificationEvaluator(SPARK-16692) 및 RankingEvaluator(SPARK-28045)가 추가됨
샘플 가중치 지원이 DecisionTreeClassifier/Regressor(SPARK-19591), RandomForestClassifier/Regressor(SPARK-9478), GBTClassifier/Regressor(SPARK-9612), RegressionEvaluator(SPARK-24102), BinaryClassificationEvaluator(SPARK-24103), BisectingKMeans(SPARK-30351), KMeans(SPARK-29967) 및 GaussianMixture(SPARK-30102)에 추가됨
PowerIterationClustering용 R API가 추가됨(SPARK-19827)
ML 파이프라인 상태를 추적하기 위한 Spark ML 수신기가 추가됨(SPARK-23674)
Python의 그레이디언트 부스팅 트리에 유효성 검사 데이터셋에 대한 적합 기능이 추가되었습니다(SPARK-24333).
RobustScaler 변환기가 추가되었습니다(SPARK-28399)
Factorization Machines 분류자 및 회귀기가 추가되었습니다(SPARK-29224)
Gaussian Naive Bayes(SPARK-16872) 및 Complement Naive Bayes(SPARK-29942)가 추가됨
Scala와 Python 간의 ML 함수 패리티(SPARK-28958)
predictRaw는 모든 분류 모델에서 공개됨 predictProbability는 LinearSVCModel(SPARK-30358)을 제외한 모든 분류 모델에서 공개됨

MLlib의 동작 변경 내용

다음 마이그레이션 가이드는 Apache Spark 2.4와 3.0 간의 동작 변경 내용을 나열합니다. 이러한 변경 내용에는 낮은 Databricks Runtime 버전에서 실행 중인 작업에 대한 업데이트가 필요할 수 있습니다.

마이그레이션 가이드: MLlib(Machine Learning)

다음 동작 변경 내용은 마이그레이션 가이드에서 다루지 않습니다.

Spark 3.0에서 Pyspark의 다중 클래스 로지스틱 회귀는 이제(정확하게) LogisticRegressionSummary 하위 클래스가 아니라 BinaryLogisticRegressionSummary를 반환합니다. 어쨌든 이 경우에는 BinaryLogisticRegressionSummary에서 공개한 추가 메서드가 작동하지 않습니다. (SPARK-31681)
Spark 3.0에서 pyspark.ml.param.shared.Has* mixin은 더 이상 set*(self, value) setter 메서드를 제공하지 않으며 대신 해당 self.set(self.*, value)을 사용합니다. 자세한 내용은 SPARK-29093을 참조하세요. (SPARK-29093)

SparkR

SparkR의 상호 운용성에서의 Arrow 최적화 (SPARK-26759)
벡터화된 R gapply(), dapply(), createDataFrame, collect()를 통한 성능 향상
R 셸, IDE에 대한 "즉시 실행"(SPARK-24572)
Power Iteration Clustering용 R API(SPARK-19827)

SparkR의 동작 변경 내용

마이그레이션 가이드: SparkR(Spark의 R)

사용 중단

Python 2 지원 중단(SPARK-27884)
R < 3.4 지원 중단(SPARK-26014)

알려진 문제

패턴 문자 'D'를 사용하여 연도의 요일을 구문 분석하면 연도 필드가 누락된 경우 잘못된 결과가 반환됩니다. 이러한 일은 SQL 함수 to_timestamp 같은 곳에서, 패턴 문자열을 사용하여 datetime 문자열을 datetime 값으로 구문 분석할 때 발생할 수 있습니다. (SPARK-31939)
키 값이 -0.0 및 0.0인 경우 하위 쿼리 내의 조인/창/집계가 잘못된 결과를 초래할 수 있습니다. (SPARK-31958)
모호한 자체 조인 오류가 예기치 않게 발생하면 창 쿼리가 실패할 수 있습니다. (SPARK-31956)
dropDuplicates 연산자를 사용하는 스트리밍 쿼리는 Spark 2.x에서 작성한 검사점에서 다시 시작하지 못할 수 있습니다. (SPARK-31990)

유지 관리 업데이트

Databricks Runtime 7.0 유지 관리 업데이트를 참조하세요.

시스템 환경

운영 체제: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: R 버전 3.6.3(2020-02-29)
Delta Lake 0.7.0

설치된 Python 라이브러리

라이브러리	버전	라이브러리	버전	라이브러리	버전
asn1crypto	1.3.0	역호출	0.1.0	boto3	1.12.0
보토코어	1.15.0	서티피	2020년 4월 5일	cffi	1.14.0
챠데트	3.0.4	암호화	2.8	자전거 타는 사람	0.10.0
사이톤 (Cython)	0.29.15	장식자	4.4.1	docutils (도큐멘트 유틸리티)	0.15.2
진입 지점	0.3	아이드나	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils (아이파이썬 젠유틸스)	0.2.0	Jedi	0.14.1
jmespath	0.9.4	joblib (잡리브)	0.14.1	주피터-클라이언트 (jupyter-client)	5.3.4
jupyter-core (주피터 핵심)	4.6.1	키위솔버 (kiwisolver)	1.1.0	matplotlib (매트플롯립)	3.1.3
numpy (파이썬의 수치 계산용 라이브러리)	1.18.1	팬더	1.0.1	파르소	0.5.2
바보	0.5.1	pexpect (피엑스펙트)	4.8.0	픽클쉐어	0.7.5
파이썬 패키지 설치 도구 pip	20.0.2	prompt-toolkit (프롬프트 도구 키트)	3.0.3	psycopg2	2.8.4
PtyProcess	0.6.0	pyarrow	0.15.1	pycparser	2.19
파이그먼츠	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing (파이썬 파싱 라이브러리)	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
python-dateutil (파이썬 날짜 유틸)	2.8.1	pytz (파이썬의 타임존 계산을 위한 라이브러리)	2019.3	pyzmq	18.1.1
요청사항	2.22.0	s3transfer	0.3.3	scikit-learn (파이썬 머신러닝 라이브러리)	0.22.1
scipy (과학 컴퓨팅 라이브러리)	1.4.1	바다에서 태어난	0.10.0	setuptools (셋업툴즈)	45.2.0
6	1.14.0	ssh-import-id 명령어	5.7	statsmodels (파이썬 통계 모형 라이브러리)	0.11.0
토네이도	6.0.3	트레잇렛츠	4.3.3	사용자 개입 없는 자동 업데이트	0.1
urllib3	1.25.8	virtualenv	16.7.10	wcwidth(문자의 너비를 계산하는 함수)	0.1.8
바퀴	0.34.2

설치된 R 라이브러리

R 라이브러리는 Microsoft CRAN(2020-04-22 스냅샷)에서 설치됩니다.

라이브러리	버전	라이브러리	버전	라이브러리	버전
askpass (비밀번호 입력 요청)	1.1	assertthat (어설트댓)	0.2.1	백포트 (기존 소프트웨어에 새로운 기능이나 수정을 추가하는 것)	1.1.6
기반	3.6.3	base64enc	0.1-3	브에이치(BH)	1.72.0-3
조각	1.1-15.2	비트64	0.9-7	덩어리	1.2.1
부츠	1.3-25	양조하다	1.0-6	빗자루	0.5.6
콜러	3.4.3	캐럿	6.0-86	셀레인저 (cellranger)	1.1.0
크론	2.3-55	수업	7.3-17	커맨드 라인 인터페이스 (CLI)	2.0.2
클리퍼	0.7.0	클러스터	2.1.0	코드 도구	0.2-16
색 공간	1.4-1	코먼마크	1.7	컴파일러	3.6.3
환경 설정	0.3	코브르	3.5.0	크레용	1.3.4
혼선	1.1.0.1	컬	4.3	데이터 테이블(data.table)	1.12.8
데이터세트	3.6.3	DBI	1.1.0	dbplyr	1.4.3
설명	1.2.0	개발자 도구	2.3.0	소화하다	0.6.25
dplyr (데이터 조작을 위한 R 패키지)	0.8.5	디지털 기술	0.13	줄임표	0.3.0
평가하다	0.14	팬시	0.4.1	색상	2.0.3
패스트맵	1.0.1	포캣츠	0.5.0	포이치 (foreach)	1.5.0
외국의	0.8-76	구축하다	0.2.0	fs	1.4.1
제네릭(generics)	0.0.2	ggplot2	3.3.0	gh	1.1.0
git2r (Git 관련 소프트웨어 패키지)	0.26.1	glmnet (통계 및 기계 학습 소프트웨어 패키지)	3.0-2	글로벌	0.12.5
접착제	1.4.0	고워 (Gower)	0.2.1	그래픽스	3.6.3
grDevices	3.6.3	그리드	3.6.3	gridExtra	2.3
gsubfn	0.7	지테이블	0.3.0	안식처	2.2.0
더 높다	0.8	에이치엠에스 (HMS)	0.5.3	HTML 도구	0.4.0
HTML 위젯	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter (에이치라이터)	1.3.2	hwriterPlus	1.0-3	이것	0.3.1
아이프레드	0.9-9	아이소밴드	0.2.1	이터레이터 (반복자)	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	니터	1.28
라벨링	0.3	나중에	1.0.0	격자	0.20-41
용암	1.6.7	lazyeval	0.2.2	주기	0.2.0
루브리데이트	1.7.8	magrittr	1.5	마크다운	1.1
질량	7.3-51.6	행렬	1.2-18	메모하다	1.1.0
메서드	3.6.3	mgcv	1.8-31	마임	0.9
ModelMetrics	1.2.2.2	모델러	0.1.6	먼셀 (Munsell)	0.5.0
nlme	3.1-147	엔넷	7.3-14	numDeriv (넘데리브)	2016년 8월부터 1월 1일까지
오픈SSL (OpenSSL은 암호화 라이브러리입니다)	1.4.1	평행	3.6.3	기둥	1.4.3
pkgbuild(팩키지 빌드)	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
플로거	0.2.0	plyr (플레이어)	1.8.6	칭찬	1.0.0
프리티유닛	1.1.1	pROC 패키지	1.16.2	프로세스엑스	3.4.2
프로드림 (prodlim)	2019.11.13	진행률	1.2.2	약속들	1.1.0
프로토	1.0.0	Ps	1.3.2	고양이의 그르렁거림	0.3.4
r2d3	0.2.3	R6	2.4.1	랜덤 포레스트 (randomForest)	4.6-14
rappdirs (랩디르)	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	리더(Reader)	1.3.1	readxl (엑셀 파일 읽기 기능)	1.3.1
레시피	0.1.10	재대결	1.0.1	리매치2	2.1.1
리모컨/원격	2.1.1	레프렉스(문제의 재현 가능한 예시)	0.3.0	reshape2	1.4.4
렉스	1.2.0	rjson	0.2.20	rlang	0.4.5
r마크다운	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart (의사결정트리 구축을 위한 R 패키지)	4.1-15	rprojroot	1.3-2	Rserve (R서브)	1.8-6
RSQLite	2.2.0	rstudioapi	0.11	알버전즈	2.0.1
rvest (웹 스크래핑을 위한 R 패키지)	0.3.5	저울	1.1.0	선택기	0.4-2
세션정보	1.1.1	형태	1.4.4	반짝이는	1.4.0.2
소스툴스 (sourcetools)	0.1.7	sparklyr (스파클리알)	1.2.0	SparkR	3.0.0
공간적	7.3-11	스플라인	3.6.3	sqldf (SQL 데이터프레임 패키지)	0.4–11
스퀘어엠	2020.2	통계	3.6.3	통계4	3.6.3
문자열 처리 소프트웨어 "stringi"	1.4.6	stringr	1.4.0	생존	3.1-12
시스템	3.3	티클티케이 (tcltk)	3.6.3	티칭데모스	2.10
testthat (테스트댓)	2.3.2	tibble (티블)	3.0.1	tidyr	1.0.2
tidyselect (티디셀렉트)	1.0.0	tidyverse (타이디버스)	1.3.0	시간과 날짜	3043.102
tinytex	0.22	도구들	3.6.3	사용해보세요	1.6.0
utf8	1.1.4	유틸리티	3.6.3	vctrs	0.2.4
비리디스라이트	0.3.0	수염	0.4	위드알	2.2.0
xfun	0.13	xml2	1.3.1	엑스오픈	1.0.0
엑스테이블	1.8-4	YAML (야믈)	2.2.1

설치된 Java 및 Scala 라이브러리(Scala 2.12 클러스터 버전)

그룹 ID	아티팩트 ID	버전
antlr (구문 분석 도구)	antlr (구문 분석 도구)	2.7.7
com.amazonaws	아마존 키네시스 클라이언트 (amazon-kinesis-client)	1.12.0
com.amazonaws	aws-java-sdk-autoscaling (AWS 자바 SDK 자동 확장)	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront (AWS Java SDK 클라우드프론트)	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm (AWS 자바 SDK 클라우드HSM)	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch (AWS Java SDK 클라우드서치)	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy (AWS Java SDK 코드디플로이)	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity (AWS 자바 SDK - Cognito 아이덴티티)	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	AWS Java SDK 구성	1.11.655
com.amazonaws	aws-java-sdk-core (AWS 자바 SDK 코어)	1.11.655
com.amazonaws	aws-java-sdk-datapipeline (데이터 파이프라인을 위한 AWS Java SDK)	1.11.655
com.amazonaws	aws-java-sdk-directconnect (AWS Java SDK 다이렉트커넥트)	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs (AWS Java 소프트웨어 개발 키트 - ECS)	1.11.655
com.amazonaws	aws-java-sdk-efs (AWS와 EFS 관련 소프트웨어 개발 키트)	1.11.655
com.amazonaws	aws-java-sdk-elasticache (AWS Java SDK 엘라스티캐시)	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk (AWS용 Java SDK - Elastic Beanstalk)	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing (AWS Java SDK - 엘라스틱로드밸런싱)	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder (AWS Java SDK 엘라스틱 트랜스코더)	1.11.655
com.amazonaws	aws-java-sdk-emr (아우스-자바-sdk-emr)	1.11.655
com.amazonaws	AWS 자바 SDK 글래시어 (aws-java-sdk-glacier)	1.11.655
com.amazonaws	AWS 자바 SDK IAM	1.11.655
com.amazonaws	aws-java-sdk-importexport (AWS Java SDK 내보내기 기능)	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms (AWS 자바 SDK KMS)	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs (AWS 자바 SDK 로그)	1.11.655
com.amazonaws	AWS-Java-SDK-머신러닝	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds (AWS Java 개발자용 SDK - RDS)	1.11.655
com.amazonaws	aws-java-sdk-redshift (AWS 자바 SDK 레드시프트)	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	AWS Java SDK SNS (AWS의 자바 개발자 키트 - SNS)	1.11.655
com.amazonaws	aws-java-sdk-sqs (AWS Java SDK의 SQS 모듈)	1.11.655
com.amazonaws	aws-java-sdk-ssm (AWS Java SDK의 SSM 모듈)	1.11.655
com.amazonaws	aws-java-sdk-storagegateway (AWS Java SDK 스토리지 게이트웨이)	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	AWS-Java-SDK-지원	1.11.655
com.amazonaws	AWS Java SDK SWF 라이브러리	1.11.22
com.amazonaws	aws-java-sdk-workspaces (AWS Java SDK 작업 공간)	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	스트림	2.9.6
com.databricks	Rserve (R서브)	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-shaded (크리오 쉐이디드)	4.0.2
com.esotericsoftware	민로그	1.3.0
com.fasterxml	동급생	1.3.4
com.fasterxml.jackson.core	잭슨 애노테이션즈	2.10.0
com.fasterxml.jackson.core	잭슨-코어	2.10.0
com.fasterxml.jackson.core	잭슨 데이터바인드 (jackson-databind)	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor (잭슨 데이터 포맷 CBOR)	2.10.0
com.fasterxml.jackson.datatype	잭슨 데이터타입 조다 (jackson-datatype-joda)	2.10.0
com.fasterxml.jackson.module	잭슨 모듈 - 파라네이머 (jackson-module-paranamer)	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12 (자바 스칼라 모듈)	2.10.0
com.github.ben-manes.카페인	카페인	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	코어	1.1.2
com.github.fommil.netlib	네이티브_레퍼런스-자바	1.1
com.github.fommil.netlib	네이티브_레퍼런스-자바-네이티브스	1.1
com.github.fommil.netlib	native_system-java (네이티브 시스템 자바)	1.1
com.github.fommil.netlib	네이티브 시스템-자바-네이티브스	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter (드롭위저드 메트릭스 하둡 메트릭스2 리포터)	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson (JSON 처리를 위한 자바 라이브러리)	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	구아바	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	Profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.릴리스
com.microsoft.azure	azure-data-lake-store-sdk (애저 데이터 레이크 저장소 SDK)	2.2.8
com.microsoft.sqlserver (마이크로소프트 SQL 서버)	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf (압축 알고리즘 LZF)	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	JSON	1.8
com.thoughtworks.paranamer	파라네이머	2.8
com.trueaccord.lenses	렌즈_2.12	0.4.12
com.twitter (도메인 이름)	chill-java (칠자바)	0.9.5
com.twitter (도메인 이름)	chill_2.12	0.9.5
com.twitter (도메인 이름)	util-app_2.12	7.1.0
com.twitter (도메인 이름)	util-core_2.12	7.1.0
com.twitter (도메인 이름)	util-function_2.12	7.1.0
com.twitter (도메인 이름)	util-jvm_2.12	7.1.0
com.twitter (도메인 이름)	util-lint_2.12	7.1.0
com.twitter (도메인 이름)	util-registry_2.12	7.1.0
com.twitter (도메인 이름)	util-stats_2.12	7.1.0
com.typesafe	환경 설정	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers (유니보시티-파서스)	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec (커먼즈 코덱)	commons-codec (커먼즈 코덱)	1.10
코먼스-컬렉션즈	코먼스-컬렉션즈	3.2.2
커먼즈-구성 설정	커먼즈-구성 설정	1.6
커먼즈-DBCP	커먼즈-DBCP	1.4
commons-digester (커먼스-다이제스터)	commons-digester (커먼스-다이제스터)	1.8
커먼즈-파일업로드	커먼즈-파일업로드	1.3.3
커먼즈-HTTP 클라이언트	커먼즈-HTTP 클라이언트	3.1
commons-io	commons-io	2.4
커먼즈-랭	커먼즈-랭	2.6
commons-logging (커먼즈 로깅)	commons-logging (커먼즈 로깅)	1.1.3
commons-net	commons-net	3.1
commons-pool (커먼즈 풀)	commons-pool (커먼즈 풀)	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	에어컴프레서	0.10
io.dropwizard.metrics	metrics-core (메트릭스 코어)	4.1.1
io.dropwizard.metrics	메트릭스-그래파이트 (metrics-graphite)	4.1.1
io.dropwizard.metrics	메트릭스-헬스체크	4.1.1
io.dropwizard.metrics	메트릭스-젯티9	4.1.1
io.dropwizard.metrics	메트릭스-JMX	4.1.1
io.dropwizard.metrics	메트릭스-JSON	4.1.1
io.dropwizard.metrics	metrics-jvm (메트릭스-JVM)	4.1.1
io.dropwizard.metrics	메트릭스-서블릿	4.1.1
io.netty	netty-all	4.1.47.Final
자카르타.annotation	자카르타 애노테이션-API (jakarta.annotation-api)	1.3.5
jakarta.validation	jakarta.validation-api (자카르타 검증 API)	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	활성화	1.1.1
javax.el	javax.el-api (자바 API)	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta (자바 트랜잭션 API)	1.1
javax.transaction	트랜잭션-API	1.1
javax.xml.bind	jaxb-api	2.2.2
.stream javax.xml	stax-api	1.0-2
자볼루션	자볼루션	5.5.1
제이라인	제이라인	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	파이라이트 (pyrolite)	4.30
net.sf.jpam	제이팜	1.1
net.sf.opencsv	opencsv (오픈CSV 라이브러리)	2.3
net.sf.supercsv	슈퍼-CSV	2.2.0
네트.스노우플레이크	snowflake-ingest SDK (소프트웨어 개발 키트)	0.9.6
네트.스노우플레이크	snowflake-jdbc (스노우플레이크 JDBC)	3.12.0
네트.스노우플레이크	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_전체_결합	0.1
org.acplt.remotetea	remotetea-oncrpc (리모트티-온씨알피씨)	1.1.2
org.antlr	ST4	4.0.4
org.antlr	ANTLR 런타임	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	문자열템플릿	3.2.1
org.apache.ant	최근	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	안트-런처	1.9.2
org.apache.arrow	화살표 형식	0.15.1
org.apache.arrow	어로우-메모리	0.15.1
org.apache.arrow	화살표 벡터	0.15.1
org.apache.avro	Avro	1.8.2
org.apache.avro	avro-ipc (아브로 IPC)	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons (오픈 소스 자바 라이브러리)	커먼즈-컴프레스	1.8.1
org.apache.commons (오픈 소스 자바 라이브러리)	커먼즈-크립토	1.0.0
org.apache.commons (오픈 소스 자바 라이브러리)	커먼즈-랭3 (commons-lang3)	3.9
org.apache.commons (오픈 소스 자바 라이브러리)	커먼즈-매쓰3	3.4.1
org.apache.commons (오픈 소스 자바 라이브러리)	commons-text (커먼즈 텍스트)	1.6
org.apache.curator	큐레이터-의뢰인 관계	2.7.1
org.apache.curator	curator-framework (큐레이터 프레임워크)	2.7.1
org.apache.curator	큐레이터의 레시피	2.7.1
org.apache.derby	더비	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	애피-유틸	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	하둡 어노테이션 (hadoop-annotations)	2.7.4
org.apache.hadoop	하둡 인증 (hadoop-auth)	2.7.4
org.apache.hadoop	하둡 클라이언트 (hadoop-client)	2.7.4
org.apache.hadoop	hadoop-common (하둡-커먼)	2.7.4
org.apache.hadoop	hadoop-hdfs (하둡 파일 시스템)	2.7.4
org.apache.hadoop	Hadoop MapReduce 클라이언트 애플리케이션	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common (해둡-맵리듀스-클라이언트-커먼)	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core (하둡 맵리듀스 클라이언트 코어)	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient (하둡 맵리듀스 클라이언트 잡클라이언트)	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	하둡 야른 클라이언트 (hadoop-yarn-client)	2.7.4
org.apache.hadoop	hadoop-yarn-common (하둡-야른-커먼)	2.7.4
org.apache.hadoop	hadoop-yarn-server-common (하둡 야른 서버 공통)	2.7.4
org.apache.hive	hive-beeline (하이브 비라인, 하둡에서 SQL 쿼리를 실행하고 관리하는 명령어)	2.3.7
org.apache.hive	hive-CLI	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	하이브-이그젝-코어	2.3.7
org.apache.hive	hive-jdbc (하이브 JDBC)	2.3.7
org.apache.hive	hive-llap-client (하이브 LLAP 클라이언트)	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	하이브 메타스토어 (hive-metastore)	2.3.7
org.apache.hive	하이브-세르데	2.3.7
org.apache.hive	하이브-심스	2.3.7
org.apache.hive	하이브-스토리지-API	2.7.1
org.apache.hive	하이브 벡터 코드 생성기	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	하이브-쉼스-커먼	2.3.7
org.apache.hive.shims	하이브-심스-스케줄러	2.3.7
org.apache.htrace	htrace-core	3.1.0-인큐베이팅
org.apache.httpcomponents	HTTP 클라이언트 (httpclient)	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	아이비	2.4.0
org.apache.orc	orc-core (오크 코어)	1.5.10
org.apache.orc	orc-mapreduce (오크-맵리듀스)	1.5.10
org.apache.orc	orc-shims (오크-심스)	1.5.10
org.apache.parquet	파케트 컬럼	1.10.1.2-databricks4
org.apache.parquet	파케-커먼 (parquet-common)	1.10.1.2-databricks4
org.apache.parquet	파케트 인코딩	1.10.1.2-databricks4
org.apache.parquet	파케 형식 (parquet-format)	2.4.0
org.apache.parquet	파켓-하둡 (parquet-hadoop)	1.10.1.2-databricks4
org.apache.parquet	파케-잭슨	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	속도	1.5
org.apache.xbean	xbean-asm7 음영 처리	4.15
org.apache.yetus	관객 주석	0.5.0
org.apache.zookeeper	동물 사육사	3.4.14
org.codehaus.jackson	jackson-core-asl (자바 라이브러리)	1.9.13
org.codehaus.jackson	잭슨 잭서스	1.9.13
org.codehaus.jackson	jackson-mapper-asl (잭슨-매퍼-ASL)	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	커먼스-컴파일러	3.0.16
org.codehaus.janino	자니노	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	데이터뉴클리어스-코어	4.1.17
org.datanucleus	datanucleus-rdbms (데이터누클리어스-알디비엠에스)	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client (제티 클라이언트)	9.4.18.v20190429
org.eclipse.jetty	제티-컨티뉴에이션 (Jetty-Continuation)	9.4.18.v20190429
org.eclipse.jetty	제티-HTTP (Jetty-HTTP)	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi (제티-JNDI)	9.4.18.v20190429
org.eclipse.jetty	제티-플러스 (jetty-plus)	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy (제티 프록시)	9.4.18.v20190429
org.eclipse.jetty	제티-시큐리티 (jetty-security)	9.4.18.v20190429
org.eclipse.jetty	제티 서버 (Jetty Server)	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	제티 서블릿(jetty-servlets)	9.4.18.v20190429
org.eclipse.jetty	제티 유틸 (jetty-util)	9.4.18.v20190429
org.eclipse.jetty	제티 웹앱 (jetty-webapp)	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2 위치 탐색기	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	OSGi 자원 탐색기	1.0.3
org.glassfish.hk2.external	aopalliance-재패키지	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	Jersey 컨테이너 서블릿 (jersey-container-servlet)	2.30
org.glassfish.jersey.containers	저지-컨테이너-서블릿-코어	2.30
org.glassfish.jersey.core	제르시 클라이언트	2.30
org.glassfish.jersey.core	저지-커먼	2.30
org.glassfish.jersey.core	저지 서버 (jersey-server)	2.30
org.glassfish.jersey.inject	jersey-hk2	2.30
org.glassfish.jersey.media	저지-미디어-JAXB (그대로 사용할 경우 'Jersey Media JAXB')	2.30
org.hibernate.validator	하이버네이트 검증기 (hibernate-validator)	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging(로그 관리 시스템)	3.3.2.최종
org.jdbi	jdbi	2.63.1
org.joda	joda-convert (조다 변환 라이브러리)	1.7
org.jodd	jodd-core (조드 코어 라이브러리)	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	MariaDB 자바 클라이언트	2.1.2
org.objenesis	옵제네시스 (objenesis)	2.5.1
org.postgresql	PostgreSQL (포스트그레에스큐엘)	42.1.4
org.roaringbitmap	로어링비트맵 (RoaringBitmap)	0.7.45
org.roaringbitmap	간격 조정용 판	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	테스트 인터페이스	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	사용하지 않음	1.0.0
org.springframework	스프링-코어	4.1.4.RELEASE
org.springframework	스프링 테스트	4.1.4.RELEASE
org.threeten	threeten-extra (쓰리텐-엑스트라)	1.5.0
org.tukaani	xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	기계공_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	스파이어-유틸_2.12	0.17.0-M1
org.typelevel	스파이어_2.12 (spire_2.12)	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	스네이크야AML (snakeyaml)	1.24
금	금	2.0.8
pl.edu.icm	제이 라지 어레이스	1.5
software.amazon.ion	ion-java (아이온-자바)	1.0.2
스택스 (Stax)	stax-api	1.0.1
xmlenc	xmlenc	0.52

피드백

이 페이지가 도움이 되었나요?

Last updated on 2025-05-10

다음을 통해 공유

Databricks Runtime 7.0(EoS)

새로운 기능

향상된 기능

주요 라이브러리 변경 내용

Python 패키지

R 패키지

Java와 Scala 라이브러리

동작 변경

Spark 동작 변경 내용

기타 동작 변경

사용 중단 및 제거

Apache Spark

이 구역의 내용:

Core, Spark SQL, 구조적 스트리밍

중요 사항

성능 향상

확장성 향상

커넥터 개선 사항

향상된 기능

SQL 호환성 향상

모니터링 및 디버그 가능성 향상

PySpark 개선 사항

설명서 및 테스트 적용 범위 향상

기타 주목할 만한 변경 내용

Spark core, Spark SQL 및 구조적 스트리밍에 대한 동작 변경 내용

MLlib

중요 사항

MLlib의 동작 변경 내용

SparkR

SparkR의 동작 변경 내용

사용 중단

알려진 문제

유지 관리 업데이트

시스템 환경

설치된 Python 라이브러리

설치된 R 라이브러리

설치된 Java 및 Scala 라이브러리(Scala 2.12 클러스터 버전)

피드백

추가 리소스