참고 항목
이 Databricks Runtime 버전에 대한 지원이 종료되었습니다. 지원 종료 날짜는 지원 종료 기록을 참조하세요. 지원되는 모든 Databricks Runtime 버전은 Databricks Runtime 릴리스 정보 버전 및 호환성을 참조하세요.
Databricks는 2020년 6월에 이 버전을 릴리스했습니다.
다음 릴리스 정보는 Apache Spark 3.0에서 제공하는 Databricks Runtime 7.0에 대한 정보를 제공합니다.
새로운 기능
Databricks Runtime 7.0에는 다음과 같은 새로운 기능이 포함되어 있습니다.
Scala 2.12
Databricks Runtime 7.0은 Scala를 2.11.12에서 2.12.10으로 업그레이드합니다. Scala 2.12와 2.11 사이의 변경 사항 목록은 Scala 2.12.0 릴리스 노트에 있습니다.
Databricks Runtime 6.4에서 릴리스된 자동 로더(공개 미리 보기)가 Databricks Runtime 7.0에서 개선되었습니다.
자동 로더는 ETL 동안 클라우드 Blob 저장소에 도착하는 새 데이터 파일을 증분 방식으로 처리하는 보다 효율적인 방법을 제공합니다. 이는 클라우드 디렉터리를 반복적으로 나열하고 본 파일을 추적하여 새 파일을 식별하는 파일 기반 구조적 스트리밍에 비해 개선되었으며 디렉터리가 커질수록 매우 비효율적일 수 있습니다. 또한 자동 로더는 파일 알림 기반의 구조적 스트리밍보다 더 편리하고 효과적입니다. 따라서 클라우드에서 파일 알림 서비스를 수동으로 구성해야 하며 기존 파일을 다시 채울 수 없습니다. 자세한 내용은 자동 로더란?을 참조하세요.
Databricks Runtime 7.0에서는 자동 로더를 사용하기 위해 더 이상 사용자 지정 Databricks Runtime 이미지를 요청할 필요가 없습니다.
Idempotent 재시도를 사용하여 Delta Lake에 데이터를 로드할 수 있는
COPY INTO(공개 미리 보기)가 Databricks Runtime 7.0에서 개선되었습니다.Databricks Runtime 6.4에서 공개 미리 보기로 릴리스된
COPY INTOSQL 명령을 사용하면 idempotent 다시 시도를 통해 Delta Lake에 데이터를 로드할 수 있습니다. 현재 Delta Lake에 데이터를 로드하려면 Apache Spark DataFrame API를 사용해야 합니다. 로드 중 오류가 발생하면 이를 효과적으로 처리해야 합니다. 새로운COPY INTO명령은 SQL에서 데이터를 로드하기 위한 친숙한 선언적 인터페이스를 제공합니다. 이 명령은 이전에 로드된 파일을 추적하고 실패할 경우 안전하게 다시 실행할 수 있습니다. 자세한 내용은COPY INTO참조하세요.
향상된 기능
Azure Synapse(이전의 SQL Data Warehouse) 커넥터는
COPY문을 지원합니다.COPY의 주요 이점은 권한이 낮은 사용자가 Azure Synapse에 대한 엄격한CONTROL권한이 없어도 Azure Synapse에 데이터를 쓸 수 있다는 것입니다.%matplotlib inline매직 명령은 더 이상 Notebook 셀에 인라인으로 Matplolib 개체를 표시하는 데 필요하지 않습니다. 기본적으로 항상 인라인으로 표시됩니다.Matplolib 그림이 이제
transparent=False로 렌더링되므로 사용자 지정 배경이 손실되지 않습니다. 이 동작은 Spark 구성spark.databricks.workspace.matplotlib.transparent true를 설정하여 재정의할 수 있습니다.높은 동시성 모드 클러스터에서 구조적 스트리밍 프로덕션 작업을 실행할 때 이전에 실행한 작업이 제대로 종료되지 않았기 때문에 작업의 다시 시작이 실패하는 경우가 있습니다. Databricks Runtime 6.3에서는 이전 실행이 중지되도록 클러스터에서 SQL 구성
spark.sql.streaming.stopActiveRunOnRestart true설정하는 기능을 도입했습니다. 이 구성은 Databricks Runtime 7.0에서 기본적으로 설정됩니다.
주요 라이브러리 변경 내용
Python 패키지
업그레이드된 주요 Python 패키지:
- boto3 1.9.162 -> 1.12.0
- matplotlib 3.0.3 -> 3.1.3
- numpy 1.16.2 -> 1.18.1
- pandas 0.24.2 -> 1.0.1
- pip 19.0.3 -> 20.0.2
- pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 -> 2.8.4
- scikit-learn 0.20.3 -> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seaborn 0.9.0 -> 0.10.0
제거된 Python 패키지:
- boto(boto3 사용)
- pycurl
참고 항목
Databricks Runtime 7.0의 Python 환경은 설치된 Ubuntu 시스템 Python과 다른 Python 3.7을 사용합니다. /usr/bin/python 및 /usr/bin/python2는 Python 2.7에 연결되고 /usr/bin/python3은 Python 3.6에 연결됩니다.
R 패키지
추가된 R 패키지:
- 빗자루
- 더 높다
- 아이소밴드
- 니터
- 마크다운
- 모델러
- 레프렉스(문제의 재현 가능한 예시)
- r마크다운
- rvest (웹 스크래핑을 위한 R 패키지)
- 선택기
- tidyverse (타이디버스)
- tinytex
- xfun
제거된 R 패키지:
- 에이바인드
- bitops
- 차량
- 자동차데이터
- doMC
- gbm (지엠비엠)
- 물 (H₂O)
- 더 작다
- lme4
- 맵프로젝트
- 맵
- maptools
- MatrixModels
- 민카
- mvtnorm
- nloptr
- openxlsx
- pbkrtest
- pkgKitten
- 퀀트레그 (quantreg)
- R.methodsS3
- R.oo
- R.utils (R 패키지의 유틸리티 라이브러리)
- RcppEigen
- RCurl
- 리오
- sp
- SparseM
- 스탯모드
- 지퍼
Java와 Scala 라이브러리
- Hive 사용자 정의 함수 및 Hive SerDes를 처리하는 데 사용되는 Apache Hive 버전이 2.3으로 업그레이드되었습니다.
- 이전에는 Azure Storage 및 Key Vault jar가 Databricks Runtime의 일부로 패키지되었으므로 클러스터에 연결된 해당 라이브러리의 다른 버전을 사용할 수 없습니다.
com.microsoft.azure.storage및com.microsoft.azure.keyvault아래의 클래스는 더 이상 Databricks Runtime의 클래스 경로에 없습니다. 이러한 클래스 경로 중 하나에 의존하는 경우 이제 Azure Storage SDK 또는 Azure Key Vault SDK를 클러스터에 연결해야 합니다.
동작 변경
이 섹션에서는 Databricks Runtime 6.6에서 Databricks Runtime 7.0으로의 동작 변경 내용을 나열합니다. 낮은 Databricks Runtime 릴리스에서 Databricks Runtime 7.0 이상으로 워크로드를 마이그레이션할 때 이러한 점을 알고 있어야 합니다.
Spark 동작 변경 내용
Databricks Runtime 7.0은 Spark 3.0에서 빌드된 첫 번째 Databricks Runtime이므로 Spark 2.4에서 빌드된 Databricks Runtime 5.5 LTS 또는 6.x에서 워크로드를 마이그레이션할 때 알아야 할 변경 내용이 많이 있습니다. 이러한 변경 내용은 이 릴리스 정보 문서의 Apache Spark 섹션에 있는 각 기능 영역의 "동작 변경 내용" 섹션에 나열되어 있습니다.
기타 동작 변경
Scala 2.12로의 업그레이드에 포함된 변경 내용은 다음과 같습니다.
패키지 셀 직렬화가 다르게 처리됩니다. 다음 예제에서는 동작 변경과 이를 처리하는 방법을 보여 줍니다.
다음 패키지 셀에서 정의한 대로
foo.bar.MyObjectInPackageCell.run()을 실행하면java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$오류가 트리거됩니다.package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }이 오류를 해결하기 위해
MyObjectInPackageCell을 직렬화 가능한 클래스 내에서 래핑할 수 있습니다.DataStreamWriter.foreachBatch사용하는 특정 경우에는 소스 코드 업데이트가 필요합니다. 이 변경은 Scala 2.12에 람다 식에서 SAM 형식으로의 자동 변환이 있고 모호성을 유발할 수 있기 때문입니다.예를 들어 다음 Scala 코드는 컴파일할 수 없습니다.
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }컴파일 오류를 수정하려면
foreachBatch { (df, id) => myFunc(df, id) }를foreachBatch(myFunc _)로 변경하거나 Java API를 명시적으로 사용합니다(foreachBatch(new VoidFunction2 ...)).
- Hive 사용자 정의 함수 및 Hive SerDes를 처리하는 데 사용되는 Apache Hive 버전이 2.3으로 업그레이드되므로 다음 두 가지 변경이 필요합니다.
- Hive의
SerDe인터페이스는 추상 클래스AbstractSerDe로 대체됩니다. 사용자 지정 HiveSerDe구현의 경우AbstractSerDe로 마이그레이션해야 합니다. -
spark.sql.hive.metastore.jarsbuiltin설정하면 Hive 2.3 메타스토어 클라이언트가 Databricks Runtime 7.0의 메타스토어에 액세스하는 데 사용됩니다. Hive 1.2 기반 외부 메타스토어에 액세스해야 하는 경우spark.sql.hive.metastore.jarsHive 1.2 jar가 포함된 폴더로 설정합니다.
- Hive의
사용 중단 및 제거
- 데이터 건너뛰기 인덱스는 Databricks Runtime 4.3에서 더 이상 사용되지 않으며 Databricks Runtime 7.0에서 제거되었습니다. 대신 델타 테이블을 사용하는 것이 좋습니다. 이 테이블은
향상된 데이터 건너뛰기 기능을 제공합니다. - Databricks Runtime 7.0에서 Apache Spark의 기본 버전은 Scala 2.12를 사용합니다. Scala 2.11에 대해 컴파일된 라이브러리는 예기치 않은 방식으로 Databricks Runtime 7.0 클러스터를 사용하지 않도록 설정할 수 있으므로 Databricks Runtime 7.0 이상을 실행하는 클러스터는 모든 클러스터에 설치되도록 구성된 라이브러리를 설치하지 않습니다. 클러스터 라이브러리 탭에는 상태
Skipped와 라이브러리 처리 변경 내용을 설명하는 사용 중단 메시지가 표시됩니다. 그러나 Azure Databricks 플랫폼 버전 3.20이 작업 영역에 릴리스되기 전 이전 버전의 Databricks Runtime에서 만들어진 클러스터가 있고 이제 Databricks Runtime 7.0을 사용하도록 해당 클러스터를 편집하는 경우, 모든 클러스터에 설치되도록 구성되어 있으면 해당 클러스터에 설치됩니다. 이 경우 설치된 라이브러리의 호환되지 않는 JAR로 인해 클러스터가 사용하지 않도록 설정될 수 있습니다. 해결 방법은 클러스터를 복제하거나 새 클러스터를 만드는 것입니다.
Apache Spark
Databricks Runtime 7.0에는 Apache Spark 3.0이 포함되어 있습니다.
이 구역의 내용:
Core, Spark SQL, 구조적 스트리밍
중요 사항
- (Project Hydrogen) 가속기 인식 스케줄러(SPARK-24615)
- 적응형 쿼리 실행(SPARK-31412)
- 동적 파티션 정리(SPARK-11150)
- 형식 힌트가 포함된 재설계된 pandas UDF API(SPARK-28264)
- 구조화된 스트리밍 UI(SPARK-29543)
- 카탈로그 플러그 인 API(SPARK-31121)
- 더 나은 ANSI SQL 호환성
성능 향상
- 적응 쿼리 실행(SPARK-31412)
- 기본 프레임워크(SPARK-23128)
- 셔플 후 파티션 번호 조정 (SPARK-28177)
- 동적 하위 쿼리 재사용(SPARK-28753)
- 로컬 순서 섞기 판독기(SPARK-28560)
- 스큐 조인 최적화(SPARK-29544)
- 연속 셔플 블록 읽기 최적화(SPARK-9853)
- 동적 파티션 정리(SPARK-11150)
- 기타 최적화 프로그램 규칙
- 규칙 ReuseSubquery(SPARK-27279)
- 규칙 PushDownLeftSemiAntiJoin(SPARK-19712)
- 규칙 PushLeftSemiLeftAntiThroughJoin(SPARK-19712)
- 규칙 ReplaceNullWithFalse(SPARK-25860)
- 규칙 조인/집계의 하위 쿼리에서 제한 없이 정렬 제거(SPARK-29343)
- 규칙 PruneHiveTablePartitions(SPARK-15616)
- Generate(SPARK-27707)에서 불필요한 중첩 필드 정리
- 규칙 RewriteNonCorrelatedExists(SPARK-29800)
- 테이블 캐시 동기화 비용 최소화(SPARK-26917), (SPARK-26617), (SPARK-26548)
- 집계 코드를 작은 함수로 분할(SPARK-21870)
- INSERT 일괄 처리 추가 및 ALTER TABLE ADD PARTITION 명령(SPARK-29938)
확장성 향상
- 카탈로그 플러그 인 API(SPARK-31121)
- 데이터 원본 V2 API 리팩터링(SPARK-25390)
- Hive 3.0 및 3.1 메타스토어 지원(SPARK-27970),(SPARK-24360)
- Spark 플러그 인 인터페이스를 드라이버로 확장(SPARK-29396)
- 실행기 플러그 인을 사용하여 사용자 정의 메트릭으로 Spark 메트릭 시스템 확장(SPARK-28091)
- 확장된 열 형식 처리 지원을 위한 개발자 API(SPARK-27396)
- DSV2를 사용한 기본 제공 원본 마이그레이션: parquet, ORC, CSV, JSON, Kafka, Text, Avro(SPARK-27589)
- SparkExtensions에서 FunctionInjection 허용(SPARK-25560)
- 집계를 UDAF로 등록 허용(SPARK-27296).
커넥터 개선 사항
- 비결정적 식을 통한 열 정리(SPARK-29768)
- 데이터 원본 테이블의
spark.sql.statistics.fallBackToHdfs지원(SPARK-25474) - 파일 원본에서 하위 쿼리 필터를 사용하여 파티션 정리 허용(SPARK-26893)
- 데이터 원본 필터에서 하위 쿼리 푸시다운 방지(SPARK-25482)
- 파일 원본에서 재귀 데이터 로드(SPARK-27990)
- Parquet/ORC
- 분리 조건자 푸시다운(SPARK-27699)
- 중첩 열 정리 일반화(SPARK-25603) 및 기본적으로 활성화(SPARK-29805)
- Parquet만
- 중첩 필드에 대한 Parquet 조건자 푸시다운(SPARK-17636)
- ORC만
- ORC(SPARK-11412)에 대한 병합 스키마 지원
- ORC에 대한 중첩된 스키마 정리(SPARK-27034)
- ORC에 대한 조건자 변환 복잡성 감소(SPARK-27105, SPARK-28108)
- Apache ORC를 1.5.9로 업그레이드(SPARK-30695)
- CSV
- CSV 데이터 원본에서 필터 푸시다운 지원(SPARK-30323)
- 하이브 SerDe
- 네이티브 데이터 원본을 사용하여 Hive serde 테이블을 읽을 때 스키마 유추 없음(SPARK-27119)
- Hive CTAS 명령은 변환 가능한 데이터 원본을 사용해야 함(SPARK-25271)
- 네이티브 데이터 원본을 사용하여 분할된 Hive 테이블 삽입 최적화(SPARK-28573)
- Apache Kafka
- Kafka 헤더 지원 추가(SPARK-23539)
- Kafka 위임 토큰 지원 추가(SPARK-25501)
- Kafka 원본에 새 옵션 소개: 타임스탬프별 오프셋(시작/종료)(SPARK-26848)
- Kafka 일괄 처리 원본 및 스트리밍 원본 v1에서
minPartitions옵션 지원(SPARK-30656) - Kafka를 2.4.1로 업그레이드(SPARK-31126)
- 새 기본 제공 데이터 원본
- 새로운 기본 제공 이진 파일 데이터 원본(SPARK-25348)
- 새로운 no-op 일괄 처리 데이터 원본(SPARK-26550) 및 no-op 스트리밍 싱크(SPARK-26649)
향상된 기능
- [Hydrogen] 가속기 인식 스케줄러(SPARK-24615)
- 전체 조인 힌트 집합 소개(SPARK-27225)
- SQL 쿼리에 대한
PARTITION BY힌트 추가(SPARK-28746) - Thrift 서버의 메타데이터 처리(SPARK-28426)
- scala API에 고차 함수 추가(SPARK-27297)
- 장벽 작업 컨텍스트에서 단순 모두 수집 지원(SPARK-30667)
- Hive UDF에서 UDT 형식 지원(SPARK-28158)
- Catalyst에서 DELETE/UPDATE/MERGE 연산자 지원(SPARK-28351, SPARK-28892, SPARK-28893)
- DataFrame.tail 구현(SPARK-30185)
- 새로운 기본 제공 함수
- sinh, cosh, tanh, asinh, acosh, atanh(SPARK-28133)
- any, every, some(SPARK-19851)
- bit_and, bit_or(SPARK-27879)
- bit_count(SPARK-29491)
- bit_xor(SPARK-29545)
- bool_and, bool_or(SPARK-30184)
- count_if(SPARK-27425)
- date_part(SPARK-28690)
- extract(SPARK-23903)
- forall(SPARK-27905)
- from_csv(SPARK-25393)
- make_date(SPARK-28432)
- make_interval(SPARK-29393)
- make_timestamp(SPARK-28459)
- map_entries(SPARK-23935)
- map_filter(SPARK-23937)
- map_zip_with(SPARK-23938)
- max_by, min_by(SPARK-27653)
- schema_of_csv(SPARK-25672)
- to_csv(SPARK-25638)
- transform_keys(SPARK-23939)
- transform_values(SPARK-23940)
- typeof(SPARK-29961)
- version(SPARK-29554)
- xxhash64(SPARK-27099)
- 기존 기본 제공 함수의 향상된 기능
- 기본 제공 날짜-시간 함수/작업 개선(SPARK-31415)
-
FAILFAST에 대한from_json모드 지원(SPARK-25243) -
array_sort가 새 비교기 매개 변수 추가(SPARK-29020) - 필터는 이제 요소와 함께 인덱스를 사용할 수 있음(SPARK-28962).
SQL 호환성 향상
- 그레고리력으로 전환(SPARK-26651)
- Spark 자체 날짜/시간 패턴 정의 빌드(SPARK-31408)
- 테이블 삽입에 대한 ANSI 저장소 할당 정책 도입(SPARK-28495)
- 기본적으로 테이블 삽입에서 ANSI 저장소 할당 규칙을 따릅니다(spark-28885
). - SQLConf
spark.sql.ansi.enabled추가(SPARK-28989) - 집계 식에 대한 ANSI SQL 필터 절 지원(SPARK-27986)
- ANSI SQL
OVERLAY함수 지원(SPARK-28077) - ANSI 중첩 괄호 주석 지원(SPARK-28880)
- 정수에 대한 오버플로에 예외 throw(SPARK-26218)
- 간격 산술 연산에 대한 오버플로 검사(SPARK-30341)
- 잘못된 문자열이 숫자 형식으로 캐스팅되면 예외 throw(SPARK-30292)
- 간격의 곱셈과 나눗셈 오버플로 동작을 다른 연산과 일치하도록 합니다(SPARK-30919)
- char 및 decimal에 대한 ANSI 형식 별칭 추가(SPARK-29941)
- SQL 파서는 ANSI 호환 예약 키워드를 정의함(SPARK-26215)
- ANSI 모드가 켜져 있을 때 예약어를 식별자로 사용 금지(SPARK-26976)
- ANSI SQL
LIKE ... ESCAPE구문 지원(SPARK-28083) - ANSI SQL Boolean-Predicate 구문 지원(SPARK-27924)
- 상호 관련된 하위 쿼리 처리 지원 향상(SPARK-18455)
모니터링 및 디버그 가능성 향상
- 새로운 구조적 스트리밍 UI(SPARK-29543)
- SHS: 실행 중인 스트리밍 앱에 대한 이벤트 로그가 롤오버되도록 허용(SPARK-28594)
- 사용자가 일괄 처리 및 스트리밍 쿼리에서 임의의 메트릭을 정의하고 관찰할 수 있는 API 추가(SPARK-29345)
- 쿼리별 계획 시간 추적을 위한 계측(SPARK-26129)
- SQL 교환 연산자에 기본 순서 섞기 메트릭 넣기(SPARK-26139).
- SQL 문이 callsite 대신 SQL 탭에 표시됨(SPARK-27045)
- SparkUI에 도구 설명 추가(SPARK-29449)
- 기록 서버의 동시 성능 향상(SPARK-29043)
-
EXPLAIN FORMATTED명령(SPARK-27395) - 잘린 계획 및 생성 코드를 파일로 덤핑 지원(SPARK-26023)
- 쿼리 출력을 설명하는 설명 프레임워크 향상(SPARK-26982)
-
SHOW VIEWS명령 추가(SPARK-31113) - SQL 파서의 오류 메시지 개선(SPARK-27901)
- 기본적으로 Prometheus 모니터링 지원(SPARK-29429)
PySpark 개선 사항
- 형식 힌트가 있는 재설계된 pandas UDF(SPARK-28264)
- Pandas UDF 파이프라인(SPARK-26412)
- StructType을 Scalar Pandas UDF에 대한 인수 및 반환 형식으로 지원(SPARK-27240)
- Pandas UDF를 통한 데이터 프레임 공동 그룹 지원(SPARK-27463)
- DataFrames의 반복기를 허용하려면
mapInPandas추가(SPARK-28198) - 특정 SQL 함수는 열 이름도 사용해야 합니다(SPARK-26979).
- PySpark SQL 예외를 Python 형식으로 만들기(SPARK-31849)
설명서 및 테스트 적용 범위 향상
- SQL 참조 빌드(SPARK-28588)
- WebUI용 사용자 가이드 빌드(SPARK-28372)
- SQL 구성 설명서용 페이지 빌드(SPARK-30510)
- Spark 구성에 대한 버전 정보 추가(SPARK-30839)
- PostgreSQL의 포트 회귀 테스트(SPARK-27763)
- Thrift 서버 테스트 적용 범위(SPARK-28608)
- UDF의 테스트 적용 범위(python UDF, pandas UDF, scala UDF)(SPARK-27921)
기타 주목할 만한 변경 내용
- 1.2.1에서 2.3.6으로 기본 제공 Hive 실행 업그레이드(SPARK-23710, SPARK-28723, SPARK-31381)
- 기본적으로 Apache Hive 2.3 종속성 사용(SPARK-30034)
- GA Scala 2.12 및 2.11 제거(SPARK-26132)
- 동적 할당에서 실행기 시간 초과에 대한 논리 개선(SPARK-20286)
- 순서 섞기 서비스에서 제공하고 동적 할당에 대해 무시되는 디스크 지속형 RDD 블록(SPARK-27677)
- 차단 목록으로 인한 중단을 방지하기 위해 새 실행기 확보(SPARK-22148)
- Netty의 메모리 풀 할당자 공유 허용(SPARK-24920)
-
TaskMemoryManager와UnsafeExternalSorter$SpillableIterator사이의 교착 상태 수정(SPARK-27338) - StructuredStreaming용
AdmissionControlAPI 도입(SPARK-30669) - Spark 기록 기본 페이지 성능 개선(SPARK-25973)
- SQL 수신기의 메트릭 집계 속도 향상 및 축소(SPARK-29562)
- 동일한 호스트에서 순서 섞기 블록을 가져올 때 네트워크 방지(SPARK-27651)
-
DistributedFileSystem에 대한 파일 목록 개선(SPARK-27801)
Spark core, Spark SQL 및 구조적 스트리밍에 대한 동작 변경 내용
다음 마이그레이션 가이드에서는 Apache Spark 2.4와 3.0 사이의 동작 변경 내용을 나열합니다. 이러한 변경 내용에는 낮은 Databricks Runtime 버전에서 실행 중인 작업에 대한 업데이트가 필요할 수 있습니다.
- 마이그레이션 가이드: Spark Core
- 마이그레이션 가이드: SQL, 데이터 집합 및 DataFrame
- 마이그레이션 가이드: 구조화된 스트리밍
- 마이그레이션 가이드: PySpark(Python on Spark)
다음 동작 변경 내용은 이 마이그레이션 가이드에서 다루지 않습니다.
- Spark 3.0에서는 더 이상 사용되지 않는 클래스
org.apache.spark.sql.streaming.ProcessingTime이 제거되었습니다. 대신org.apache.spark.sql.streaming.Trigger.ProcessingTime를 사용하세요. 마찬가지로org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger가Trigger.Continuous를 위해 제거되고org.apache.spark.sql.execution.streaming.OneTimeTrigger가Trigger.Once를 위해 숨겨졌습니다. (SPARK-28199) - Databricks Runtime 7.0에서 Hive SerDe 테이블을 읽을 때 기본적으로 Spark는 테이블 파티션이 아닌 하위 디렉터리에서 파일을 읽을 수 없습니다. 사용하도록 설정하려면 구성
spark.databricks.io.hive.scanNonpartitionedDirectory.enabledtrue설정합니다. Spark 네이티브 테이블 판독기 및 파일 판독기는 영향을 주지 않습니다.
MLlib
중요 사항
- Binarizer(SPARK-23578), StringIndexer(SPARK-11215), StopWordsRemover(SPARK-29808) 및 PySpark QuantileDiscretizer(SPARK-22796)에 여러 열을 지원하는 기능이 추가되었습니다.
- 트리 기반 기능 변환 지원(SPARK-13677)
- 두 개의 새로운 평가자 MultilabelClassificationEvaluator(SPARK-16692) 및 RankingEvaluator(SPARK-28045)가 추가됨
- 샘플 가중치 지원이 DecisionTreeClassifier/Regressor(SPARK-19591), RandomForestClassifier/Regressor(SPARK-9478), GBTClassifier/Regressor(SPARK-9612), RegressionEvaluator(SPARK-24102), BinaryClassificationEvaluator(SPARK-24103), BisectingKMeans(SPARK-30351), KMeans(SPARK-29967) 및 GaussianMixture(SPARK-30102)에 추가됨
- PowerIterationClustering용 R API가 추가됨(SPARK-19827)
- ML 파이프라인 상태를 추적하기 위한 Spark ML 수신기가 추가됨(SPARK-23674)
- Python의 그레이디언트 부스팅 트리에 유효성 검사 데이터셋에 대한 적합 기능이 추가되었습니다(SPARK-24333).
- RobustScaler 변환기가 추가되었습니다(SPARK-28399)
- Factorization Machines 분류자 및 회귀기가 추가되었습니다(SPARK-29224)
- Gaussian Naive Bayes(SPARK-16872) 및 Complement Naive Bayes(SPARK-29942)가 추가됨
- Scala와 Python 간의 ML 함수 패리티(SPARK-28958)
- predictRaw는 모든 분류 모델에서 공개됨 predictProbability는 LinearSVCModel(SPARK-30358)을 제외한 모든 분류 모델에서 공개됨
MLlib의 동작 변경 내용
다음 마이그레이션 가이드는 Apache Spark 2.4와 3.0 간의 동작 변경 내용을 나열합니다. 이러한 변경 내용에는 낮은 Databricks Runtime 버전에서 실행 중인 작업에 대한 업데이트가 필요할 수 있습니다.
다음 동작 변경 내용은 마이그레이션 가이드에서 다루지 않습니다.
- Spark 3.0에서 Pyspark의 다중 클래스 로지스틱 회귀는 이제(정확하게)
LogisticRegressionSummary하위 클래스가 아니라BinaryLogisticRegressionSummary를 반환합니다. 어쨌든 이 경우에는BinaryLogisticRegressionSummary에서 공개한 추가 메서드가 작동하지 않습니다. (SPARK-31681) - Spark 3.0에서
pyspark.ml.param.shared.Has*mixin은 더 이상set*(self, value)setter 메서드를 제공하지 않으며 대신 해당self.set(self.*, value)을 사용합니다. 자세한 내용은 SPARK-29093을 참조하세요. (SPARK-29093)
SparkR
- SparkR의 상호 운용성에서의 Arrow 최적화 (SPARK-26759)
- 벡터화된 R gapply(), dapply(), createDataFrame, collect()를 통한 성능 향상
- R 셸, IDE에 대한 "즉시 실행"(SPARK-24572)
- Power Iteration Clustering용 R API(SPARK-19827)
SparkR의 동작 변경 내용
다음 마이그레이션 가이드는 Apache Spark 2.4와 3.0 간의 동작 변경 내용을 나열합니다. 이러한 변경 내용에는 낮은 Databricks Runtime 버전에서 실행 중인 작업에 대한 업데이트가 필요할 수 있습니다.
사용 중단
- Python 2 지원 중단(SPARK-27884)
- R < 3.4 지원 중단(SPARK-26014)
알려진 문제
- 패턴 문자 'D'를 사용하여 연도의 요일을 구문 분석하면 연도 필드가 누락된 경우 잘못된 결과가 반환됩니다. 이러한 일은 SQL 함수
to_timestamp같은 곳에서, 패턴 문자열을 사용하여 datetime 문자열을 datetime 값으로 구문 분석할 때 발생할 수 있습니다. (SPARK-31939) - 키 값이 -0.0 및 0.0인 경우 하위 쿼리 내의 조인/창/집계가 잘못된 결과를 초래할 수 있습니다. (SPARK-31958)
- 모호한 자체 조인 오류가 예기치 않게 발생하면 창 쿼리가 실패할 수 있습니다. (SPARK-31956)
-
dropDuplicates연산자를 사용하는 스트리밍 쿼리는 Spark 2.x에서 작성한 검사점에서 다시 시작하지 못할 수 있습니다. (SPARK-31990)
유지 관리 업데이트
Databricks Runtime 7.0 유지 관리 업데이트를 참조하세요.
시스템 환경
- 운영 체제: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Scala: 2.12.10
- Python: 3.7.5
- R: R 버전 3.6.3(2020-02-29)
- Delta Lake 0.7.0
설치된 Python 라이브러리
| 라이브러리 | 버전 | 라이브러리 | 버전 | 라이브러리 | 버전 |
|---|---|---|---|---|---|
| asn1crypto | 1.3.0 | 역호출 | 0.1.0 | boto3 | 1.12.0 |
| 보토코어 | 1.15.0 | 서티피 | 2020년 4월 5일 | cffi | 1.14.0 |
| 챠데트 | 3.0.4 | 암호화 | 2.8 | 자전거 타는 사람 | 0.10.0 |
| 사이톤 (Cython) | 0.29.15 | 장식자 | 4.4.1 | docutils (도큐멘트 유틸리티) | 0.15.2 |
| 진입 지점 | 0.3 | 아이드나 | 2.8 | ipykernel | 5.1.4 |
| ipython | 7.12.0 | ipython-genutils (아이파이썬 젠유틸스) | 0.2.0 | Jedi | 0.14.1 |
| jmespath | 0.9.4 | joblib (잡리브) | 0.14.1 | 주피터-클라이언트 (jupyter-client) | 5.3.4 |
| jupyter-core (주피터 핵심) | 4.6.1 | 키위솔버 (kiwisolver) | 1.1.0 | matplotlib (매트플롯립) | 3.1.3 |
| numpy (파이썬의 수치 계산용 라이브러리) | 1.18.1 | 팬더 | 1.0.1 | 파르소 | 0.5.2 |
| 바보 | 0.5.1 | pexpect (피엑스펙트) | 4.8.0 | 픽클쉐어 | 0.7.5 |
| 파이썬 패키지 설치 도구 pip | 20.0.2 | prompt-toolkit (프롬프트 도구 키트) | 3.0.3 | psycopg2 | 2.8.4 |
| PtyProcess | 0.6.0 | pyarrow | 0.15.1 | pycparser | 2.19 |
| 파이그먼츠 | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
| pyparsing (파이썬 파싱 라이브러리) | 2.4.6 | PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
| python-dateutil (파이썬 날짜 유틸) | 2.8.1 | pytz (파이썬의 타임존 계산을 위한 라이브러리) | 2019.3 | pyzmq | 18.1.1 |
| 요청사항 | 2.22.0 | s3transfer | 0.3.3 | scikit-learn (파이썬 머신러닝 라이브러리) | 0.22.1 |
| scipy (과학 컴퓨팅 라이브러리) | 1.4.1 | 바다에서 태어난 | 0.10.0 | setuptools (셋업툴즈) | 45.2.0 |
| 6 | 1.14.0 | ssh-import-id 명령어 | 5.7 | statsmodels (파이썬 통계 모형 라이브러리) | 0.11.0 |
| 토네이도 | 6.0.3 | 트레잇렛츠 | 4.3.3 | 사용자 개입 없는 자동 업데이트 | 0.1 |
| urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth(문자의 너비를 계산하는 함수) | 0.1.8 |
| 바퀴 | 0.34.2 |
설치된 R 라이브러리
R 라이브러리는 Microsoft CRAN(2020-04-22 스냅샷)에서 설치됩니다.
| 라이브러리 | 버전 | 라이브러리 | 버전 | 라이브러리 | 버전 |
|---|---|---|---|---|---|
| askpass (비밀번호 입력 요청) | 1.1 | assertthat (어설트댓) | 0.2.1 | 백포트 (기존 소프트웨어에 새로운 기능이나 수정을 추가하는 것) | 1.1.6 |
| 기반 | 3.6.3 | base64enc | 0.1-3 | 브에이치(BH) | 1.72.0-3 |
| 조각 | 1.1-15.2 | 비트64 | 0.9-7 | 덩어리 | 1.2.1 |
| 부츠 | 1.3-25 | 양조하다 | 1.0-6 | 빗자루 | 0.5.6 |
| 콜러 | 3.4.3 | 캐럿 | 6.0-86 | 셀레인저 (cellranger) | 1.1.0 |
| 크론 | 2.3-55 | 수업 | 7.3-17 | 커맨드 라인 인터페이스 (CLI) | 2.0.2 |
| 클리퍼 | 0.7.0 | 클러스터 | 2.1.0 | 코드 도구 | 0.2-16 |
| 색 공간 | 1.4-1 | 코먼마크 | 1.7 | 컴파일러 | 3.6.3 |
| 환경 설정 | 0.3 | 코브르 | 3.5.0 | 크레용 | 1.3.4 |
| 혼선 | 1.1.0.1 | 컬 | 4.3 | 데이터 테이블(data.table) | 1.12.8 |
| 데이터세트 | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
| 설명 | 1.2.0 | 개발자 도구 | 2.3.0 | 소화하다 | 0.6.25 |
| dplyr (데이터 조작을 위한 R 패키지) | 0.8.5 | 디지털 기술 | 0.13 | 줄임표 | 0.3.0 |
| 평가하다 | 0.14 | 팬시 | 0.4.1 | 색상 | 2.0.3 |
| 패스트맵 | 1.0.1 | 포캣츠 | 0.5.0 | 포이치 (foreach) | 1.5.0 |
| 외국의 | 0.8-76 | 구축하다 | 0.2.0 | fs | 1.4.1 |
| 제네릭(generics) | 0.0.2 | ggplot2 | 3.3.0 | gh | 1.1.0 |
| git2r (Git 관련 소프트웨어 패키지) | 0.26.1 | glmnet (통계 및 기계 학습 소프트웨어 패키지) | 3.0-2 | 글로벌 | 0.12.5 |
| 접착제 | 1.4.0 | 고워 (Gower) | 0.2.1 | 그래픽스 | 3.6.3 |
| grDevices | 3.6.3 | 그리드 | 3.6.3 | gridExtra | 2.3 |
| gsubfn | 0.7 | 지테이블 | 0.3.0 | 안식처 | 2.2.0 |
| 더 높다 | 0.8 | 에이치엠에스 (HMS) | 0.5.3 | HTML 도구 | 0.4.0 |
| HTML 위젯 | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
| hwriter (에이치라이터) | 1.3.2 | hwriterPlus | 1.0-3 | 이것 | 0.3.1 |
| 아이프레드 | 0.9-9 | 아이소밴드 | 0.2.1 | 이터레이터 (반복자) | 1.0.12 |
| jsonlite | 1.6.1 | KernSmooth | 2.23-17 | 니터 | 1.28 |
| 라벨링 | 0.3 | 나중에 | 1.0.0 | 격자 | 0.20-41 |
| 용암 | 1.6.7 | lazyeval | 0.2.2 | 주기 | 0.2.0 |
| 루브리데이트 | 1.7.8 | magrittr | 1.5 | 마크다운 | 1.1 |
| 질량 | 7.3-51.6 | 행렬 | 1.2-18 | 메모하다 | 1.1.0 |
| 메서드 | 3.6.3 | mgcv | 1.8-31 | 마임 | 0.9 |
| ModelMetrics | 1.2.2.2 | 모델러 | 0.1.6 | 먼셀 (Munsell) | 0.5.0 |
| nlme | 3.1-147 | 엔넷 | 7.3-14 | numDeriv (넘데리브) | 2016년 8월부터 1월 1일까지 |
| 오픈SSL (OpenSSL은 암호화 라이브러리입니다) | 1.4.1 | 평행 | 3.6.3 | 기둥 | 1.4.3 |
| pkgbuild(팩키지 빌드) | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
| 플로거 | 0.2.0 | plyr (플레이어) | 1.8.6 | 칭찬 | 1.0.0 |
| 프리티유닛 | 1.1.1 | pROC 패키지 | 1.16.2 | 프로세스엑스 | 3.4.2 |
| 프로드림 (prodlim) | 2019.11.13 | 진행률 | 1.2.2 | 약속들 | 1.1.0 |
| 프로토 | 1.0.0 | Ps | 1.3.2 | 고양이의 그르렁거림 | 0.3.4 |
| r2d3 | 0.2.3 | R6 | 2.4.1 | 랜덤 포레스트 (randomForest) | 4.6-14 |
| rappdirs (랩디르) | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
| Rcpp | 1.0.4.6 | 리더(Reader) | 1.3.1 | readxl (엑셀 파일 읽기 기능) | 1.3.1 |
| 레시피 | 0.1.10 | 재대결 | 1.0.1 | 리매치2 | 2.1.1 |
| 리모컨/원격 | 2.1.1 | 레프렉스(문제의 재현 가능한 예시) | 0.3.0 | reshape2 | 1.4.4 |
| 렉스 | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
| r마크다운 | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
| rpart (의사결정트리 구축을 위한 R 패키지) | 4.1-15 | rprojroot | 1.3-2 | Rserve (R서브) | 1.8-6 |
| RSQLite | 2.2.0 | rstudioapi | 0.11 | 알버전즈 | 2.0.1 |
| rvest (웹 스크래핑을 위한 R 패키지) | 0.3.5 | 저울 | 1.1.0 | 선택기 | 0.4-2 |
| 세션정보 | 1.1.1 | 형태 | 1.4.4 | 반짝이는 | 1.4.0.2 |
| 소스툴스 (sourcetools) | 0.1.7 | sparklyr (스파클리알) | 1.2.0 | SparkR | 3.0.0 |
| 공간적 | 7.3-11 | 스플라인 | 3.6.3 | sqldf (SQL 데이터프레임 패키지) | 0.4–11 |
| 스퀘어엠 | 2020.2 | 통계 | 3.6.3 | 통계4 | 3.6.3 |
| 문자열 처리 소프트웨어 "stringi" | 1.4.6 | stringr | 1.4.0 | 생존 | 3.1-12 |
| 시스템 | 3.3 | 티클티케이 (tcltk) | 3.6.3 | 티칭데모스 | 2.10 |
| testthat (테스트댓) | 2.3.2 | tibble (티블) | 3.0.1 | tidyr | 1.0.2 |
| tidyselect (티디셀렉트) | 1.0.0 | tidyverse (타이디버스) | 1.3.0 | 시간과 날짜 | 3043.102 |
| tinytex | 0.22 | 도구들 | 3.6.3 | 사용해보세요 | 1.6.0 |
| utf8 | 1.1.4 | 유틸리티 | 3.6.3 | vctrs | 0.2.4 |
| 비리디스라이트 | 0.3.0 | 수염 | 0.4 | 위드알 | 2.2.0 |
| xfun | 0.13 | xml2 | 1.3.1 | 엑스오픈 | 1.0.0 |
| 엑스테이블 | 1.8-4 | YAML (야믈) | 2.2.1 |
설치된 Java 및 Scala 라이브러리(Scala 2.12 클러스터 버전)
| 그룹 ID | 아티팩트 ID | 버전 |
|---|---|---|
| antlr (구문 분석 도구) | antlr (구문 분석 도구) | 2.7.7 |
| com.amazonaws | 아마존 키네시스 클라이언트 (amazon-kinesis-client) | 1.12.0 |
| com.amazonaws | aws-java-sdk-autoscaling (AWS 자바 SDK 자동 확장) | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudfront (AWS Java SDK 클라우드프론트) | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudhsm (AWS 자바 SDK 클라우드HSM) | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudsearch (AWS Java SDK 클라우드서치) | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
| com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
| com.amazonaws | aws-java-sdk-codedeploy (AWS Java SDK 코드디플로이) | 1.11.655 |
| com.amazonaws | aws-java-sdk-cognitoidentity (AWS 자바 SDK - Cognito 아이덴티티) | 1.11.655 |
| com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
| com.amazonaws | AWS Java SDK 구성 | 1.11.655 |
| com.amazonaws | aws-java-sdk-core (AWS 자바 SDK 코어) | 1.11.655 |
| com.amazonaws | aws-java-sdk-datapipeline (데이터 파이프라인을 위한 AWS Java SDK) | 1.11.655 |
| com.amazonaws | aws-java-sdk-directconnect (AWS Java SDK 다이렉트커넥트) | 1.11.655 |
| com.amazonaws | aws-java-sdk-directory | 1.11.655 |
| com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
| com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
| com.amazonaws | aws-java-sdk-ecs (AWS Java 소프트웨어 개발 키트 - ECS) | 1.11.655 |
| com.amazonaws | aws-java-sdk-efs (AWS와 EFS 관련 소프트웨어 개발 키트) | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticache (AWS Java SDK 엘라스티캐시) | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticbeanstalk (AWS용 Java SDK - Elastic Beanstalk) | 1.11.655 |
| com.amazonaws | aws-java-sdk-elasticloadbalancing (AWS Java SDK - 엘라스틱로드밸런싱) | 1.11.655 |
| com.amazonaws | aws-java-sdk-elastictranscoder (AWS Java SDK 엘라스틱 트랜스코더) | 1.11.655 |
| com.amazonaws | aws-java-sdk-emr (아우스-자바-sdk-emr) | 1.11.655 |
| com.amazonaws | AWS 자바 SDK 글래시어 (aws-java-sdk-glacier) | 1.11.655 |
| com.amazonaws | AWS 자바 SDK IAM | 1.11.655 |
| com.amazonaws | aws-java-sdk-importexport (AWS Java SDK 내보내기 기능) | 1.11.655 |
| com.amazonaws | aws-java-sdk-kinesis | 1.11.655 |
| com.amazonaws | aws-java-sdk-kms (AWS 자바 SDK KMS) | 1.11.655 |
| com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
| com.amazonaws | aws-java-sdk-logs (AWS 자바 SDK 로그) | 1.11.655 |
| com.amazonaws | AWS-Java-SDK-머신러닝 | 1.11.655 |
| com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
| com.amazonaws | aws-java-sdk-rds (AWS Java 개발자용 SDK - RDS) | 1.11.655 |
| com.amazonaws | aws-java-sdk-redshift (AWS 자바 SDK 레드시프트) | 1.11.655 |
| com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
| com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
| com.amazonaws | aws-java-sdk-ses | 1.11.655 |
| com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
| com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
| com.amazonaws | AWS Java SDK SNS (AWS의 자바 개발자 키트 - SNS) | 1.11.655 |
| com.amazonaws | aws-java-sdk-sqs (AWS Java SDK의 SQS 모듈) | 1.11.655 |
| com.amazonaws | aws-java-sdk-ssm (AWS Java SDK의 SSM 모듈) | 1.11.655 |
| com.amazonaws | aws-java-sdk-storagegateway (AWS Java SDK 스토리지 게이트웨이) | 1.11.655 |
| com.amazonaws | aws-java-sdk-sts | 1.11.655 |
| com.amazonaws | AWS-Java-SDK-지원 | 1.11.655 |
| com.amazonaws | AWS Java SDK SWF 라이브러리 | 1.11.22 |
| com.amazonaws | aws-java-sdk-workspaces (AWS Java SDK 작업 공간) | 1.11.655 |
| com.amazonaws | jmespath-java | 1.11.655 |
| com.chuusai | shapeless_2.12 | 2.3.3 |
| com.clearspring.analytics | 스트림 | 2.9.6 |
| com.databricks | Rserve (R서브) | 1.8-3 |
| com.databricks | jets3t | 0.7.1-0 |
| com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
| com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
| com.esotericsoftware | kryo-shaded (크리오 쉐이디드) | 4.0.2 |
| com.esotericsoftware | 민로그 | 1.3.0 |
| com.fasterxml | 동급생 | 1.3.4 |
| com.fasterxml.jackson.core | 잭슨 애노테이션즈 | 2.10.0 |
| com.fasterxml.jackson.core | 잭슨-코어 | 2.10.0 |
| com.fasterxml.jackson.core | 잭슨 데이터바인드 (jackson-databind) | 2.10.0 |
| com.fasterxml.jackson.dataformat | jackson-dataformat-cbor (잭슨 데이터 포맷 CBOR) | 2.10.0 |
| com.fasterxml.jackson.datatype | 잭슨 데이터타입 조다 (jackson-datatype-joda) | 2.10.0 |
| com.fasterxml.jackson.module | 잭슨 모듈 - 파라네이머 (jackson-module-paranamer) | 2.10.0 |
| com.fasterxml.jackson.module | jackson-module-scala_2.12 (자바 스칼라 모듈) | 2.10.0 |
| com.github.ben-manes.카페인 | 카페인 | 2.3.4 |
| com.github.fommil | jniloader | 1.1 |
| com.github.fommil.netlib | 코어 | 1.1.2 |
| com.github.fommil.netlib | 네이티브_레퍼런스-자바 | 1.1 |
| com.github.fommil.netlib | 네이티브_레퍼런스-자바-네이티브스 | 1.1 |
| com.github.fommil.netlib | native_system-java (네이티브 시스템 자바) | 1.1 |
| com.github.fommil.netlib | 네이티브 시스템-자바-네이티브스 | 1.1 |
| com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
| com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1.1 |
| com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter (드롭위저드 메트릭스 하둡 메트릭스2 리포터) | 0.1.2 |
| com.github.luben | zstd-jni | 1.4.4-3 |
| com.github.wendykierp | JTransforms | 3.1 |
| com.google.code.findbugs | jsr305 | 3.0.0 |
| com.google.code.gson | gson (JSON 처리를 위한 자바 라이브러리) | 2.2.4 |
| com.google.flatbuffers | flatbuffers-java | 1.9.0 |
| com.google.guava | 구아바 | 15.0 |
| com.google.protobuf | protobuf-java | 2.6.1 |
| com.h2database | h2 | 1.4.195 |
| com.helger | Profiler | 1.1.1 |
| com.jcraft | jsch | 0.1.50 |
| com.jolbox | bonecp | 0.8.0.릴리스 |
| com.microsoft.azure | azure-data-lake-store-sdk (애저 데이터 레이크 저장소 SDK) | 2.2.8 |
| com.microsoft.sqlserver (마이크로소프트 SQL 서버) | mssql-jdbc | 8.2.1.jre8 |
| com.ning | compress-lzf (압축 알고리즘 LZF) | 1.0.3 |
| com.sun.mail | javax.mail | 1.5.2 |
| com.tdunning | JSON | 1.8 |
| com.thoughtworks.paranamer | 파라네이머 | 2.8 |
| com.trueaccord.lenses | 렌즈_2.12 | 0.4.12 |
| com.twitter (도메인 이름) | chill-java (칠자바) | 0.9.5 |
| com.twitter (도메인 이름) | chill_2.12 | 0.9.5 |
| com.twitter (도메인 이름) | util-app_2.12 | 7.1.0 |
| com.twitter (도메인 이름) | util-core_2.12 | 7.1.0 |
| com.twitter (도메인 이름) | util-function_2.12 | 7.1.0 |
| com.twitter (도메인 이름) | util-jvm_2.12 | 7.1.0 |
| com.twitter (도메인 이름) | util-lint_2.12 | 7.1.0 |
| com.twitter (도메인 이름) | util-registry_2.12 | 7.1.0 |
| com.twitter (도메인 이름) | util-stats_2.12 | 7.1.0 |
| com.typesafe | 환경 설정 | 1.2.1 |
| com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
| com.univocity | univocity-parsers (유니보시티-파서스) | 2.8.3 |
| com.zaxxer | HikariCP | 3.1.0 |
| commons-beanutils | commons-beanutils | 1.9.4 |
| commons-cli | commons-cli | 1.2 |
| commons-codec (커먼즈 코덱) | commons-codec (커먼즈 코덱) | 1.10 |
| 코먼스-컬렉션즈 | 코먼스-컬렉션즈 | 3.2.2 |
| 커먼즈-구성 설정 | 커먼즈-구성 설정 | 1.6 |
| 커먼즈-DBCP | 커먼즈-DBCP | 1.4 |
| commons-digester (커먼스-다이제스터) | commons-digester (커먼스-다이제스터) | 1.8 |
| 커먼즈-파일업로드 | 커먼즈-파일업로드 | 1.3.3 |
| 커먼즈-HTTP 클라이언트 | 커먼즈-HTTP 클라이언트 | 3.1 |
| commons-io | commons-io | 2.4 |
| 커먼즈-랭 | 커먼즈-랭 | 2.6 |
| commons-logging (커먼즈 로깅) | commons-logging (커먼즈 로깅) | 1.1.3 |
| commons-net | commons-net | 3.1 |
| commons-pool (커먼즈 풀) | commons-pool (커먼즈 풀) | 1.5.4 |
| info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
| io.airlift | 에어컴프레서 | 0.10 |
| io.dropwizard.metrics | metrics-core (메트릭스 코어) | 4.1.1 |
| io.dropwizard.metrics | 메트릭스-그래파이트 (metrics-graphite) | 4.1.1 |
| io.dropwizard.metrics | 메트릭스-헬스체크 | 4.1.1 |
| io.dropwizard.metrics | 메트릭스-젯티9 | 4.1.1 |
| io.dropwizard.metrics | 메트릭스-JMX | 4.1.1 |
| io.dropwizard.metrics | 메트릭스-JSON | 4.1.1 |
| io.dropwizard.metrics | metrics-jvm (메트릭스-JVM) | 4.1.1 |
| io.dropwizard.metrics | 메트릭스-서블릿 | 4.1.1 |
| io.netty | netty-all | 4.1.47.Final |
| 자카르타.annotation | 자카르타 애노테이션-API (jakarta.annotation-api) | 1.3.5 |
| jakarta.validation | jakarta.validation-api (자카르타 검증 API) | 2.0.2 |
| jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
| javax.activation | 활성화 | 1.1.1 |
| javax.el | javax.el-api (자바 API) | 2.2.4 |
| javax.jdo | jdo-api | 3.0.1 |
| javax.servlet | javax.servlet-api | 3.1.0 |
| javax.servlet.jsp | jsp-api | 2.1 |
| javax.transaction | jta (자바 트랜잭션 API) | 1.1 |
| javax.transaction | 트랜잭션-API | 1.1 |
| javax.xml.bind | jaxb-api | 2.2.2 |
| .stream javax.xml | stax-api | 1.0-2 |
| 자볼루션 | 자볼루션 | 5.5.1 |
| 제이라인 | 제이라인 | 2.14.6 |
| joda-time | joda-time | 2.10.5 |
| log4j | apache-log4j-extras | 1.2.17 |
| log4j | log4j | 1.2.17 |
| net.razorvine | 파이라이트 (pyrolite) | 4.30 |
| net.sf.jpam | 제이팜 | 1.1 |
| net.sf.opencsv | opencsv (오픈CSV 라이브러리) | 2.3 |
| net.sf.supercsv | 슈퍼-CSV | 2.2.0 |
| 네트.스노우플레이크 | snowflake-ingest SDK (소프트웨어 개발 키트) | 0.9.6 |
| 네트.스노우플레이크 | snowflake-jdbc (스노우플레이크 JDBC) | 3.12.0 |
| 네트.스노우플레이크 | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
| net.sourceforge.f2j | arpack_전체_결합 | 0.1 |
| org.acplt.remotetea | remotetea-oncrpc (리모트티-온씨알피씨) | 1.1.2 |
| org.antlr | ST4 | 4.0.4 |
| org.antlr | ANTLR 런타임 | 3.5.2 |
| org.antlr | antlr4-runtime | 4.7.1 |
| org.antlr | 문자열템플릿 | 3.2.1 |
| org.apache.ant | 최근 | 1.9.2 |
| org.apache.ant | ant-jsch | 1.9.2 |
| org.apache.ant | 안트-런처 | 1.9.2 |
| org.apache.arrow | 화살표 형식 | 0.15.1 |
| org.apache.arrow | 어로우-메모리 | 0.15.1 |
| org.apache.arrow | 화살표 벡터 | 0.15.1 |
| org.apache.avro | Avro | 1.8.2 |
| org.apache.avro | avro-ipc (아브로 IPC) | 1.8.2 |
| org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
| org.apache.commons (오픈 소스 자바 라이브러리) | 커먼즈-컴프레스 | 1.8.1 |
| org.apache.commons (오픈 소스 자바 라이브러리) | 커먼즈-크립토 | 1.0.0 |
| org.apache.commons (오픈 소스 자바 라이브러리) | 커먼즈-랭3 (commons-lang3) | 3.9 |
| org.apache.commons (오픈 소스 자바 라이브러리) | 커먼즈-매쓰3 | 3.4.1 |
| org.apache.commons (오픈 소스 자바 라이브러리) | commons-text (커먼즈 텍스트) | 1.6 |
| org.apache.curator | 큐레이터-의뢰인 관계 | 2.7.1 |
| org.apache.curator | curator-framework (큐레이터 프레임워크) | 2.7.1 |
| org.apache.curator | 큐레이터의 레시피 | 2.7.1 |
| org.apache.derby | 더비 | 10.12.1.1 |
| org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
| org.apache.directory.api | 애피-유틸 | 1.0.0-M20 |
| org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
| org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
| org.apache.hadoop | 하둡 어노테이션 (hadoop-annotations) | 2.7.4 |
| org.apache.hadoop | 하둡 인증 (hadoop-auth) | 2.7.4 |
| org.apache.hadoop | 하둡 클라이언트 (hadoop-client) | 2.7.4 |
| org.apache.hadoop | hadoop-common (하둡-커먼) | 2.7.4 |
| org.apache.hadoop | hadoop-hdfs (하둡 파일 시스템) | 2.7.4 |
| org.apache.hadoop | Hadoop MapReduce 클라이언트 애플리케이션 | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-common (해둡-맵리듀스-클라이언트-커먼) | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-core (하둡 맵리듀스 클라이언트 코어) | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-jobclient (하둡 맵리듀스 클라이언트 잡클라이언트) | 2.7.4 |
| org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
| org.apache.hadoop | 하둡 야른 클라이언트 (hadoop-yarn-client) | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-common (하둡-야른-커먼) | 2.7.4 |
| org.apache.hadoop | hadoop-yarn-server-common (하둡 야른 서버 공통) | 2.7.4 |
| org.apache.hive | hive-beeline (하이브 비라인, 하둡에서 SQL 쿼리를 실행하고 관리하는 명령어) | 2.3.7 |
| org.apache.hive | hive-CLI | 2.3.7 |
| org.apache.hive | hive-common | 2.3.7 |
| org.apache.hive | 하이브-이그젝-코어 | 2.3.7 |
| org.apache.hive | hive-jdbc (하이브 JDBC) | 2.3.7 |
| org.apache.hive | hive-llap-client (하이브 LLAP 클라이언트) | 2.3.7 |
| org.apache.hive | hive-llap-common | 2.3.7 |
| org.apache.hive | 하이브 메타스토어 (hive-metastore) | 2.3.7 |
| org.apache.hive | 하이브-세르데 | 2.3.7 |
| org.apache.hive | 하이브-심스 | 2.3.7 |
| org.apache.hive | 하이브-스토리지-API | 2.7.1 |
| org.apache.hive | 하이브 벡터 코드 생성기 | 2.3.7 |
| org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
| org.apache.hive.shims | 하이브-쉼스-커먼 | 2.3.7 |
| org.apache.hive.shims | 하이브-심스-스케줄러 | 2.3.7 |
| org.apache.htrace | htrace-core | 3.1.0-인큐베이팅 |
| org.apache.httpcomponents | HTTP 클라이언트 (httpclient) | 4.5.6 |
| org.apache.httpcomponents | httpcore | 4.4.12 |
| org.apache.ivy | 아이비 | 2.4.0 |
| org.apache.orc | orc-core (오크 코어) | 1.5.10 |
| org.apache.orc | orc-mapreduce (오크-맵리듀스) | 1.5.10 |
| org.apache.orc | orc-shims (오크-심스) | 1.5.10 |
| org.apache.parquet | 파케트 컬럼 | 1.10.1.2-databricks4 |
| org.apache.parquet | 파케-커먼 (parquet-common) | 1.10.1.2-databricks4 |
| org.apache.parquet | 파케트 인코딩 | 1.10.1.2-databricks4 |
| org.apache.parquet | 파케 형식 (parquet-format) | 2.4.0 |
| org.apache.parquet | 파켓-하둡 (parquet-hadoop) | 1.10.1.2-databricks4 |
| org.apache.parquet | 파케-잭슨 | 1.10.1.2-databricks4 |
| org.apache.thrift | libfb303 | 0.9.3 |
| org.apache.thrift | libthrift | 0.12.0 |
| org.apache.velocity | 속도 | 1.5 |
| org.apache.xbean | xbean-asm7 음영 처리 | 4.15 |
| org.apache.yetus | 관객 주석 | 0.5.0 |
| org.apache.zookeeper | 동물 사육사 | 3.4.14 |
| org.codehaus.jackson | jackson-core-asl (자바 라이브러리) | 1.9.13 |
| org.codehaus.jackson | 잭슨 잭서스 | 1.9.13 |
| org.codehaus.jackson | jackson-mapper-asl (잭슨-매퍼-ASL) | 1.9.13 |
| org.codehaus.jackson | jackson-xc | 1.9.13 |
| org.codehaus.janino | 커먼스-컴파일러 | 3.0.16 |
| org.codehaus.janino | 자니노 | 3.0.16 |
| org.datanucleus | datanucleus-api-jdo | 4.2.4 |
| org.datanucleus | 데이터뉴클리어스-코어 | 4.1.17 |
| org.datanucleus | datanucleus-rdbms (데이터누클리어스-알디비엠에스) | 4.1.19 |
| org.datanucleus | javax.jdo | 3.2.0-m3 |
| org.eclipse.jetty | jetty-client (제티 클라이언트) | 9.4.18.v20190429 |
| org.eclipse.jetty | 제티-컨티뉴에이션 (Jetty-Continuation) | 9.4.18.v20190429 |
| org.eclipse.jetty | 제티-HTTP (Jetty-HTTP) | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-jndi (제티-JNDI) | 9.4.18.v20190429 |
| org.eclipse.jetty | 제티-플러스 (jetty-plus) | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-proxy (제티 프록시) | 9.4.18.v20190429 |
| org.eclipse.jetty | 제티-시큐리티 (jetty-security) | 9.4.18.v20190429 |
| org.eclipse.jetty | 제티 서버 (Jetty Server) | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
| org.eclipse.jetty | 제티 서블릿(jetty-servlets) | 9.4.18.v20190429 |
| org.eclipse.jetty | 제티 유틸 (jetty-util) | 9.4.18.v20190429 |
| org.eclipse.jetty | 제티 웹앱 (jetty-webapp) | 9.4.18.v20190429 |
| org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
| org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
| org.glassfish.hk2 | hk2-api | 2.6.1 |
| org.glassfish.hk2 | hk2 위치 탐색기 | 2.6.1 |
| org.glassfish.hk2 | hk2-utils | 2.6.1 |
| org.glassfish.hk2 | OSGi 자원 탐색기 | 1.0.3 |
| org.glassfish.hk2.external | aopalliance-재패키지 | 2.6.1 |
| org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
| org.glassfish.jersey.containers | Jersey 컨테이너 서블릿 (jersey-container-servlet) | 2.30 |
| org.glassfish.jersey.containers | 저지-컨테이너-서블릿-코어 | 2.30 |
| org.glassfish.jersey.core | 제르시 클라이언트 | 2.30 |
| org.glassfish.jersey.core | 저지-커먼 | 2.30 |
| org.glassfish.jersey.core | 저지 서버 (jersey-server) | 2.30 |
| org.glassfish.jersey.inject | jersey-hk2 | 2.30 |
| org.glassfish.jersey.media | 저지-미디어-JAXB (그대로 사용할 경우 'Jersey Media JAXB') | 2.30 |
| org.hibernate.validator | 하이버네이트 검증기 (hibernate-validator) | 6.1.0.Final |
| org.javassist | javassist | 3.25.0-GA |
| org.jboss.logging | jboss-logging(로그 관리 시스템) | 3.3.2.최종 |
| org.jdbi | jdbi | 2.63.1 |
| org.joda | joda-convert (조다 변환 라이브러리) | 1.7 |
| org.jodd | jodd-core (조드 코어 라이브러리) | 3.5.2 |
| org.json4s | json4s-ast_2.12 | 3.6.6 |
| org.json4s | json4s-core_2.12 | 3.6.6 |
| org.json4s | json4s-jackson_2.12 | 3.6.6 |
| org.json4s | json4s-scalap_2.12 | 3.6.6 |
| org.lz4 | lz4-java | 1.7.1 |
| org.mariadb.jdbc | MariaDB 자바 클라이언트 | 2.1.2 |
| org.objenesis | 옵제네시스 (objenesis) | 2.5.1 |
| org.postgresql | PostgreSQL (포스트그레에스큐엘) | 42.1.4 |
| org.roaringbitmap | 로어링비트맵 (RoaringBitmap) | 0.7.45 |
| org.roaringbitmap | 간격 조정용 판 | 0.7.45 |
| org.rocksdb | rocksdbjni | 6.2.2 |
| org.rosuda.REngine | REngine | 2.1.0 |
| org.scala-lang | scala-compiler_2.12 | 2.12.10 |
| org.scala-lang | scala-library_2.12 | 2.12.10 |
| org.scala-lang | scala-reflect_2.12 | 2.12.10 |
| org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
| org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
| org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
| org.scala-sbt | 테스트 인터페이스 | 1.0 |
| org.scalacheck | scalacheck_2.12 | 1.14.2 |
| org.scalactic | scalactic_2.12 | 3.0.8 |
| org.scalanlp | breeze-macros_2.12 | 1.0 |
| org.scalanlp | breeze_2.12 | 1.0 |
| org.scalatest | scalatest_2.12 | 3.0.8 |
| org.slf4j | jcl-over-slf4j | 1.7.30 |
| org.slf4j | jul-to-slf4j | 1.7.30 |
| org.slf4j | slf4j-api | 1.7.30 |
| org.slf4j | slf4j-log4j12 | 1.7.30 |
| org.spark-project.spark | 사용하지 않음 | 1.0.0 |
| org.springframework | 스프링-코어 | 4.1.4.RELEASE |
| org.springframework | 스프링 테스트 | 4.1.4.RELEASE |
| org.threeten | threeten-extra (쓰리텐-엑스트라) | 1.5.0 |
| org.tukaani | xz | 1.5 |
| org.typelevel | algebra_2.12 | 2.0.0-M2 |
| org.typelevel | cats-kernel_2.12 | 2.0.0-M4 |
| org.typelevel | 기계공_2.12 | 0.6.8 |
| org.typelevel | macro-compat_2.12 | 1.1.1 |
| org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
| org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
| org.typelevel | 스파이어-유틸_2.12 | 0.17.0-M1 |
| org.typelevel | 스파이어_2.12 (spire_2.12) | 0.17.0-M1 |
| org.xerial | sqlite-jdbc | 3.8.11.2 |
| org.xerial.snappy | snappy-java | 1.1.7.5 |
| org.yaml | 스네이크야AML (snakeyaml) | 1.24 |
| 금 | 금 | 2.0.8 |
| pl.edu.icm | 제이 라지 어레이스 | 1.5 |
| software.amazon.ion | ion-java (아이온-자바) | 1.0.2 |
| 스택스 (Stax) | stax-api | 1.0.1 |
| xmlenc | xmlenc | 0.52 |