다음을 통해 공유


ML용 Databricks Runtime 5.4(EoS)

참고 항목

이 Databricks Runtime 버전에 대한 지원이 종료되었습니다. 지원 종료 날짜는 지원 종료 기록을 참조하세요. 지원되는 모든 Databricks Runtime 버전은 Databricks Runtime 릴리스 정보 버전 및 호환성을 참조하세요.

Databricks는 2019년 6월에 이 버전을 릴리스했습니다.

Machine Learning용 Databricks Runtime 5.4은 Databricks Runtime 5.4(EoS)을 기반으로 즉시 사용 가능한 기계 학습 및 데이터 과학 환경을 제공합니다. Databricks Runtime ML에는 TensorFlow, PyTorch, Keras, XGBoost를 포함하여 널리 사용되는 많은 기계 학습 라이브러리가 포함되어 있습니다. 또한 Horovod를 사용하여 분산 딥 러닝 학습을 지원합니다.

Databricks Runtime ML 클러스터 만들기 지침을 포함한 자세한 내용은 Databricks에서의 AI 및 기계 학습을 참조하세요.

새로운 기능

Databricks Runtime 5.4 ML은 Databricks Runtime 5.4를 기반으로 빌드됩니다. Databricks Runtime 5.4의 새로운 기능과 관련된 자세한 내용은 Databricks Runtime 5.4(EoS) 릴리스 정보를 참조하세요.

라이브러리 업데이트 외에도 Databricks Runtime 5.4 ML에는 다음과 같은 새로운 기능이 도입되었습니다.

분산 Hyperopt + 자동화된 MLflow 추적

Databricks Runtime 5.4 ML은 하이퍼 매개 변수 튜닝의 크기를 조정하고 간소화하기 위해 Apache Spark에서 제공하는 Hyperopt의 새로운 구현을 도입했습니다. Apache Spark를 사용하여 여러 컴퓨터 및 노드 간에 Hyperopt 평가판 실행을 배포하기 위해 새 Trials 클래스 SparkTrials이(가) 구현됩니다. 또한 조정된 하이퍼 매개 변수 및 대상 메트릭과 함께 모든 튜닝 실험은 MLflow 실행에 자동으로 기록됩니다. Hyperopt 하이퍼 매개 변수 튜닝 병렬화를 참조하세요.

중요합니다

이 기능은 공개 미리 보기 상태입니다.

Apache Spark MLlib + 자동화된 MLflow 추적

Databricks Runtime 5.4 ML은 PySpark 튜닝 알고리즘 CrossValidator를 사용하여 모델에 맞는 TrainValidationSplit의 자동 로깅을 지원합니다. Apache Spark MLlib 및 자동화된 MLflow 추적을 참조하세요. 이 기능은 Databricks Runtime 5.4 ML에서 기본적으로 켜져 있지만 Databricks Runtime 5.3 ML에서는 기본적으로 꺼져 있습니다.

중요합니다

이 기능은 공개 미리 보기 상태입니다.

HorovodRunner 개선 사항

Horovod에서 Spark 드라이버 노드로 보낸 출력이 이제 Notebook 셀에 표시됩니다.

XGBoost Python 패키지 업데이트

XGBoost Python 패키지 0.80이 설치되어 있습니다.

시스템 환경

Databricks Runtime 5.4 ML의 시스템 환경은 다음과 같이 Databricks Runtime 5.4와 다릅니다.

  • Python: Python 2 클러스터의 경우 2.7.15, Python 3 클러스터의 경우 3.6.5.
  • DBUtils: Databricks Runtime 5.4 ML에는 라이브러리 유틸리티(dbutils.library)(레거시)가 포함되어 있지 않습니다.
  • GPU 클러스터의 경우 다음 NVIDIA GPU 라이브러리를 사용합니다.
    • Tesla 드라이버 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

라이브러리

다음 섹션에서는 Databricks Runtime 5.4에 포함된 라이브러리와 다른 Databricks Runtime 5.4 ML 라이브러리를 나열합니다.

최상위 계층 라이브러리

Databricks Runtime 5.4 ML에는 다음과 같은 최상위 계층 라이브러리가 포함되어 있습니다.

Python 라이브러리

Databricks Runtime 5.4 ML은 Python 패키지 관리에 Conda를 사용합니다. 결과적으로 Databricks Runtime과 비교하여 설치된 Python 라이브러리에는 큰 차이점이 있습니다. 다음은 Conda 패키지 관리자를 사용하여 설치된 제공되는 Python 패키지 및 버전의 전체 목록입니다.

라이브러리 버전 라이브러리 버전 라이브러리 버전
absl-py 0.7.1 argparse (명령어 인수 파싱 모듈) 1.4.0 asn1crypto 0.24.0
아스토르 0.7.1 backports-abc 0.5 backports.펑툴스-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt (비크립트) 3.1.6 표백제 2.1.3
보토 2.48.0 boto3 1.7.62 보토코어 1.10.62
서티피 2018.04.16 cffi 1.11.5 챠데트 3.0.4
cloudpickle (클라우드피클) 0.5.3 colorama 0.3.9 컨피그파서 3.5.0
암호화 2.2.2 자전거 타는 사람 0.10.0 사이톤 (Cython) 0.28.2
장식자 4.3.0 docutils (도큐멘트 유틸리티) 0.14 진입 지점 0.2.3
enum34 1.1.6 et-xml 파일 1.0.1 funcsigs (펑크시그) 1.0.2
펑툴스32 3.2.3-2 퓨즈파이 (fusepy) 2.0.4 미래 0.17.1
미래 3.2.0 가스트 0.2.2 grpcio (Python용 gRPC 패키지) 1.12.1
h5py 2.8.0 호로보드 (Horovod) 0.16.0 html5lib 1.0.1
하이퍼옵트 0.1.2.db4 아이드나 2.6 IP 주소 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2.10 jmespath 0.9.4 JSON 스키마 2.6.0
주피터-클라이언트 (jupyter-client) 5.2.3 jupyter-core (주피터 핵심) 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 키위솔버 (kiwisolver) 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
마크다운 3.1.1 MarkupSafe (마크업세이프) 1.0 matplotlib (매트플롯립) 2.2.2
미스튠 (Mistune) 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 조롱하다 2.0.0 메시지팩 (MessagePack) 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 네트워크엑스 2.2
1.3.7 코 제외 0.5.0 넘바 0.38.0+0.g2a2b772fc.dirty
numpy (파이썬의 수치 계산용 라이브러리) 1.14.3 올레파일 0.45.1 openpyxl 2.5.3
팬더 0.23.0 pandocfilters 1.4.2 판미코 (Paramiko라는 Python 라이브러리) 2.4.1
pathlib2 2.3.2 바보 0.5.0 pbr 5.1.3
pexpect (피엑스펙트) 4.5.0 픽클쉐어 0.7.4 베개 5.1.0
파이썬 패키지 설치 도구 pip 10.0.1 3.11 prompt-toolkit (프롬프트 도구 키트) 1.0.15
프로토버프 (protobuf) 3.7.1 psutil (시스템 및 프로세스 유틸리티용 Python 라이브러리) 5.6.2 psycopg2 2.7.5
PtyProcess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 파이그먼츠 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing (파이썬 파싱 라이브러리) 2.2.0
PySocks 1.6.8 파이썬 2.7.15 python-dateutil (파이썬 날짜 유틸) 2.7.3
pytz (파이썬의 타임존 계산을 위한 라이브러리) 2018.4 PyYAML 5.1 pyzmq 17.0.0
요청사항 2.18.4 s3transfer 0.1.13 스캔디르 1.7
scikit-learn (파이썬 머신러닝 라이브러리) 0.19.1 scipy (과학 컴퓨팅 라이브러리) 1.1.0 바다에서 태어난 0.8.1
setuptools (셋업툴즈) 39.1.0 simplegeneric 0.8.1 싱글디스패치 3.4.0.3
6 1.11.0 statsmodels (파이썬 통계 모형 라이브러리) 0.9.0 subprocess32 3.5.4
텐서보드 1.12.2 tensorboardX 1.6 텐서플로우 1.12.0
터칼라 (termcolor) 1.1.0 테스트 경로 0.3.1 횃불 0.4.1
토치비전 0.2.1 토네이도 5.0.2 tqdm 4.32.1
traceback2 1.4.0 트레잇렛츠 4.3.2 unittest2 1.1.0
urllib3 1.22 virtualenv 16.0.0 wcwidth(문자의 너비를 계산하는 함수) 0.1.7
웹인코딩 0.5.1 도구 0.14.1 바퀴 0.31.1
감싼 1.10.11 wsgiref 0.1.2

또한 다음 Spark 패키지에는 Python 모듈이 포함됩니다.

Spark 패키지 Python 모듈 버전
그래프프레임 그래프프레임 0.7.0-db1-spark2.4
스파크 딥러닝 sparkdl 1.5.0-db3-spark2.4
텐서프레임즈 텐서프레임즈 0.6.0-s_2.11

R 라이브러리

R 라이브러리는 Databricks Runtime 5.4의 R 라이브러리와 동일합니다.

Java 및 Scala 라이브러리(Scala 2.11 클러스터)

Databricks Runtime 5.4의 Java 및 Scala 라이브러리 외에도 Databricks Runtime 5.4 ML에는 다음 JAR이 포함되어 있습니다.

그룹 ID 아티팩트 ID 버전
com.databricks 스파크 딥러닝 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow 텐서플로우 1.12.0
org.tensorframes 텐서프레임즈 0.6.0-s_2.11