Azure Machine Learning 자산 식별
데이터 과학자는 대부분 Azure Machine Learning 작업 영역의 자산으로 작업합니다. 자산은 프로젝트의 다양한 단계에서 만들어지고 사용되며 다음을 포함합니다.
- 모델
- 환경
- 데이터
- 구성 요소
모델 만들기 및 관리
모델 학습의 최종 제품은 모델 자체입니다. Scikit-learn 또는 PyTorch와 같은 다양한 프레임워크를 사용하여 기계 학습 모델을 학습시킬 수 있습니다. 이러한 모델을 저장하는 일반적인 방법은 모델을 Python pickle 파일(.pkl 확장명)로 패키징하는 것입니다.
또는 오픈 소스 플랫폼 MLflow를 사용하여 모델을 MLModel 형식으로 저장할 수 있습니다.
팁
MLflow 및 MLModel 형식을 사용하여 워크플로 아티팩트를 모델로 로깅하는 방법에 대해 자세히 알아봅니다.
선택한 형식에 관계없이 이진 파일은 모델 및 해당 메타데이터를 나타냅니다. 이러한 파일을 유지하려면 작업 영역에서 모델을 만들거나 등록할 수 있습니다.
작업 영역에서 모델을 만들 때 이름과 버전을 지정합니다. 등록된 모델을 배포할 때 특히 유용한 버전 관리를 사용하면 사용하려는 특정 모델을 추적할 수 있습니다.
환경 만들기 및 관리
클라우드 컴퓨팅을 사용하는 경우 코드가 사용 가능한 모든 컴퓨팅에서 실행되도록 하는 것이 중요합니다. 컴퓨팅 인스턴스 또는 컴퓨팅 클러스터에서 스크립트를 실행하려는 경우 코드가 성공적으로 실행되어야 합니다.
로컬 디바이스에서 오픈 소스 프레임워크를 사용하여 모델을 학습시키는 Python 또는 R에서 작업하는 것을 상상해 보세요. Scikit-learn 또는 PyTorch와 같은 라이브러리를 사용하려면 디바이스에 설치해야 합니다.
마찬가지로, 프레임워크나 라이브러리를 사용하는 코드를 작성하는 경우 코드를 실행하는 컴퓨팅에 필요한 종속성이 설치되어 있는지 확인해야 합니다. 필요한 모든 요구 사항을 나열하려면 환경을 만들 수 있습니다. 환경을 만들 때 이름과 버전을 지정해야 합니다.
환경에서는 스크립트를 실행할 소프트웨어 패키지, 환경 변수 및 소프트웨어 설정을 지정합니다. 처음 사용될 때 작업 영역과 함께 생성되는 Azure Container Registry에 환경이 이미지로 저장됩니다.
스크립트를 실행하려는 경우 컴퓨팅 대상에서 사용해야 하는 환경을 지정할 수 있습니다. 환경은 스크립트를 실행하기 전에 컴퓨팅에 필요한 모든 요구 사항을 설치하므로 코드를 강력하게 만들고 컴퓨팅 대상에서 재사용할 수 있습니다.
데이터 만들기 및 관리
데이터 저장소는 Azure 데이터 스토리지 서비스에 대한 연결 정보를 포함하는 반면 데이터 자산은 특정 파일 또는 폴더를 참조합니다.
액세스할 때마다 인증을 제공하지 않고도 데이터 자산을 사용하여 매번 데이터에 쉽게 액세스할 수 있습니다.
작업 영역에서 데이터 자산을 만들 때 파일 또는 폴더를 가리키는 경로와 이름 및 버전을 지정합니다.
컴포넌트 만들기 및 관리
기계 학습 모델을 학습시키기 위해 코드를 작성합니다. 프로젝트 전체에서 다시 사용할 수 있는 코드가 있을 수 있습니다. 코드를 처음부터 작성하는 대신 다른 프로젝트의 코드 조각을 다시 사용하려고 합니다.
코드를 더 쉽게 공유할 수 있도록 작업 영역에서 구성 요소를 만들 수 있습니다. 구성 요소를 만들려면 코드를 실행하는 데 필요한 이름, 버전, 코드 및 환경을 지정해야 합니다.
파이프라인을 만들 때 구성 요소를 사용할 수 있습니다. 따라서 구성 요소는 데이터를 정규화하거나, 회귀 모델을 학습하거나, 유효성 검사 데이터 세트에서 학습된 모델을 테스트하는 등 파이프라인의 단계를 나타내는 경우가 많습니다.