DatasetSnapshot 클래스
스냅숏을 가져와 상태를 반환하고 데이터 프레임으로 변환하는 작업을 사용하여 데이터 세트 스냅샷을 관리합니다.
비고
이 클래스는 더 이상 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.
DataSnapshot 개체는 클래스의 create_snapshot 메서드에서 Dataset 반환됩니다.
데이터 세트 스냅샷은 프로필과 데이터의 구체화된 선택적 복사본의 조합입니다.
데이터 세트 스냅샷에 대해 자세히 알아보려면 https://aka.ms/azureml/howto/createsnapshots
생성자
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
매개 변수
| Name | Description |
|---|---|
|
workspace
필수
|
<xref:azureml.core.Workspace.>
데이터 세트가 등록된 작업 영역입니다. |
|
snapshot_name
필수
|
데이터 세트 스냅샷의 이름입니다. |
|
dataset_id
필수
|
데이터 세트의 식별자입니다. |
|
definition_version
필수
|
데이터 세트의 정의 버전입니다. |
|
time_stamp
필수
|
스냅샷 생성 시간입니다. |
|
profile_action_id
필수
|
스냅샷 프로필 작업 ID입니다. |
|
datastore_name
필수
|
스냅샷 데이터 저장소 이름입니다. |
|
relative_path
필수
|
스냅샷 데이터의 상대 경로입니다. |
|
dataset_name
필수
|
데이터 세트의 이름입니다. |
메서드
| compare_profiles |
현재 데이터 세트 프로필을 rhs_dataset 프로필과 비교합니다. 프로필이 없으면 이 메서드는 예외를 발생합니다. |
| get |
스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다. |
| get_all |
지정된 데이터 세트의 모든 스냅샷을 가져옵니다. |
| get_profile |
데이터 세트 스냅샷의 프로필을 가져옵니다. |
| get_status |
데이터 세트 스냅샷 만들기 상태를 가져옵니다. |
| is_data_snapshot_available |
스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다. |
| to_pandas_dataframe |
스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다. |
| to_spark_dataframe |
스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다. |
| wait_for_completion |
DatasetSnapshot 생성이 완료될 때까지 기다립니다. |
compare_profiles
현재 데이터 세트 프로필을 rhs_dataset 프로필과 비교합니다.
프로필이 없으면 이 메서드는 예외를 발생합니다.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
매개 변수
| Name | Description |
|---|---|
|
rhs_dataset_snapshot
필수
|
비교할 데이터 세트 스냅샷입니다. |
|
include_columns
|
비교에 포함할 열 이름 목록입니다. Default value: None
|
|
exclude_columns
|
비교에서 제외할 열 이름 목록입니다. Default value: None
|
|
histogram_compare_method
|
비교 방법을 설명하는 열거형입니다(예: WASSERSTEIN 또는 ENERGY). Default value: HistogramCompareMethod.WASSERSTEIN
|
반환
| 형식 | Description |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
프로필 간의 차이입니다. |
get
스냅샷 이름으로 데이터 세트의 스냅샷을 가져옵니다.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
매개 변수
| Name | Description |
|---|---|
|
workspace
필수
|
데이터 세트가 등록된 작업 영역입니다. |
|
snapshot_name
필수
|
데이터 세트 스냅샷의 이름입니다. |
|
dataset_name
필수
|
데이터 세트의 이름입니다. |
|
dataset_id
필수
|
데이터 세트의 식별자입니다. |
반환
| 형식 | Description |
|---|---|
|
DatasetSnapshot 개체입니다. |
get_all
지정된 데이터 세트의 모든 스냅샷을 가져옵니다.
static get_all(workspace, dataset_name)
매개 변수
| Name | Description |
|---|---|
|
workspace
필수
|
데이터 세트가 등록된 작업 영역입니다. |
|
dataset_name
필수
|
데이터 세트의 이름입니다. |
반환
| 형식 | Description |
|---|---|
|
데이터 세트 스냅샷 목록 |
get_profile
데이터 세트 스냅샷의 프로필을 가져옵니다.
get_profile()
반환
| 형식 | Description |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
데이터 세트 스냅샷의 DataProfile |
get_status
is_data_snapshot_available
스냅샷의 구체화된 복사본을 사용할 수 있는지 확인합니다.
is_data_snapshot_available()
반환
| 형식 | Description |
|---|---|
|
True이면 데이터 스냅샷을 사용할 수 있습니다. |
to_pandas_dataframe
스냅샷과 함께 저장된 데이터를 로드하여 Pandas DataFrame을 만듭니다.
to_pandas_dataframe()
반환
| 형식 | Description |
|---|---|
|
Pandas DataFrame입니다. |
설명
Pandas DataFrame은 메모리에서 완전히 구체화됩니다. 스냅샷을 사용하여 create_data_snapshot=False만든 경우 예외가 throw됩니다. 스냅샷에 데이터가 포함되어 있는지 확인하려면 함수 is_data_snapshot_available를 사용합니다.
to_spark_dataframe
스냅샷과 함께 저장된 데이터를 로드하여 Spark DataFrame을 만듭니다.
to_spark_dataframe()
반환
| 형식 | Description |
|---|---|
|
Spark 데이터 프레임입니다. |
설명
반환된 Spark 데이터 프레임은 실행 계획일 뿐이며 Spark 데이터 프레임이 지연 평가되므로 실제로 데이터가 포함되지 않습니다. 스냅샷을 사용하여 만든 create_data_snapshot=False경우 데이터에 액세스하려고 할 때 예외가 throw됩니다. 스냅샷에 데이터가 is_data_snapshot_available포함되어 있는지 확인하려면 .