Partilhar via


DatasetSnapshot Classe

Gerencia instantâneos de conjunto de dados com operações para obter um snapsot, retornar seu status e convertê-lo em um dataframe.

Observação

Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um objeto DataSnapshot é retornado do create_snapshot método da Dataset classe.

O instantâneo do conjunto de dados é uma combinação de Perfil e uma cópia materializada opcional dos dados.

Para saber mais sobre Instantâneos de Conjunto de Dados, vá para https://aka.ms/azureml/howto/createsnapshots

Construtor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parâmetros

Name Description
workspace
Necessário
<xref:azureml.core.Workspace.>

O espaço de trabalho no qual o Dataset está registrado.

snapshot_name
Necessário
str

O nome do instantâneo do conjunto de dados.

dataset_id
Necessário
str

O identificador do conjunto de dados.

definition_version
Necessário
str

A versão de definição do Dataset.

time_stamp
Necessário

O tempo de criação do snapshot.

profile_action_id
Necessário
str

O ID da ação do perfil de instantâneo.

datastore_name
Necessário
str

O nome do armazenamento de dados de instantâneo.

relative_path
Necessário
str

O caminho relativo para os dados de instantâneo.

dataset_name
Necessário
str

O nome do conjunto de dados.

Métodos

compare_profiles

Compare o perfil atual do conjunto de dados com rhs_dataset perfil.

Se os perfis não existirem, esse método gerará uma exceção.

get

Obtenha o instantâneo do conjunto de dados pelo nome do instantâneo.

get_all

Obtenha todos os instantâneos do conjunto de dados fornecido.

get_profile

Obtenha o perfil do instantâneo do conjunto de dados.

get_status

Obtenha o status de criação do instantâneo do conjunto de dados.

is_data_snapshot_available

Verifique se a cópia materializada do snapshot está disponível.

to_pandas_dataframe

Crie um Pandas DataFrame carregando os dados salvos com o snapshot.

to_spark_dataframe

Crie um DataFrame do Spark carregando os dados salvos com o instantâneo.

wait_for_completion

Aguarde a conclusão do DatasetSnapshot generaton.

compare_profiles

Compare o perfil atual do conjunto de dados com rhs_dataset perfil.

Se os perfis não existirem, esse método gerará uma exceção.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parâmetros

Name Description
rhs_dataset_snapshot
Necessário

O instantâneo do conjunto de dados para comparar.

include_columns

Uma lista de nomes de colunas a serem incluídos na comparação.

Default value: None
exclude_columns

Uma lista de nomes de colunas a serem excluídos na comparação.

Default value: None
histogram_compare_method

Um enum descrevendo o método de comparação, por exemplo: WASSERSTEIN ou ENERGY.

Default value: HistogramCompareMethod.WASSERSTEIN

Devoluções

Tipo Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

A diferença entre os perfis.

get

Obtenha o instantâneo do conjunto de dados pelo nome do instantâneo.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parâmetros

Name Description
workspace
Necessário

O espaço de trabalho no qual o Dataset está registrado.

snapshot_name
Necessário
str

O nome do instantâneo do conjunto de dados.

dataset_name
Necessário

O nome do conjunto de dados.

dataset_id
Necessário

O identificador do conjunto de dados.

Devoluções

Tipo Description

Um objeto DatasetSnapshot.

get_all

Obtenha todos os instantâneos do conjunto de dados fornecido.

static get_all(workspace, dataset_name)

Parâmetros

Name Description
workspace
Necessário

O espaço de trabalho no qual o Dataset está registrado.

dataset_name
Necessário

O nome do conjunto de dados.

Devoluções

Tipo Description

Uma lista de instantâneos do conjunto de dados

get_profile

Obtenha o perfil do instantâneo do conjunto de dados.

get_profile()

Devoluções

Tipo Description
<xref:azureml.dataprep.DataProfile>

O DataProfile do instantâneo do conjunto de dados

get_status

Obtenha o status de criação do instantâneo do conjunto de dados.

get_status()

Devoluções

Tipo Description
str

O status do instantâneo do conjunto de dados.

is_data_snapshot_available

Verifique se a cópia materializada do snapshot está disponível.

is_data_snapshot_available()

Devoluções

Tipo Description

True se o instantâneo de dados estiver disponível.

to_pandas_dataframe

Crie um Pandas DataFrame carregando os dados salvos com o snapshot.

to_pandas_dataframe()

Devoluções

Tipo Description

Um DataFrame Pandas.

Observações

O Pandas DataFrame é totalmente materializado na memória. Se o instantâneo foi criado com create_data_snapshot=False, então uma exceção é lançada. Para verificar se o instantâneo contém dados, use a função is_data_snapshot_available.

to_spark_dataframe

Crie um DataFrame do Spark carregando os dados salvos com o instantâneo.

to_spark_dataframe()

Devoluções

Tipo Description

Um DataFrame do Spark.

Observações

O Spark Dataframe retornado é apenas um plano de execução e não contém dados, pois os Spark Dataframes são avaliados preguiçosamente. Se o instantâneo tiver sido criado com create_data_snapshot=Falseo , uma exceção será lançada quando você tentar acessar os dados. Para verificar se o instantâneo contém dados, use is_data_snapshot_available.

wait_for_completion

Aguarde a conclusão do DatasetSnapshot generaton.

wait_for_completion(show_output=True, status_update_frequency=10)

Parâmetros

Name Description
show_output

Indica se o método imprimirá a saída.

Default value: True
status_update_frequency
int

A frequência de atualização do status de execução da ação em segundos.

Default value: 10

Atributos

dataset_id

Obtenha o identificador do conjunto de dados.

Devoluções

Tipo Description
str

O ID do conjunto de dados.

name

Obtenha o nome do instantâneo do conjunto de dados.

Devoluções

Tipo Description
str

O nome do instantâneo do conjunto de dados.

workspace

Obtenha o espaço de trabalho do Azure Machine Learning onde o Conjunto de Dados está registrado.

Devoluções

Tipo Description

O espaço de trabalho onde o Dataset está registrado.