DatasetSnapshot Classe
Gerencia instantâneos de conjunto de dados com operações para obter um snapsot, retornar seu status e convertê-lo em um dataframe.
Observação
Essa classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
Um objeto DataSnapshot é retornado do create_snapshot método da Dataset classe.
O instantâneo do conjunto de dados é uma combinação de Perfil e uma cópia materializada opcional dos dados.
Para saber mais sobre instantâneos de conjunto de dados, acesse https://aka.ms/azureml/howto/createsnapshots
Construtor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parâmetros
| Nome | Description |
|---|---|
|
workspace
Obrigatório
|
<xref:azureml.core.Workspace.>
O workspace no qual o conjunto de dados está registrado. |
|
snapshot_name
Obrigatório
|
O nome do instantâneo do conjunto de dados. |
|
dataset_id
Obrigatório
|
O identificador do conjunto de dados. |
|
definition_version
Obrigatório
|
A versão de definição do conjunto de dados. |
|
time_stamp
Obrigatório
|
A hora de criação do instantâneo. |
|
profile_action_id
Obrigatório
|
A ID da ação do perfil de instantâneo. |
|
datastore_name
Obrigatório
|
O nome do armazenamento de dados de instantâneo. |
|
relative_path
Obrigatório
|
O caminho relativo para os dados do instantâneo. |
|
dataset_name
Obrigatório
|
O nome do conjunto de dados. |
Métodos
| compare_profiles |
Compare o perfil do conjunto de dados atual com rhs_dataset perfil. Se os perfis não existirem, esse método gerará uma exceção. |
| get |
Obtenha o instantâneo do conjunto de dados pelo nome do instantâneo. |
| get_all |
Obtenha todos os instantâneos do conjunto de dados especificado. |
| get_profile |
Obtenha o perfil do instantâneo do conjunto de dados. |
| get_status |
Obtenha o status de criação do instantâneo do conjunto de dados. |
| is_data_snapshot_available |
Verifique se a cópia materializada do instantâneo está disponível. |
| to_pandas_dataframe |
Crie um DataFrame do Pandas carregando os dados salvos com o instantâneo. |
| to_spark_dataframe |
Crie um DataFrame do Spark carregando os dados salvos com o instantâneo. |
| wait_for_completion |
Aguarde a conclusão do generaton DatasetSnapshot. |
compare_profiles
Compare o perfil do conjunto de dados atual com rhs_dataset perfil.
Se os perfis não existirem, esse método gerará uma exceção.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parâmetros
| Nome | Description |
|---|---|
|
rhs_dataset_snapshot
Obrigatório
|
O instantâneo do conjunto de dados com o qual comparar. |
|
include_columns
|
Uma lista de nomes de coluna a serem incluídos na comparação. Valor padrão: None
|
|
exclude_columns
|
Uma lista de nomes de coluna a serem excluídos na comparação. Valor padrão: None
|
|
histogram_compare_method
|
Uma enumeração que descreve o método de comparação, por exemplo: WASSERSTEIN ou ENERGY. Valor padrão: HistogramCompareMethod.WASSERSTEIN
|
Retornos
| Tipo | Description |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
A diferença entre os perfis. |
get
Obtenha o instantâneo do conjunto de dados pelo nome do instantâneo.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parâmetros
| Nome | Description |
|---|---|
|
workspace
Obrigatório
|
O workspace no qual o conjunto de dados está registrado. |
|
snapshot_name
Obrigatório
|
O nome do instantâneo do conjunto de dados. |
|
dataset_name
Obrigatório
|
O nome do conjunto de dados. |
|
dataset_id
Obrigatório
|
O identificador do conjunto de dados. |
Retornos
| Tipo | Description |
|---|---|
|
Um objeto DatasetSnapshot. |
get_all
Obtenha todos os instantâneos do conjunto de dados especificado.
static get_all(workspace, dataset_name)
Parâmetros
| Nome | Description |
|---|---|
|
workspace
Obrigatório
|
O workspace no qual o conjunto de dados está registrado. |
|
dataset_name
Obrigatório
|
O nome do conjunto de dados. |
Retornos
| Tipo | Description |
|---|---|
|
Uma lista de instantâneos do conjunto de dados |
get_profile
Obtenha o perfil do instantâneo do conjunto de dados.
get_profile()
Retornos
| Tipo | Description |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
O DataProfile do instantâneo do conjunto de dados |
get_status
Obtenha o status de criação do instantâneo do conjunto de dados.
get_status()
Retornos
| Tipo | Description |
|---|---|
|
O status do instantâneo do conjunto de dados. |
is_data_snapshot_available
Verifique se a cópia materializada do instantâneo está disponível.
is_data_snapshot_available()
Retornos
| Tipo | Description |
|---|---|
|
True se o instantâneo de dados estiver disponível. |
to_pandas_dataframe
Crie um DataFrame do Pandas carregando os dados salvos com o instantâneo.
to_pandas_dataframe()
Retornos
| Tipo | Description |
|---|---|
|
Um DataFrame do Pandas. |
Comentários
O DataFrame do Pandas é totalmente materializado na memória. Se o instantâneo tiver sido criado com create_data_snapshot=False, uma exceção será gerada. Para verificar se o instantâneo contém dados, use a função is_data_snapshot_available.
to_spark_dataframe
Crie um DataFrame do Spark carregando os dados salvos com o instantâneo.
to_spark_dataframe()
Retornos
| Tipo | Description |
|---|---|
|
Um DataFrame do Spark. |
Comentários
O Dataframe do Spark retornado é apenas um plano de execução e não contém dados, pois os Dataframes do Spark são avaliados lentamente. Se o instantâneo foi criado com create_data_snapshot=False, uma exceção é gerada quando você tenta acessar os dados. Para verificar se o instantâneo contém dados, use is_data_snapshot_available.
wait_for_completion
Aguarde a conclusão do generaton DatasetSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Parâmetros
| Nome | Description |
|---|---|
|
show_output
|
Indica se o método imprimirá a saída. Valor padrão: True
|
|
status_update_frequency
|
A frequência de atualização de status de execução da ação em segundos. Valor padrão: 10
|
Atributos
dataset_id
Obtenha o identificador do conjunto de dados.
Retornos
| Tipo | Description |
|---|---|
|
A ID do conjunto de dados. |
name
Obtenha o nome do instantâneo do conjunto de dados.
Retornos
| Tipo | Description |
|---|---|
|
O nome do instantâneo do conjunto de dados. |
workspace
Obtenha o workspace do Azure Machine Learning no qual o conjunto de dados está registrado.
Retornos
| Tipo | Description |
|---|---|
|
O workspace em que o conjunto de dados está registrado. |