DatasetSnapshot Klasa
Zarządza migawkami zestawu danych za pomocą operacji, aby uzyskać przystawkę, zwrócić jej stan i przekonwertować ją na ramkę danych.
Uwaga
Ta klasa jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.
Obiekt DataSnapshot jest zwracany z create_snapshot metody Dataset klasy .
Migawka zestawu danych to kombinacja profilu i opcjonalnej zmaterializowanej kopii danych.
Aby dowiedzieć się więcej na temat migawek zestawu danych, przejdź do strony https://aka.ms/azureml/howto/createsnapshots
Konstruktor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parametry
| Nazwa | Opis |
|---|---|
|
workspace
Wymagane
|
<xref:azureml.core.Workspace.>
Obszar roboczy, w który jest zarejestrowany zestaw danych. |
|
snapshot_name
Wymagane
|
Nazwa migawki zestawu danych. |
|
dataset_id
Wymagane
|
Identyfikator zestawu danych. |
|
definition_version
Wymagane
|
Wersja definicji zestawu danych. |
|
time_stamp
Wymagane
|
Czas tworzenia migawki. |
|
profile_action_id
Wymagane
|
Identyfikator akcji profilu migawki. |
|
datastore_name
Wymagane
|
Nazwa magazynu danych migawek. |
|
relative_path
Wymagane
|
Ścieżka względna do danych migawki. |
|
dataset_name
Wymagane
|
Nazwa zestawu danych. |
Metody
| compare_profiles |
Porównaj bieżący profil zestawu danych z profilem rhs_dataset. Jeśli profile nie istnieją, ta metoda zgłosi wyjątek. |
| get |
Pobierz migawkę zestawu danych według nazwy migawki. |
| get_all |
Pobierz wszystkie migawki danego zestawu danych. |
| get_profile |
Pobierz profil migawki zestawu danych. |
| get_status |
Pobierz stan tworzenia migawki zestawu danych. |
| is_data_snapshot_available |
Sprawdź, czy zmaterializowana kopia migawki jest dostępna. |
| to_pandas_dataframe |
Utwórz ramkę danych biblioteki Pandas, ładując dane zapisane za pomocą migawki. |
| to_spark_dataframe |
Utwórz ramkę danych platformy Spark, ładując dane zapisane za pomocą migawki. |
| wait_for_completion |
Poczekaj na ukończenie generowania zestawu danychSnapshot. |
compare_profiles
Porównaj bieżący profil zestawu danych z profilem rhs_dataset.
Jeśli profile nie istnieją, ta metoda zgłosi wyjątek.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parametry
| Nazwa | Opis |
|---|---|
|
rhs_dataset_snapshot
Wymagane
|
Migawka zestawu danych do porównania. |
|
include_columns
|
Lista nazw kolumn, które mają być uwzględnione w porównaniu. Domyślna wartość: None
|
|
exclude_columns
|
Lista nazw kolumn, które mają być wykluczone w porównaniu. Domyślna wartość: None
|
|
histogram_compare_method
|
Wyliczenie opisujące metodę porównania, na przykład: WASSERSTEIN lub ENERGY. Domyślna wartość: HistogramCompareMethod.WASSERSTEIN
|
Zwraca
| Typ | Opis |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Różnica między profilami. |
get
Pobierz migawkę zestawu danych według nazwy migawki.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parametry
| Nazwa | Opis |
|---|---|
|
workspace
Wymagane
|
Obszar roboczy, w który jest zarejestrowany zestaw danych. |
|
snapshot_name
Wymagane
|
Nazwa migawki zestawu danych. |
|
dataset_name
Wymagane
|
Nazwa zestawu danych. |
|
dataset_id
Wymagane
|
Identyfikator zestawu danych. |
Zwraca
| Typ | Opis |
|---|---|
|
Obiekt DatasetSnapshot. |
get_all
Pobierz wszystkie migawki danego zestawu danych.
static get_all(workspace, dataset_name)
Parametry
| Nazwa | Opis |
|---|---|
|
workspace
Wymagane
|
Obszar roboczy, w który jest zarejestrowany zestaw danych. |
|
dataset_name
Wymagane
|
Nazwa zestawu danych. |
Zwraca
| Typ | Opis |
|---|---|
|
Lista migawek zestawu danych |
get_profile
Pobierz profil migawki zestawu danych.
get_profile()
Zwraca
| Typ | Opis |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
Plik DataProfile migawki zestawu danych |
get_status
Pobierz stan tworzenia migawki zestawu danych.
get_status()
Zwraca
| Typ | Opis |
|---|---|
|
Stan migawki zestawu danych. |
is_data_snapshot_available
Sprawdź, czy zmaterializowana kopia migawki jest dostępna.
is_data_snapshot_available()
Zwraca
| Typ | Opis |
|---|---|
|
Wartość True, jeśli migawka danych jest dostępna. |
to_pandas_dataframe
Utwórz ramkę danych biblioteki Pandas, ładując dane zapisane za pomocą migawki.
to_pandas_dataframe()
Zwraca
| Typ | Opis |
|---|---|
|
Ramka danych biblioteki Pandas. |
Uwagi
Ramka danych Biblioteki Pandas jest w pełni zmaterializowana w pamięci. Jeśli migawka została utworzona za pomocą create_data_snapshot=Falsepolecenia , zostanie zgłoszony wyjątek. Aby sprawdzić, czy migawka zawiera dane, użyj funkcji is_data_snapshot_available.
to_spark_dataframe
Utwórz ramkę danych platformy Spark, ładując dane zapisane za pomocą migawki.
to_spark_dataframe()
Zwraca
| Typ | Opis |
|---|---|
|
Ramka danych platformy Spark. |
Uwagi
Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są obliczane z opóźnieniem. Jeśli migawka została utworzona za pomocą create_data_snapshot=Falsepolecenia , podczas próby uzyskania dostępu do danych zostanie zgłoszony wyjątek. Aby sprawdzić, czy migawka zawiera dane, użyj polecenia is_data_snapshot_available.
wait_for_completion
Poczekaj na ukończenie generowania zestawu danychSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Parametry
| Nazwa | Opis |
|---|---|
|
show_output
|
Wskazuje, czy metoda wyświetli dane wyjściowe. Domyślna wartość: True
|
|
status_update_frequency
|
Częstotliwość aktualizacji stanu uruchomienia akcji w sekundach. Domyślna wartość: 10
|
Atrybuty
dataset_id
name
workspace
Pobierz obszar roboczy usługi Azure Machine Learning, w którym zarejestrowano zestaw danych.
Zwraca
| Typ | Opis |
|---|---|
|
Obszar roboczy, w którym zarejestrowano zestaw danych. |