Udostępnij przez


data Pakiet

Zawiera moduły obsługujące reprezentację danych dla magazynu danych i zestawu danych w usłudze Azure Machine Learning.

Ten pakiet zawiera podstawowe funkcje pomocnicze Datastore i Dataset klasy w pakiecie core . Obiekty magazynu danych zawierają informacje o połączeniu z usługami usługi Azure Storage, do których można łatwo odwoływać się według nazwy bez konieczności bezpośredniej pracy z informacjami o połączeniu z kodem twardym w skryptach. Magazyn danych obsługuje wiele różnych usług reprezentowanych przez klasy w tym pakiecie, w tym AzureBlobDatastore, AzureFileDatastorei AzureDataLakeDatastore. Aby uzyskać pełną listę obsługiwanych usług magazynu, zobacz klasę Datastore .

Magazyn danych pełni rolę kontenera dla plików danych, ale możesz traktować zestaw danych jako odwołanie lub wskaźnik do określonych danych w magazynie danych. Obsługiwane są następujące typy zestawów danych:

  • TabularDataset reprezentuje dane w formacie tabelarycznym utworzonym przez analizowanie podanego pliku lub listy plików.

  • FileDataset odwołuje się do pojedynczych lub wielu plików w magazynach danych lub publicznych adresach URL.

Aby uzyskać więcej informacji, zobacz artykuł Dodawanie i rejestrowanie zestawów danych. Aby rozpocząć pracę z zestawami danych, zobacz https://aka.ms/tabulardataset-samplenotebook i https://aka.ms/filedataset-samplenotebook.

Moduły

abstract_dataset

Zawiera abstrakcyjną klasę bazową dla zestawów danych w usłudze Azure Machine Learning.

abstract_datastore

Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu z usługami Azure Storage.

azure_data_lake_datastore

Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu w usłudze Azure Data Lake Storage.

azure_my_sql_datastore

Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu w usłudze Azure Database for MySQL.

azure_postgre_sql_datastore

Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu w usłudze Azure Database for PostgreSQL.

azure_sql_database_datastore

Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu z bazą danych Azure SQL Database.

azure_storage_datastore

Zawiera funkcje magazynów danych, które zapisują informacje o połączeniu z usługami Azure Blob i Azure File Storage.

constants

Stałe używane w pakiecie azureml.data. Tylko do użytku wewnętrznego.

context_managers

Zawiera funkcje zarządzania kontekstem danych magazynów danych i zestawów danych. Tylko do użytku wewnętrznego.

data_reference

Zawiera funkcje definiujące sposób tworzenia odwołań do danych w magazynach danych.

datacache

Zawiera funkcje zarządzania magazynem danych i usługą Datacache w usłudze Azure Machine Learning.

datacache_client

Tylko do użytku wewnętrznego.

datacache_consumption_config

Zawiera funkcje konfiguracji użycia usługi DataCache.

datacache_singularity_settings

Zawiera obiekty wymagane do reprezentacji ustawień liczby pojedynczej usługi DataCache.

datapath

Zawiera funkcje tworzenia odwołań do danych w magazynach danych.

Ten moduł zawiera klasę DataPath , która reprezentuje lokalizację danych i DataPathComputeBinding klasę, która reprezentuje sposób udostępniania danych na docelowych obiektach obliczeniowych.

dataset_action_run

Zawiera funkcje, które zarządzają wykonywaniem akcji zestawu danych.

Ten moduł udostępnia wygodne metody tworzenia akcji zestawu danych i uzyskiwania wyników po zakończeniu.

dataset_consumption_config

Zawiera funkcje konfiguracji użycia zestawu danych.

dataset_definition

Zawiera funkcje zarządzania definicją zestawu danych i jego operacjami.

Uwaga

Ten moduł jest przestarzały. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

dataset_error_handling

Zawiera wyjątki dotyczące obsługi błędów zestawu danych w usłudze Azure Machine Learning.

dataset_factory

Zawiera funkcje tworzenia zestawów danych dla usługi Azure Machine Learning.

dataset_profile

Klasa do zbierania statystyk podsumowania danych generowanych przez przepływ danych.

Funkcje w tym module obejmują zbieranie informacji dotyczących tego, który przebieg wygenerował profil, niezależnie od tego, czy profil jest nieaktualny, czy nie.

dataset_profile_run

Zawiera konfigurację monitorowania profilu zestawu danych uruchomionego w usłudze Azure Machine Learning.

Funkcje w tym module obejmują obsługę i monitorowanie przebiegu profilu zestawu danych skojarzonego z obiektem eksperymentu i indywidualnym identyfikatorem przebiegu.

dataset_profile_run_config

Zawiera konfigurację do generowania podsumowania statystyk zestawów danych w usłudze Azure Machine Learning.

Funkcje w tym module obejmują metody przesyłania przebiegu profilu lokalnego lub zdalnego oraz wizualizowanie wyniku przebiegu przesłanego profilu.

dataset_snapshot

Zawiera funkcje zarządzania operacjami migawek zestawu danych.

Uwaga

Ten moduł jest przestarzały. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

dataset_type_definitions

Zawiera wartości wyliczenia używane z elementem Dataset.

datastore_client

Tylko do użytku wewnętrznego.

dbfs_datastore

Zawiera funkcje magazynów danych, które zapisują informacje o połączeniu z usługą Databricks File Sytem (DBFS).

file_dataset

Zawiera funkcje odwoływania się do pojedynczych lub wielu plików w magazynach danych lub publicznych adresach URL.

Aby uzyskać więcej informacji, zobacz artykuł Dodawanie i rejestrowanie zestawów danych. Aby rozpocząć pracę z zestawem danych plików, zobacz https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Zawiera podstawowe funkcje magazynów danych, które zapisują informacje o połączeniu w klastrze HDFS.

output_dataset_config

Zawiera konfiguracje określające sposób przekazywania i podwyższenia poziomu danych wyjściowych zadania do zestawu danych.

Aby uzyskać więcej informacji, zobacz artykuł dotyczący sposobu określania danych wyjściowych.

sql_data_reference

Zawiera funkcje tworzenia odwołań do danych w magazynach danych, które zapisują informacje o połączeniu z bazami danych SQL.

stored_procedure_parameter

Zawiera funkcje tworzenia parametru do przekazania do procedury składowanej SQL.

tabular_dataset

Zawiera funkcje reprezentowania danych w formacie tabelarycznym przez analizowanie podanego pliku lub listy plików.

Aby uzyskać więcej informacji, zobacz artykuł Dodawanie i rejestrowanie zestawów danych. Aby rozpocząć pracę z tabelarycznym zestawem danych, zobacz https://aka.ms/tabulardataset-samplenotebook.

Klasy

DataType

Konfiguruje typy danych kolumn dla zestawu danych utworzonego w usłudze Azure Machine Learning.

Metody DataType są używane w TabularDatasetFactory metodach klasy from_* , które są używane do tworzenia nowych obiektów TabularDataset.

DatacacheStore

Uwaga

Jest to klasa eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry.

Reprezentuje abstrakcję magazynu na koncie magazynu usługi Azure Machine Learning.

Magazyny danych są dołączone do obszarów roboczych i są używane do przechowywania informacji związanych z bazowym rozwiązaniem datacache. Obecnie obsługiwane jest tylko partycjonowane rozwiązanie obiektów blob. Magazyny danych definiują różne magazyny danych obiektów blob, które mogą być używane do buforowania.

Ta klasa służy do wykonywania operacji zarządzania, w tym rejestrowania, wyświetlania listy, pobierania i aktualizowania magazynów danych. Magazyny danych dla każdej usługi są tworzone przy register* użyciu metod tej klasy.

Pobierz magazyn danych według nazwy. To wywołanie spowoduje żądanie do usługi datacache.

FileDataset

Reprezentuje kolekcję odwołań do plików w magazynach danych lub publicznych adresach URL do użycia w usłudze Azure Machine Learning.

Zestaw fileDataset definiuje serię niezmienianych, niezmiennych operacji ładowania danych ze źródła danych do strumieni plików. Dane nie są ładowane ze źródła do momentu, gdy zostanie wyświetlony monit o dostarczenie danych.

Zestaw FileDataset jest tworzony przy użyciu from_files metody klasy FileDatasetFactory.

Aby uzyskać więcej informacji, zobacz artykuł Dodawanie i rejestrowanie zestawów danych. Aby rozpocząć pracę z zestawem danych plików, zobacz https://aka.ms/filedataset-samplenotebook.

Zainicjuj obiekt FileDataset.

Ten konstruktor nie powinien być wywoływany bezpośrednio. Zestaw danych ma zostać utworzony przy użyciu FileDatasetFactory klasy .

HDFSOutputDatasetConfig

Przedstawienie sposobu wyprowadzania danych wyjściowych do ścieżki systemu plików HDFS i podwyższenia poziomu jako elementu FileDataset.

Zainicjuj plik HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Uwaga

Jest to klasa eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry.

Przedstawienie sposobu łączenia danych wyjściowych przebiegu i podwyższenia poziomu jako elementu FileDataset.

Element LinkFileOutputDatasetConfig umożliwia łączenie zestawu danych pliku jako wyjściowego zestawu danych


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Zainicjuj element LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Uwaga

Jest to klasa eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry.

Reprezentują sposób łączenia danych wyjściowych przebiegu i podwyższenia poziomu jako tabelarycznego zestawu danych.

LinkTabularOutputDatasetConfig umożliwia łączenie pliku tabelarycznego jako wyjściowego zestawu danych


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Zainicjuj element LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Przedstawia sposób kopiowania danych wyjściowych przebiegu i podwyższenia poziomu jako elementu FileDataset.

Plik OutputFileDatasetConfig umożliwia określenie sposobu przekazywania określonej ścieżki lokalnej na docelowym obiekcie obliczeniowym do określonego miejsca docelowego. Jeśli do konstruktora nie zostaną przekazane żadne argumenty, automatycznie wygenerujemy nazwę, miejsce docelowe i ścieżkę lokalną.

Przykład braku przekazywania żadnych argumentów:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Przykład tworzenia danych wyjściowych następnie podwyższania poziomu danych wyjściowych do tabelarycznego zestawu danych i zarejestrowania go przy użyciu nazwy foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Zainicjuj element OutputFileDatasetConfig.

Plik OutputFileDatasetConfig umożliwia określenie sposobu przekazywania określonej ścieżki lokalnej na docelowym obiekcie obliczeniowym do określonego miejsca docelowego. Jeśli do konstruktora nie zostaną przekazane żadne argumenty, automatycznie wygenerujemy nazwę, miejsce docelowe i ścieżkę lokalną.

Przykład braku przekazywania żadnych argumentów:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Przykład tworzenia danych wyjściowych następnie podwyższania poziomu danych wyjściowych do tabelarycznego zestawu danych i zarejestrowania go przy użyciu nazwy foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Reprezentuje tabelaryczny zestaw danych do użycia w usłudze Azure Machine Learning.

Tabelaryczny zestaw danych definiuje serię niezmienianych operacji obliczanych w celu załadowania danych ze źródła danych do reprezentacji tabelarycznej. Dane nie są ładowane ze źródła do momentu, gdy zostanie wyświetlony monit o dostarczenie danych.

Tabelaryczny zestaw danych jest tworzony przy użyciu metod, takich jak from_delimited_files z TabularDatasetFactory klasy .

Aby uzyskać więcej informacji, zobacz artykuł Dodawanie i rejestrowanie zestawów danych. Aby rozpocząć pracę z tabelarycznym zestawem danych, zobacz https://aka.ms/tabulardataset-samplenotebook.

Zainicjuj obiekt TabularDataset.

Ten konstruktor nie powinien być wywoływany bezpośrednio. Zestaw danych ma zostać utworzony przy użyciu TabularDatasetFactory klasy .