Freigeben über


data Paket

Enthält Module zur Unterstützung der Datendarstellung für Datenspeicher und Datasets in Azure Machine Learning.

Dieses Paket enthält Kernfunktionen, die unterstützung Datastore und Dataset Klassen im core Paket unterstützen. Datenspeicherobjekte enthalten Verbindungsinformationen zu Azure-Speicherdiensten, auf die einfach nach Namen verwiesen werden kann, ohne dass Sie direkt mit oder hartcodierten Verbindungsinformationen in Skripts arbeiten müssen. Der Datenspeicher unterstützt eine Reihe verschiedener Dienste, die durch Klassen in diesem Paket dargestellt werden, einschließlich AzureBlobDatastore, AzureFileDatastoreund AzureDataLakeDatastore. Eine vollständige Liste der unterstützten Speicherdienste finden Sie in der Datastore Klasse.

Während ein Datenspeicher als Container für Ihre Datendateien fungiert, können Sie sich ein Dataset als Verweis oder Zeiger auf bestimmte Daten vorstellen, die sich in Ihrem Datenspeicher befinden. Die folgenden Datasetstypen werden unterstützt:

  • TabularDataset stellt Daten in einem tabellarischen Format dar, das durch Analysieren der bereitgestellten Datei oder Liste von Dateien erstellt wird.

  • FileDataset verweist auf einzelne oder mehrere Dateien in Ihren Datenspeichern oder öffentlichen URLs.

Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zum Einstieg in die Arbeit mit einem Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook und https://aka.ms/filedataset-samplenotebook.

Module

abstract_dataset

Enthält die abstrakte Basisklasse für Datasets in Azure Machine Learning.

abstract_datastore

Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in Azure-Speicherdiensten speichern.

azure_data_lake_datastore

Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in Azure Data Lake Storage speichern.

azure_my_sql_datastore

Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in der Azure-Datenbank für MySQL speichern.

azure_postgre_sql_datastore

Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in azure-Datenbank für PostgreSQL speichern.

azure_sql_database_datastore

Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in der Azure SQL-Datenbank speichern.

azure_storage_datastore

Enthält Funktionen für Datenspeicher, die Verbindungsinformationen in Azure Blob und Azure File Storage speichern.

constants

Konstanten, die im azureml.data-Paket verwendet werden. Nur zur internen Verwendung.

context_managers

Enthält Funktionen zum Verwalten des Datenkontexts von Datenspeichern und Datasets. Nur zur internen Verwendung.

data_reference

Enthält Funktionen, die definieren, wie Verweise auf Daten in Datenspeichern erstellt werden.

datacache

Enthält Funktionen zum Verwalten von DatacacheStore und Datacache in Azure Machine Learning.

datacache_client

Nur zur internen Verwendung.

datacache_consumption_config

Enthält Funktionen für die Konfiguration der DataCache-Verwendung.

datacache_singularity_settings

Enthält Objekte, die für die Darstellung der Datacache-Singularitätseinstellungen erforderlich sind.

datapath

Enthält Funktionen zum Erstellen von Verweisen auf Daten in Datenspeichern.

Dieses Modul enthält die DataPath Klasse, die den Speicherort von Daten und die DataPathComputeBinding Klasse darstellt, die angibt, wie die Daten für die Computeziele verfügbar gemacht werden.

dataset_action_run

Enthält Funktionen, die die Ausführung von Datasetaktionen verwalten.

Dieses Modul bietet Komfortmethoden zum Erstellen von Datasetaktionen und zum Abrufen ihrer Ergebnisse nach Abschluss.

dataset_consumption_config

Enthält Funktionen für die Konfiguration der Datasetnutzung.

dataset_definition

Enthält Funktionen zum Verwalten der Datasetdefinition und der zugehörigen Vorgänge.

Hinweis

Dieses Modul ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

dataset_error_handling

Enthält Ausnahmen für die Fehlerbehandlung im Dataset in Azure Machine Learning.

dataset_factory

Enthält Funktionen zum Erstellen von Datasets für Azure Machine Learning.

dataset_profile

Klasse zum Sammeln von Zusammenfassungsstatistiken zu den daten, die von einem Dataflow erstellt wurden.

Die Funktionalität in diesem Modul umfasst das Sammeln von Informationen darüber, welche Ausführung das Profil produziert hat, unabhängig davon, ob das Profil veraltet ist oder nicht.

dataset_profile_run

Enthält die Konfiguration für die Überwachung des Datasetprofils, das in Azure Machine Learning ausgeführt wird.

Die Funktionalität in diesem Modul umfasst die Verarbeitung und Überwachung der Datensatzprofilausführung, die einem Experimentobjekt und einer einzelnen Run-ID zugeordnet ist.

dataset_profile_run_config

Enthält die Konfiguration zum Generieren einer Statistikzusammenfassung von Datasets in Azure Machine Learning.

Die Funktionalität in diesem Modul umfasst Methoden zum Übermitteln des lokalen oder Remoteprofillaufs und zur Visualisierung des Ergebnisses der übermittelten Profilausführung.

dataset_snapshot

Enthält Funktionen zum Verwalten von Snapshotvorgängen des Datasets.

Hinweis

Dieses Modul ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

dataset_type_definitions

Enthält Enumerationswerte, die mit Dataset.

datastore_client

Nur zur internen Verwendung.

dbfs_datastore

Enthält Funktionen für Datenspeicher, die Verbindungsinformationen in Databricks File Sytem (DBFS) speichern.

file_dataset

Enthält Funktionen zum Verweisen auf einzelne oder mehrere Dateien in Datenspeichern oder öffentlichen URLs.

Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem Dateidatensatz finden Sie unter https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in einem HDFS-Cluster speichern.

output_dataset_config

Enthält Konfigurationen, die angeben, wie Ausgaben für einen Auftrag in ein Dataset hochgeladen und heraufgestuft werden sollen.

Weitere Informationen finden Sie im Artikel zum Angeben von Ausgaben.

sql_data_reference

Enthält Funktionen zum Erstellen von Verweisen auf Daten in Datenspeichern, die Verbindungsinformationen in SQL-Datenbanken speichern.

stored_procedure_parameter

Enthält Funktionen zum Erstellen eines Parameters zum Übergeben an eine gespeicherte SQL-Prozedur.

tabular_dataset

Enthält Funktionen zum Darstellen von Daten in einem tabellarischen Format durch Analysieren der bereitgestellten Datei oder Liste von Dateien.

Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook.

Klassen

DataType

Konfiguriert Spaltendatentypen für ein Dataset, das in Azure Machine Learning erstellt wurde.

DataType-Methoden werden in den TabularDatasetFactory Klassenmethoden from_* verwendet, die zum Erstellen neuer TabularDataset-Objekte verwendet werden.

DatacacheStore

Hinweis

Dies ist eine experimentelle Klasse und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Stellt eine Speicherstraktion über ein Azure Machine Learning-Speicherkonto dar.

DatacacheStores werden an Arbeitsbereiche angefügt und zum Speichern von Informationen im Zusammenhang mit der zugrunde liegenden DataCache-Lösung verwendet. Derzeit wird nur partitionierte BLOB-Lösung unterstützt. Datacachestores definieren verschiedene Blob-Datenspeicher, die zum Zwischenspeichern verwendet werden können.

Verwenden Sie diese Klasse zum Ausführen von Verwaltungsvorgängen, einschließlich Register, Liste, Abrufen und Aktualisieren von Datenspeichern. DatacacheStores für jeden Dienst werden mit den register* Methoden dieser Klasse erstellt.

Rufen Sie einen Datacachestore anhand des Namens ab. Dieser Aufruf sendet eine Anforderung an den Datacache-Dienst.

FileDataset

Stellt eine Auflistung von Dateiverweise in Datenspeichern oder öffentlichen URLs dar, die in Azure Machine Learning verwendet werden sollen.

Ein FileDataset definiert eine Reihe von lazily ausgewerteten, unveränderlichen Vorgängen zum Laden von Daten aus der Datenquelle in Dateistreams. Daten werden erst aus der Quelle geladen, wenn FileDataset zur Übermittlung von Daten aufgefordert wird.

Ein FileDataset wird mithilfe der from_files Methode der FileDatasetFactory-Klasse erstellt.

Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem Dateidatensatz finden Sie unter https://aka.ms/filedataset-samplenotebook.

Initialisieren Sie das FileDataset-Objekt.

Dieser Konstruktor soll nicht direkt aufgerufen werden. Das Dataset soll mithilfe der FileDatasetFactory Klasse erstellt werden.

HDFSOutputDatasetConfig

Stellt dar, wie sie in einen HDFS-Pfad ausgegeben und als FileDataset höhergestuft werden.

Initialisieren Sie eine HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Hinweis

Dies ist eine experimentelle Klasse und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Stellt dar, wie die Ausgabe einer Ausführung verknüpft und als FileDataset heraufgestuft wird.

Mit linkFileOutputDatasetConfig können Sie ein Dateidatenset als Ausgabedatensatz verknüpfen.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initialisieren sie eine LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Hinweis

Dies ist eine experimentelle Klasse und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Stellt dar, wie die Ausgabe einer Ausführung verknüpft und als TabularDataset höhergestuft wird.

Mit der LinkTabularOutputDatasetConfig können Sie eine Datei tabellarisch als Ausgabedatensatz verknüpfen.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initialisieren Sie eine LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Stellt dar, wie die Ausgabe einer Ausführung kopiert und als FileDataset höhergestuft wird.

Mit Der OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad für das Computeziel in das angegebene Ziel hochgeladen werden soll. Wenn keine Argumente an den Konstruktor übergeben werden, generieren wir automatisch einen Namen, ein Ziel und einen lokalen Pfad.

Beispiel für das Übergeben von Argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ein Beispiel für die Erstellung einer Ausgabe, die dann die Ausgabe in ein tabellarisches Dataset angibt und sie mit dem Namen foo registriert:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initialisieren sie eine OutputFileDatasetConfig.

Mit Der OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad für das Computeziel in das angegebene Ziel hochgeladen werden soll. Wenn keine Argumente an den Konstruktor übergeben werden, generieren wir automatisch einen Namen, ein Ziel und einen lokalen Pfad.

Beispiel für das Übergeben von Argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ein Beispiel für die Erstellung einer Ausgabe, die dann die Ausgabe in ein tabellarisches Dataset angibt und sie mit dem Namen foo registriert:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Stellt ein tabellarisches Dataset dar, das in Azure Machine Learning verwendet werden soll.

Ein TabularDataset definiert eine Reihe von lazily ausgewerteten, unveränderlichen Vorgängen, um Daten aus der Datenquelle in tabellarische Darstellung zu laden. Daten werden erst aus der Quelle geladen, wenn TabularDataset zur Übermittlung von Daten aufgefordert wird.

TabularDataset wird mithilfe von Methoden wie from_delimited_files aus der TabularDatasetFactory Klasse erstellt.

Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook.

Initialisieren eines TabularDataset-Objekts.

Dieser Konstruktor soll nicht direkt aufgerufen werden. Das Dataset soll mithilfe der TabularDatasetFactory Klasse erstellt werden.