data Paket
Enthält Module zur Unterstützung der Datendarstellung für Datenspeicher und Datasets in Azure Machine Learning.
Dieses Paket enthält Kernfunktionen, die unterstützung Datastore und Dataset Klassen im core Paket unterstützen. Datenspeicherobjekte enthalten Verbindungsinformationen zu Azure-Speicherdiensten, auf die einfach nach Namen verwiesen werden kann, ohne dass Sie direkt mit oder hartcodierten Verbindungsinformationen in Skripts arbeiten müssen. Der Datenspeicher unterstützt eine Reihe verschiedener Dienste, die durch Klassen in diesem Paket dargestellt werden, einschließlich AzureBlobDatastore, AzureFileDatastoreund AzureDataLakeDatastore. Eine vollständige Liste der unterstützten Speicherdienste finden Sie in der Datastore Klasse.
Während ein Datenspeicher als Container für Ihre Datendateien fungiert, können Sie sich ein Dataset als Verweis oder Zeiger auf bestimmte Daten vorstellen, die sich in Ihrem Datenspeicher befinden. Die folgenden Datasetstypen werden unterstützt:
TabularDataset stellt Daten in einem tabellarischen Format dar, das durch Analysieren der bereitgestellten Datei oder Liste von Dateien erstellt wird.
FileDataset verweist auf einzelne oder mehrere Dateien in Ihren Datenspeichern oder öffentlichen URLs.
Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zum Einstieg in die Arbeit mit einem Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook und https://aka.ms/filedataset-samplenotebook.
Module
| abstract_dataset |
Enthält die abstrakte Basisklasse für Datasets in Azure Machine Learning. |
| abstract_datastore |
Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in Azure-Speicherdiensten speichern. |
| azure_data_lake_datastore |
Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in Azure Data Lake Storage speichern. |
| azure_my_sql_datastore |
Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in der Azure-Datenbank für MySQL speichern. |
| azure_postgre_sql_datastore |
Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in azure-Datenbank für PostgreSQL speichern. |
| azure_sql_database_datastore |
Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in der Azure SQL-Datenbank speichern. |
| azure_storage_datastore |
Enthält Funktionen für Datenspeicher, die Verbindungsinformationen in Azure Blob und Azure File Storage speichern. |
| constants |
Konstanten, die im azureml.data-Paket verwendet werden. Nur zur internen Verwendung. |
| context_managers |
Enthält Funktionen zum Verwalten des Datenkontexts von Datenspeichern und Datasets. Nur zur internen Verwendung. |
| data_reference |
Enthält Funktionen, die definieren, wie Verweise auf Daten in Datenspeichern erstellt werden. |
| datacache |
Enthält Funktionen zum Verwalten von DatacacheStore und Datacache in Azure Machine Learning. |
| datacache_client |
Nur zur internen Verwendung. |
| datacache_consumption_config |
Enthält Funktionen für die Konfiguration der DataCache-Verwendung. |
| datacache_singularity_settings |
Enthält Objekte, die für die Darstellung der Datacache-Singularitätseinstellungen erforderlich sind. |
| datapath |
Enthält Funktionen zum Erstellen von Verweisen auf Daten in Datenspeichern. Dieses Modul enthält die DataPath Klasse, die den Speicherort von Daten und die DataPathComputeBinding Klasse darstellt, die angibt, wie die Daten für die Computeziele verfügbar gemacht werden. |
| dataset_action_run |
Enthält Funktionen, die die Ausführung von Datasetaktionen verwalten. Dieses Modul bietet Komfortmethoden zum Erstellen von Datasetaktionen und zum Abrufen ihrer Ergebnisse nach Abschluss. |
| dataset_consumption_config |
Enthält Funktionen für die Konfiguration der Datasetnutzung. |
| dataset_definition |
Enthält Funktionen zum Verwalten der Datasetdefinition und der zugehörigen Vorgänge. Hinweis Dieses Modul ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
| dataset_error_handling |
Enthält Ausnahmen für die Fehlerbehandlung im Dataset in Azure Machine Learning. |
| dataset_factory |
Enthält Funktionen zum Erstellen von Datasets für Azure Machine Learning. |
| dataset_profile |
Klasse zum Sammeln von Zusammenfassungsstatistiken zu den daten, die von einem Dataflow erstellt wurden. Die Funktionalität in diesem Modul umfasst das Sammeln von Informationen darüber, welche Ausführung das Profil produziert hat, unabhängig davon, ob das Profil veraltet ist oder nicht. |
| dataset_profile_run |
Enthält die Konfiguration für die Überwachung des Datasetprofils, das in Azure Machine Learning ausgeführt wird. Die Funktionalität in diesem Modul umfasst die Verarbeitung und Überwachung der Datensatzprofilausführung, die einem Experimentobjekt und einer einzelnen Run-ID zugeordnet ist. |
| dataset_profile_run_config |
Enthält die Konfiguration zum Generieren einer Statistikzusammenfassung von Datasets in Azure Machine Learning. Die Funktionalität in diesem Modul umfasst Methoden zum Übermitteln des lokalen oder Remoteprofillaufs und zur Visualisierung des Ergebnisses der übermittelten Profilausführung. |
| dataset_snapshot |
Enthält Funktionen zum Verwalten von Snapshotvorgängen des Datasets. Hinweis Dieses Modul ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
| dataset_type_definitions |
Enthält Enumerationswerte, die mit Dataset. |
| datastore_client |
Nur zur internen Verwendung. |
| dbfs_datastore |
Enthält Funktionen für Datenspeicher, die Verbindungsinformationen in Databricks File Sytem (DBFS) speichern. |
| file_dataset |
Enthält Funktionen zum Verweisen auf einzelne oder mehrere Dateien in Datenspeichern oder öffentlichen URLs. Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem Dateidatensatz finden Sie unter https://aka.ms/filedataset-samplenotebook. |
| hdfs_datastore |
Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in einem HDFS-Cluster speichern. |
| output_dataset_config |
Enthält Konfigurationen, die angeben, wie Ausgaben für einen Auftrag in ein Dataset hochgeladen und heraufgestuft werden sollen. Weitere Informationen finden Sie im Artikel zum Angeben von Ausgaben. |
| sql_data_reference |
Enthält Funktionen zum Erstellen von Verweisen auf Daten in Datenspeichern, die Verbindungsinformationen in SQL-Datenbanken speichern. |
| stored_procedure_parameter |
Enthält Funktionen zum Erstellen eines Parameters zum Übergeben an eine gespeicherte SQL-Prozedur. |
| tabular_dataset |
Enthält Funktionen zum Darstellen von Daten in einem tabellarischen Format durch Analysieren der bereitgestellten Datei oder Liste von Dateien. Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook. |
Klassen
| DataType |
Konfiguriert Spaltendatentypen für ein Dataset, das in Azure Machine Learning erstellt wurde. DataType-Methoden werden in den TabularDatasetFactory Klassenmethoden |
| DatacacheStore |
Hinweis Dies ist eine experimentelle Klasse und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Stellt eine Speicherstraktion über ein Azure Machine Learning-Speicherkonto dar. DatacacheStores werden an Arbeitsbereiche angefügt und zum Speichern von Informationen im Zusammenhang mit der zugrunde liegenden DataCache-Lösung verwendet. Derzeit wird nur partitionierte BLOB-Lösung unterstützt. Datacachestores definieren verschiedene Blob-Datenspeicher, die zum Zwischenspeichern verwendet werden können. Verwenden Sie diese Klasse zum Ausführen von Verwaltungsvorgängen, einschließlich Register, Liste, Abrufen und Aktualisieren von Datenspeichern.
DatacacheStores für jeden Dienst werden mit den Rufen Sie einen Datacachestore anhand des Namens ab. Dieser Aufruf sendet eine Anforderung an den Datacache-Dienst. |
| FileDataset |
Stellt eine Auflistung von Dateiverweise in Datenspeichern oder öffentlichen URLs dar, die in Azure Machine Learning verwendet werden sollen. Ein FileDataset definiert eine Reihe von lazily ausgewerteten, unveränderlichen Vorgängen zum Laden von Daten aus der Datenquelle in Dateistreams. Daten werden erst aus der Quelle geladen, wenn FileDataset zur Übermittlung von Daten aufgefordert wird. Ein FileDataset wird mithilfe der from_files Methode der FileDatasetFactory-Klasse erstellt. Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem Dateidatensatz finden Sie unter https://aka.ms/filedataset-samplenotebook. Initialisieren Sie das FileDataset-Objekt. Dieser Konstruktor soll nicht direkt aufgerufen werden. Das Dataset soll mithilfe der FileDatasetFactory Klasse erstellt werden. |
| HDFSOutputDatasetConfig |
Stellt dar, wie sie in einen HDFS-Pfad ausgegeben und als FileDataset höhergestuft werden. Initialisieren Sie eine HDFSOutputDatasetConfig. |
| LinkFileOutputDatasetConfig |
Hinweis Dies ist eine experimentelle Klasse und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Stellt dar, wie die Ausgabe einer Ausführung verknüpft und als FileDataset heraufgestuft wird. Mit linkFileOutputDatasetConfig können Sie ein Dateidatenset als Ausgabedatensatz verknüpfen.
Initialisieren sie eine LinkFileOutputDatasetConfig. |
| LinkTabularOutputDatasetConfig |
Hinweis Dies ist eine experimentelle Klasse und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Stellt dar, wie die Ausgabe einer Ausführung verknüpft und als TabularDataset höhergestuft wird. Mit der LinkTabularOutputDatasetConfig können Sie eine Datei tabellarisch als Ausgabedatensatz verknüpfen.
Initialisieren Sie eine LinkTabularOutputDatasetConfig. |
| OutputFileDatasetConfig |
Stellt dar, wie die Ausgabe einer Ausführung kopiert und als FileDataset höhergestuft wird. Mit Der OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad für das Computeziel in das angegebene Ziel hochgeladen werden soll. Wenn keine Argumente an den Konstruktor übergeben werden, generieren wir automatisch einen Namen, ein Ziel und einen lokalen Pfad. Beispiel für das Übergeben von Argumenten:
Ein Beispiel für die Erstellung einer Ausgabe, die dann die Ausgabe in ein tabellarisches Dataset angibt und sie mit dem Namen foo registriert:
Initialisieren sie eine OutputFileDatasetConfig. Mit Der OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad für das Computeziel in das angegebene Ziel hochgeladen werden soll. Wenn keine Argumente an den Konstruktor übergeben werden, generieren wir automatisch einen Namen, ein Ziel und einen lokalen Pfad. Beispiel für das Übergeben von Argumenten:
Ein Beispiel für die Erstellung einer Ausgabe, die dann die Ausgabe in ein tabellarisches Dataset angibt und sie mit dem Namen foo registriert:
|
| TabularDataset |
Stellt ein tabellarisches Dataset dar, das in Azure Machine Learning verwendet werden soll. Ein TabularDataset definiert eine Reihe von lazily ausgewerteten, unveränderlichen Vorgängen, um Daten aus der Datenquelle in tabellarische Darstellung zu laden. Daten werden erst aus der Quelle geladen, wenn TabularDataset zur Übermittlung von Daten aufgefordert wird. TabularDataset wird mithilfe von Methoden wie from_delimited_files aus der TabularDatasetFactory Klasse erstellt. Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook. Initialisieren eines TabularDataset-Objekts. Dieser Konstruktor soll nicht direkt aufgerufen werden. Das Dataset soll mithilfe der TabularDatasetFactory Klasse erstellt werden. |