Freigeben über


Was ist Azure Open Datasets, und wie können Sie dies verwenden?

Azure Open Datasets sind kuratierte öffentliche Datasets, die Sie szenariospezifischen Features zu Machine Learning-Lösungen hinzufügen können, um genauere Modelle zu erhalten. Offene Datasets sind in der Cloud in Microsoft Azure verfügbar. Sie sind in Azure Machine Learning integriert und für Azure Databricks verfügbar. Sie können auch über APIs auf die Datasets zugreifen und sie in anderen Produkten wie Power BI und Azure Data Factory verwenden.

Die Datasets umfassen gemeinfreie Daten für Wetter, Volkszählungen, Feiertage, öffentliche Sicherheit und Orte, mit denen Sie Machine Learning-Modelle trainieren und Vorhersagelösungen anreichern können. Sie können über öffentliche Azure-Datasets auch Ihre eigenen öffentlichen Datasets freigeben.

Diagramm, das die Azure Open Datasets-Dienstbausteine zeigt.

Kuratierte, vorbereitete Datasets

Die kuratierten offenen und öffentlichen Datasets, aus denen sich die öffentlichen Azure-Datasets zusammensetzen, sind für den Gebrauch in Workflows mit maschinellem Lernen optimiert.

Weitere Informationen zu den verfügbaren Datasets finden Sie in der Azure Open Datasets Catalog-Ressource.

Datenwissenschaftler verbringen häufig ihre Zeit mit der Reinigung und Vorbereitung von Daten für fortgeschrittene Analysen. Um Zeit zu sparen, werden geöffnete Datasets in die Azure-Cloud kopiert und dann vorverarbeitet. In regelmäßigen Abständen werden Daten aus den Quellen abgerufen, z. B. über eine FTP-Verbindung mit der National Oceanic and Atmospheric Administration (NOAA). Anschließend werden die Daten in einem strukturierten Format analysiert und wenn nötig mit Merkmalen wie Postleitzahlen oder dem Standort der nächsten Wetterstation angereichert.

Datasets werden in Azure gemeinsam mit Compute gehostet, um den Zugriff und die Bearbeitung zu vereinfachen.

Hier sind Beispiele für verfügbare Datasets:

Transport

Dataset BESCHREIBUNG
NYC Taxi & Limousine Commission – Fahrtenaufzeichnungen für „Yellow Taxi“ Zu den gelben Taxi-Reisedaten gehören Abhol- und Abgabedaten/-zeiten, Abhol- und Abgabeorte, Reisedistanzen, Einzelfahrpreise, Tariftypen, Zahlungstypen und von Fahrern gemeldete Passagierzahlen.
NYC Taxi & Limousine Commission - grüne Taxi-Fahrtenprotokolle Zu den grünen Taxi-Reisedaten zählen Abhol- und Abgabetermine/Uhrzeiten, Abhol- und Abgabeorte, Reiseabstände, Einzeltarife, Tariftypen, Zahlungstypen und fahrerspezifische Passagierzahlen.

Arbeit und Wirtschaft

Dataset BESCHREIBUNG
Statistik der US-Arbeitskräfte Us Labor Force Statistics stellt Arbeitskraftstatistiken, Erwerbsbeteiligungsraten und die zivile nichtinstitutionale Bevölkerung nach Alter, Geschlecht, Rasse und ethnischen Gruppen in den Vereinigten Staaten bereit.
US Nationale Beschäftigungsstunden und Verdienste Das Programm zur aktuellen Beschäftigungsstatistik (CES) erzeugt detaillierte Branchenschätzungen von Nichtfarmarbeit, Stunden und Einkommen von Arbeitnehmern auf Lohn- und Gehaltsabrechnungen in den VEREINIGTEN Staaten.

Zugriff auf Datasets

Mit einem Azure-Konto können Sie über Code oder über die Azure-Dienstschnittstelle auf öffentliche Datasets zugreifen. Die Daten werden in Azure gemeinsam mit Compute gehostet, damit Sie sie in Ihren Machine Learning-Lösungen verwenden können.

Open Datasets ist über Azure Machine Learning-Benutzeroberfläche und SDK verfügbar. Open Datasets bieten auch Azure Notebooks und Azure Databricks-Notebooks, die Daten mit Azure Machine Learning und Azure Databricks verbinden können. Auch über ein Python-SDK kann auf die Datasets zugegriffen werden.

Sie benötigen jedoch kein Azure-Konto, um auf Open Datasets zuzugreifen. Der Zugriff darauf ist in jeder Python-Umgebung mit oder ohne Spark möglich.

Anfordern von Datasets oder Beitragen zu diesen

Wenn Sie die gewünschten Daten nicht finden können, senden Sie uns eine E-Mail zum Anfordern eines Datasets oder Beitragen eines Datasets.

Nächste Schritte