Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Azure Open Datasets sind kuratierte öffentliche Datasets, die Sie szenariospezifischen Features zu Machine Learning-Lösungen hinzufügen können, um genauere Modelle zu erhalten. Offene Datasets sind in der Cloud in Microsoft Azure verfügbar. Sie sind in Azure Machine Learning integriert und für Azure Databricks verfügbar. Sie können auch über APIs auf die Datasets zugreifen und sie in anderen Produkten wie Power BI und Azure Data Factory verwenden.
Die Datasets umfassen gemeinfreie Daten für Wetter, Volkszählungen, Feiertage, öffentliche Sicherheit und Orte, mit denen Sie Machine Learning-Modelle trainieren und Vorhersagelösungen anreichern können. Sie können über öffentliche Azure-Datasets auch Ihre eigenen öffentlichen Datasets freigeben.
Kuratierte, vorbereitete Datasets
Die kuratierten offenen und öffentlichen Datasets, aus denen sich die öffentlichen Azure-Datasets zusammensetzen, sind für den Gebrauch in Workflows mit maschinellem Lernen optimiert.
Weitere Informationen zu den verfügbaren Datasets finden Sie in der Azure Open Datasets Catalog-Ressource.
Datenwissenschaftler verbringen häufig ihre Zeit mit der Reinigung und Vorbereitung von Daten für fortgeschrittene Analysen. Um Zeit zu sparen, werden geöffnete Datasets in die Azure-Cloud kopiert und dann vorverarbeitet. In regelmäßigen Abständen werden Daten aus den Quellen abgerufen, z. B. über eine FTP-Verbindung mit der National Oceanic and Atmospheric Administration (NOAA). Anschließend werden die Daten in einem strukturierten Format analysiert und wenn nötig mit Merkmalen wie Postleitzahlen oder dem Standort der nächsten Wetterstation angereichert.
Datasets werden in Azure gemeinsam mit Compute gehostet, um den Zugriff und die Bearbeitung zu vereinfachen.
Hier sind Beispiele für verfügbare Datasets:
Transport
| Dataset | BESCHREIBUNG |
|---|---|
| NYC Taxi & Limousine Commission – Fahrtenaufzeichnungen für „Yellow Taxi“ | Zu den gelben Taxi-Reisedaten gehören Abhol- und Abgabedaten/-zeiten, Abhol- und Abgabeorte, Reisedistanzen, Einzelfahrpreise, Tariftypen, Zahlungstypen und von Fahrern gemeldete Passagierzahlen. |
| Zu den grünen Taxi-Reisedaten zählen Abhol- und Abgabetermine/Uhrzeiten, Abhol- und Abgabeorte, Reiseabstände, Einzeltarife, Tariftypen, Zahlungstypen und fahrerspezifische Passagierzahlen. |
Arbeit und Wirtschaft
| Dataset | BESCHREIBUNG |
|---|---|
| Statistik der US-Arbeitskräfte | Us Labor Force Statistics stellt Arbeitskraftstatistiken, Erwerbsbeteiligungsraten und die zivile nichtinstitutionale Bevölkerung nach Alter, Geschlecht, Rasse und ethnischen Gruppen in den Vereinigten Staaten bereit. |
| US Nationale Beschäftigungsstunden und Verdienste | Das Programm zur aktuellen Beschäftigungsstatistik (CES) erzeugt detaillierte Branchenschätzungen von Nichtfarmarbeit, Stunden und Einkommen von Arbeitnehmern auf Lohn- und Gehaltsabrechnungen in den VEREINIGTEN Staaten. |
Zugriff auf Datasets
Mit einem Azure-Konto können Sie über Code oder über die Azure-Dienstschnittstelle auf öffentliche Datasets zugreifen. Die Daten werden in Azure gemeinsam mit Compute gehostet, damit Sie sie in Ihren Machine Learning-Lösungen verwenden können.
Open Datasets ist über Azure Machine Learning-Benutzeroberfläche und SDK verfügbar. Open Datasets bieten auch Azure Notebooks und Azure Databricks-Notebooks, die Daten mit Azure Machine Learning und Azure Databricks verbinden können. Auch über ein Python-SDK kann auf die Datasets zugegriffen werden.
Sie benötigen jedoch kein Azure-Konto, um auf Open Datasets zuzugreifen. Der Zugriff darauf ist in jeder Python-Umgebung mit oder ohne Spark möglich.
Anfordern von Datasets oder Beitragen zu diesen
Wenn Sie die gewünschten Daten nicht finden können, senden Sie uns eine E-Mail zum Anfordern eines Datasets oder Beitragen eines Datasets.