Partager via


opendatasets Paquet

Contient des fonctionnalités permettant de consommer des jeux de données Azure Open en tant que trames de données et d’enrichir les données client.

Les jeux de données Azure Open sont des jeux de données publics organisés que vous pouvez utiliser pour ajouter des fonctionnalités spécifiques au scénario aux solutions Machine Learning pour des modèles plus précis. Vous pouvez convertir ces jeux de données publics en trames de données Spark et pandas avec des filtres appliqués. Pour certains jeux de données, vous pouvez utiliser un enrichisseur pour joindre les données publiques à vos données. Par exemple, vous pouvez joindre vos données à des données météorologiques par longitude et latitude, code postal et heure.

Inclus dans Azure Open Datasets sont des données de domaine public pour les conditions météorologiques, le recensement, les jours fériés, la sécurité publique et l’emplacement qui vous aident à entraîner des modèles Machine Learning et à enrichir des solutions prédictives. Les jeux de données ouverts se trouvent dans le cloud sur Microsoft Azure et sont intégrés à Azure Machine Learning. Pour plus d’informations sur l’utilisation d’Azure Open Datasets, consultez Créer des jeux de données avec Azure Open Datasets.

Pour obtenir des informations générales sur Azure Open Datasets, consultez la documentation azure Open Datasets.

Paquets

accessories

Contient des fonctionnalités qui permettent d’identifier les types de colonnes dans les données, notamment le lat/long, le code postal et le temps.

aggregators

Contient des fonctionnalités permettant de définir la façon dont les données jointes sont agrégées.

Les agrégateurs définissent des opérations qui peuvent être effectuées sur le résultat de la jointure de données à partir de deux jeux de données. Par exemple, lorsque vous utilisez l’une des classes dans , vous pouvez spécifier un agrégateur dans enrichersle cadre de l’opération. Si aucune agrégation n’est nécessaire, utilisez AggregatorAll.

data

Contient le fichier init pour les ressources de données dans le module publicholidays.

dataaccess

Contient des fonctionnalités fournissant des méthodes d’accès aux fichiers blob.

Lorsque vous utilisez une classe à partir du opendatasets package comme la ChicagoSafety classe, les classes et fonctions dataaccess de ce package sont utilisées en interne. En règle générale, vous n’avez pas besoin d’utiliser les fonctionnalités du package dataaccess directement.

enrichers

Contient des fonctionnalités permettant d’enrichir et de joindre des données à partir de deux jeux de données.

En règle générale, les enrichateurs associent des données provenant de différentes sources. Plus précisément, les enrichateurs vous permettent de joindre vos données (données client) à des données provenant d’Azure Open Datasets ou d’autres jeux de données publics.

granularities

Contient des fonctionnalités définissant les mesures de temps et de distance utilisées par les enrichateurs.

Les granularités sont des mesures de temps ou de distance utilisées lors enrichers de l’enrichissement (jointure) de données. Il existe des granularités temporelles telles que toutes les heures ou tous les jours, ainsi que la granularité d’emplacement comme la distance la plus proche.

selectors

Contient des fonctionnalités permettant de sélectionner et de joindre des données à partir d’un jeu de données client avec des données d’un jeu de données public.

Les sélecteurs définissent une logique qui vous permet d’enrichir vos données avec des jeux de données publics en fonction des mesures de temps et de distance. Par exemple, avec un sélecteur, vous pouvez trouver des données publiques à joindre à vos données en fonction de l’emplacement le plus proche, ou en arrondissant à la même granularité de temps.

Spécifiez des sélecteurs lors de l’utilisation de l’une des classes dans le enrichers package.

Modules

environ

Définit les classes d’environnement d’exécution où azure Open Datasets sont utilisés.

Les classes de ce module garantissent que la fonctionnalité Azure Open Datasets est optimisée pour différents environnements. En général, vous n’avez pas besoin d’instancier ces classes d’environnement ou de vous soucier de leur implémentation. Utilisez plutôt la get_environ fonction de module pour retourner l’environnement.

Classes

BingCOVID19Data

Représente le jeu de données Bing COVID-19.

Ces jeux de données contiennent des données Bing COVID-19 provenant de plusieurs sources fiables et fiables, notamment l’Organisation mondiale de la santé (OMS), les Centres pour le contrôle et la prévention des maladies (CDC), les services nationaux et publics de santé publique, BNO News, 24/7 Wall St., et Wikipédia. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez Les données COVID-19 Bing dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

BostonSafety

Représente le jeu de données public Boston Safety.

Ce jeu de données contient 311 appels signalés à la ville de Boston. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez Boston Safety Data in the Microsoft Azure Open Datasets catalog.

Initialisez les champs de filtrage.

COVID19OpenResearch

Représente le jeu de données Covid-19 Open Research.

Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, les différentes façons d’accéder au jeu de données et les exemples, consultez le jeu de données Covid-19 Open Research dans le catalogue Microsoft Azure Open Datasets.

COVIDTrackingProject

Représente le jeu de données du projet de suivi COVID.

Ce jeu de données contient le jeu de données du projet de suivi DU COVID fournissant les derniers chiffres sur les tests, les cas confirmés, les hospitalisations et les résultats des patients de chaque état et territoire américains. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez le jeu de données projet de suivi COVID dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

ChicagoSafety

Représente le jeu de données public Chicago Safety.

Ce jeu de données contient 311 demandes de service de la ville de Chicago, y compris les plaintes historiques du code d’assainissement, les trous de pot signalés et les problèmes de lumière de rue. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez le catalogue Des données de sécurité de Chicago dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

CitySafety

Classe de sécurité ville - il s’agit d’une classe parente qui peut être héritée par chaque ville individuelle.

Initialisez les champs de filtrage.

Diabetes

Représente l’exemple de jeu de données public Diabetes.

Le jeu de données sur le diabète contient 442 échantillons avec 10 caractéristiques, ce qui en fait un outil idéal pour commencer à utiliser des algorithmes Machine Learning. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et des exemples, consultez Sample : Diabetes in the Microsoft Azure Open Datasets catalog.

EcdcCOVIDCases

Représente le Centre européen de prévention et de contrôle des maladies (ECDC) Cas de Covid-19.

Ce jeu de données contient le Centre européen de prévention et de contrôle des maladies (ECDC). Chaque ligne/entrée contient le nombre de nouveaux cas signalés par jour et par pays/région. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et des exemples, consultez Le Centre européen pour la prévention et le contrôle des maladies (ECDC) Cas Covid-19 dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

MNIST

Représente le jeu de données MNIST de chiffres manuscrits.

La base de données MNIST de chiffres manuscrits présente un ensemble d’entraînement comportant 60 000 exemples, ainsi qu’un ensemble test de 10 000 exemples. Les chiffres ont été normalisés de taille et centrés dans une image de taille fixe. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez la base de données MNIST de chiffres manuscrits dans le catalogue Microsoft Azure Open Datasets.

Pour obtenir un exemple d’utilisation du jeu de données MNIST, consultez le didacticiel Entraîner des modèles de classification d’images avec des données MNIST et scikit-learn à l’aide d’Azure Machine Learning.

NoParameterOpenDatasetBase

Classe de base de travail américaine.

Initialiser.

NoaaGfsWeather

Représente le jeu de données National Oceanic and Atmospheric Administration (NOAA) Global Forecast System (GFS).

Ce jeu de données contient des données de prévisions météorologiques américaines de 15 jours (par exemple : température, précipitations, vent) produites par le système de prévision globale (GFS) de la National Oceanic and Atmospheric Administration (NOAA). Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez le système de prévision globale NOAA dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

NoaaIsdWeather

Représente le jeu de données de surface intégré (ISD) de l’Administration nationale océanique et atmosphérique (NOAA).

Ce jeu de données contient des données d’historique météorologique horaire (par exemple : température, précipitations, vent) provenant de l’Administration nationale de l’océan et de l’atmosphère (NOAA). Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez les données surface intégrées NOAA dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

NycSafety

Représente le jeu de données public New York City Safety.

Ce jeu de données contient toutes les demandes de service 311 à New York de 2010 à nos jours. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez les données de sécurité de New York dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

NycTaxiBase

New York Taxi class - il s’agit d’une classe parente qui peut être héritée.

Initialisez les champs de filtrage.

NycTlcFhv

Représente le jeu de données public nyC Taxi &Limousine Commission.

Ce jeu de données contient For-Hire enregistrements de voyage Vechicle (FHV), qui incluent des champs capturant le numéro de licence de base de distribution et l’ID d’emplacement de la zone de récupération (fichier de forme ci-dessous). Ces enregistrements sont générés à partir des soumissions d’enregistrements de voyage FHV effectuées par des bases. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez nyC Taxi &Limousine Commission - For-Hire Véhicule (FHV) enregistrements de voyage dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

NycTlcGreen

Représente le jeu de données public de la NyC Taxi &Limousine Commission green taxi trip.

Les enregistrements de trajet de taxi vert incluent les champs capturant les dates/heures de récupération et de dépôt, les emplacements de récupération et de dépôt, les distances de trajet, les tarifs détaillés, les types de tarifs, les types de paiement et les nombres de passagers signalés par les conducteurs. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez la Commission nyC Taxi &Limousine - enregistrements de trajet de taxi vert dans le catalogue Microsoft Azure Open Datasets.

Pour obtenir un exemple d’utilisation de la classe NycTlcGreen, consultez le tutoriel Utiliser le Machine Learning automatisé pour prédire les tarifs des taxis.

Initialisez les champs de filtrage.

NycTlcYellow

Représente le jeu de données public de la Commission nyC Taxi &Limousine Commission pour taxi jaune.

Les enregistrements de trajet de taxi jaune incluent les champs capturant les dates/heures de récupération et de dépôt, les emplacements de récupération et de dépôt, les distances de trajet, les tarifs détaillés, les types de tarifs, les types de paiement et les nombres de passagers signalés par les conducteurs. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et des exemples, consultez la Commission nyC Taxi &Limousine - enregistrements de trajet de taxi jaune dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

OjSalesSimulated

Représente l’exemple de jeu de données De données simulées Orange Juice Sales.

Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez Sample : OJ Sales Simulated Data in the Microsoft Azure Open Datasets catalog.

PublicHolidays

Représente le jeu de données public Jours fériés.

Ces jeux de données contiennent des données de jours fériés dans le monde entier provenant du package de vacances PyPI et de Wikipédia, couvrant 38 pays ou régions de 1970 à 2099. Chaque ligne indique les informations de congé pour une date, un pays ou une région spécifiques, et indique si la plupart des personnes ont payé des congés. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez le catalogue Des jours fériés dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

PublicHolidaysOffline

Représente le jeu de données public Jours fériés hors connexion.

Pour obtenir une description des lignes, consultez les jours fériés dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

SampleDatasetBase

Représente la classe Sample Dataset Base.

SanFranciscoSafety

Représente le jeu de données public san Francisco Safety.

Ce jeu de données contient des appels de service et 311 cas à San Francisco. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez le catalogue Des données de sécurité san Francisco dans le catalogue Microsoft Azure Open Datasets.

Initialisez les champs de filtrage.

SeattleSafety

Représente le jeu de données public Seattle Safety.

Ce jeu de données contient des données de répartition du service d’incendie de Seattle 911. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez Seattle Safety Data in the Microsoft Azure Open Datasets catalog.

Initialisez les champs de filtrage.

UsLaborCPI

Représente le jeu de données public de l’Indice des prix du consommateur américain.

L’Indice des prix du consommateur (CPI) est une mesure de la variation moyenne au fil du temps dans les prix payés par les consommateurs urbains pour un panier de produits et de services de consommation. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez l’index des prix du consommateur américain dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborEHENational

Représente le jeu de données public us National Employment Hours and Earnings.

Ce jeu de données contient des estimations du secteur de l’emploi, des heures et des revenus des travailleurs sur les salaires aux États-Unis. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez les heures d’emploi nationales des États-Unis et gagner dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborEHEState

Représente le jeu de données public us State Employment Hours and Earnings.

Ce jeu de données contient des estimations du secteur de l’emploi, des heures et des revenus des travailleurs sur les salaires aux États-Unis. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez les heures d’emploi des États-Unis et gagner dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborLAUS

Représente le jeu de données public us Local Area Unemployment Statistics.

Ce jeu de données contient des données mensuelles et annuelles sur l’emploi, le chômage et la main-d’œuvre pour les régions de recensement et les divisions, les États, les comtés, les régions métropolitaines et de nombreuses villes aux États-Unis. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez les statistiques de chômage de zone locale des États-Unis dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborLFS

Représente le jeu de données public us Labor Force Statistics.

Ce jeu de données contient des données sur la main-d’œuvre aux États-Unis, y compris les taux de participation à la main-d’œuvre, ainsi que sur la population civilenonnairenairee par âge, sexe, race et groupes ethniques. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez les statistiques us Labor Force dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborPPICommodity

Représente l’indice américain des prix du producteur (PPI) - Jeu de données public des produits de base.

L’indice des prix du producteur (PPI) est une mesure de la variation moyenne au fil du temps des prix de vente reçus par les producteurs nationaux pour leur production. Les prix inclus dans l’IPP proviennent de la première transaction commerciale pour les produits et services couverts. Ce jeu de données contient des PPIs pour des produits individuels et des groupes de produits publiés tous les mois. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez l’Indice des prix du producteur américain - Matières premières dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsLaborPPIIndustry

Représente l’indice américain des prix du producteur (PPI) - Jeu de données public de l’industrie.

L’indice des prix du producteur (PPI) est une mesure de la variation moyenne au fil du temps des prix de vente reçus par les producteurs nationaux pour leur production. Les prix inclus dans l’IPP proviennent de la première transaction commerciale pour les produits et services couverts. Ce jeu de données contient des API pour un large éventail de secteurs d’activité de l’économie américaine. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez l’index des prix du producteur américain - Industrie dans le catalogue Microsoft Azure Open Datasets.

Pour obtenir des informations générales sur Azure Open Datasets, consultez la documentation azure Open Datasets.

Initialiser.

UsPopulationCounty

Représente le jeu de données public us Population by County.

Ce jeu de données contient la population américaine par sexe et par race pour chaque comté des États-Unis provenant de 2000 et 2010 Recensement décennal. Pour plus d’informations sur ce jeu de données, notamment les descriptions de colonnes, les différentes façons d’accéder au jeu de données et des exemples, consultez le catalogue Us Population by County dans le catalogue Microsoft Azure Open Datasets.

Initialiser.

UsPopulationZip

Représente le jeu de données public us Population by Zip Code.

Ce jeu de données contient la population américaine par sexe et par race pour chaque code postal américain provenant du recensement décennal 2010. Pour plus d’informations sur ce jeu de données, y compris les descriptions de colonnes, différentes façons d’accéder au jeu de données et d’exemples, consultez Us Population by ZIP Code dans le catalogue Microsoft Azure Open Datasets.

Initialiser.