次の方法で共有


Azure Open Datasets とその使用方法

Azure Open Datasets は、機械学習ソリューションにシナリオ固有の機能を追加して、より正確なモデルを作成できる、キュレーション済みのパブリック データセットです。 Open Datasets は、Microsoft Azure 上のクラウドで利用できます。 これらは Azure Machine Learning に統合され、Azure Databricks ですぐに使用できます。 データセットには、API を介してアクセスすることもでき、これらは Power BI や Azure Data Factory などの他の製品内でも使用できます。

データセットには、機械学習モデルのトレーニングと予測ソリューションのエンリッチメントに役立つ天気、国勢調査、祝日、公共の安全、場所に関するパブリック ドメイン データが含まれます。 また、Azure Open Datasets を使用してパブリック データセットを共有することもできます。

Azure Open Datasets サービスの構成要素を示す図。

選別されて準備されたデータセット

Azure オープン データセット内の選別されたオープン パブリック データセットは、機械学習ワークフロー内で使用するために最適化されています。

使用可能なデータセットの詳細については、Azure Open Datasets カタログ リソースを参照してください。

データ サイエンティストは、多くの場合、高度な分析のためにデータのクリーニングと準備にほとんどの時間を費やします。 時間を節約するために、Open Datasets が Azure クラウドにコピーされ、前処理されます。 一定の間隔で、データはソースからプルされます。たとえば、米国海洋大気庁 (NOAA) への FTP 接続によって取得されます。 次に、データは構造化された形式に解析され、必要に応じて、郵便番号や最寄りの測候所の場所などの特徴によって適宜エンリッチメントされます。

データセットは、アクセスと操作を容易にするために、Azure のクラウド コンピューティングと共同ホスティングされます。

使用可能なデータセットの例を次に示します。

輸送

データセット 説明
NYCタクシー&リムジン委員会 - 黄色のタクシー旅行記録 黄色のタクシー乗車レコードには、乗車日と降車日/時刻、乗車場所と降車場所、乗車距離、明細運賃、料金の種類、支払いの種類、ドライバーから報告された乗客数が含まれます。
NYCタクシー&リムジン委員会 - グリーンタクシー旅行記録 緑色のタクシー乗車記録には、乗車日と降車日/時刻、乗車場所と降車場所、乗車距離、明細運賃、料金の種類、支払いの種類、ドライバーから報告された乗客数が含まれます。

労働と経済学

データセット 説明
米国労働力統計 米国の労働統計は、米国の年齢、性別、人種、民族別の労働力統計、労働力参加率、民間の非市民人口を提供します。
米国の国内雇用時間と収益 現在の雇用統計 (CES) プログラムは、米国の給与リストに基づく非農業雇用、労働時間、および労働者の賃金の詳細な業界推計を生成します。

データセットへのアクセス

Azure アカウントを使用すると、コードまたは Azure サービス インターフェイスを使用して、Open Datasets にアクセスできます。 データは、機械学習ソリューション内で使用するために Azure クラウド コンピューティング リソースと併置されます。

Open Datasets は、Azure Machine Learning UI と SDK を通じて利用できます。 Open Datasets には、Azure Machine Learning と Azure Databricks にデータを接続できる Azure Notebooks と Azure Databricks ノートブックも用意されています。 データセットには、Python SDK を通じてアクセスすることもできます。

ただし、オープン データセットにアクセスするために Azure アカウントは必要ありません。Spark の有無に関係なく、任意の Python 環境内からアクセスできます。

データセットの要求または投稿

必要なデータが見つからない場合は、データセットを要求またはデータセットを投稿します。

次のステップ