Pobieranie i przygotowywanie danych

Ukończone

Dane są podstawą uczenia maszynowego. Zarówno ilość danych, jak i jakość danych mają wpływ na dokładność modelu.

Aby wytrenować model uczenia maszynowego, należy wykonać następujące kroki:

  • Identyfikowanie źródła danych i formatu.
  • Wybierz sposób udostępniania danych.
  • Projektowanie rozwiązania do pozyskiwania danych.

Aby uzyskać i przygotować dane używane do trenowania modelu uczenia maszynowego, musisz wyodrębnić dane ze źródła i udostępnić je usłudze platformy Azure, której chcesz użyć do trenowania modeli lub tworzenia przewidywań.

Identyfikowanie źródła danych i formatu

Najpierw należy zidentyfikować źródło danych i jego bieżący format danych.

Identyfikowanie Przykłady
Źródło danych Na przykład dane mogą być przechowywane w systemie zarządzania relacjami z klientami (CRM) w transakcyjnej bazie danych, takiej jak baza danych SQL, lub generowane przez urządzenie Internetu rzeczy (IoT).
Format danych Musisz zrozumieć bieżący format danych, który może być danymi tabelarycznymi lub ustrukturyzowanymi, częściowo ustrukturyzowanymi danymi lub danymi bez struktury.

Następnie musisz zdecydować, jakie dane należy wytrenować model, oraz w jakim formacie dane mają być obsłużone dla modelu.

Projektowanie rozwiązania do pozyskiwania danych

Ogólnie rzecz biorąc, najlepszym rozwiązaniem jest wyodrębnianie danych ze źródła przed ich przeanalizowaniem. Niezależnie od tego, czy używasz danych do inżynierii danych, analizy danych, czy nauki o danych, chcesz wyodrębnić dane ze źródła, przekształcić je i załadować do warstwy obsługującej. Taki proces jest również nazywany wyodrębnianie, przekształcanie i ładowanie (ETL) lub wyodrębnianie, ładowanie i przekształcanie (ELT). Warstwa obsługująca udostępnia dane dla usługi używanej do dalszego przetwarzania danych, takiego jak trenowanie modeli uczenia maszynowego.

Aby przenieść i przekształcić dane, możesz użyć potoku pozyskiwania danych. Potok pozyskiwania danych to sekwencja zadań, które przenoszą i przekształcają dane. Tworząc potok, można ręcznie wyzwolić zadania lub zaplanować potok, gdy chcesz zautomatyzować zadania. Takie potoki można tworzyć za pomocą usług platformy Azure, takich jak Azure Synapse Analytics, Azure Databricks, a także Azure Machine Learning.

Typowym podejściem do rozwiązania do pozyskiwania danych jest:

  1. Wyodrębnij nieprzetworzone dane ze źródła (na przykład system CRM lub urządzenie IoT).
  2. Kopiowanie i przekształcanie danych za pomocą usługi Azure Synapse Analytics.
  3. Przechowywanie przygotowanych danych w usłudze Azure Blob Storage.
  4. Trenowanie modelu za pomocą usługi Azure Machine Learning.

Diagram przedstawiający przykład potoku pozyskiwania danych.

Eksplorowanie przykładu

Wyobraź sobie, że chcesz wytrenować model prognozowania pogody. Wolisz jedną tabelę, w której są łączone wszystkie pomiary temperatury każdej minuty. Chcesz utworzyć agregacje danych i mieć tabelę średniej temperatury na godzinę. Aby utworzyć tabelę, chcesz przekształcić częściowo ustrukturyzowane dane pozyskane z urządzenia IoT, które mierzy temperaturę w odstępach czasu, na dane tabelaryczne.

Diagram przedstawiający przykład danych JSON przekonwertowanych na tabelę.

Aby na przykład utworzyć zestaw danych, można użyć go do wytrenowania modelu prognozowania, możesz:

  1. Wyodrębnianie miar danych jako obiektów JSON z urządzeń IoT.
  2. Przekonwertuj obiekty JSON na tabelę.
  3. Przekształć dane, aby uzyskać temperaturę na maszynę na minutę.

Następnie przyjrzyjmy się usługom, których możemy użyć do trenowania modeli uczenia maszynowego.