取得並準備資料

已完成

資料是機器學習的基礎。 資料數量和資料品質都會影響模型的精確度。

若要訓練機器學習模型,您需要:

  • 識別資料來源和格式。
  • 選擇如何提供資料。
  • 設計資料擷取解決方案。

若要 取得和準備 您用來定型機器學習模型的數據,您需要從來源擷取數據,並將其提供給您想要用來定型模型或進行預測的 Azure 服務。

識別資料來源和格式

首先,您必須識別資料來源及其目前的資料格式。

識別 範例
資料來源 例如,資料可能會儲存在客戶關係管理 (CRM) 系統、SQL 資料庫之類的交易式資料庫中,或是由物聯網 (IoT) 裝置所產生。
資料格式 您必須了解資料目前的格式,其可能是表格式或結構化資料、半結構化資料或非結構化資料。

然後,您必須決定訓練模型所需的資料,以及資料要以什麼格式提供給模型。

設計資料擷取解決方案

一般而言,最佳做法是先從其來源擷取資料,再進行分析。 無論您是將資料用於資料工程、資料分析或資料科學,您都要從來源擷取資料、轉換資料,並將資料載入至服務層。 這類程式也稱為 擷取轉換載入ETL) 或 擷取載入轉換ELT)。 服務層可讓您的資料供給您將用於進一步資料處理的服務,例如訓練機器學習模型。

若要移動和轉換數據,您可以使用 資料擷取管線。 資料擷取管線是一連串工作,可移動和轉換資料。 藉由建立管線,您可以選擇手動觸發工作,或當您想要自動化工作時排程管線。 這類管線可以使用 Azure Synapse Analytics、Azure Databricks 和 Azure Machine Learning 等 Azure 服務來建立。

資料擷取解決方案的常見方法是:

  1. 從其來源擷取原始資料 (例如 CRM 系統或 IoT 裝置)。
  2. 使用 Azure Synapse Analytics 複製和轉換資料。
  3. 將備妥的資料儲存在 Azure Blob 儲存體中。
  4. 使用 Azure Machine Learning 將模型定型。

顯示數據擷取管線範例的圖表。

探索範例

假設您想要訓練天氣預報模型。 您偏好使用一個資料表,其中每分鐘的所有溫度量值都合併在一起。 您想要建立資料的彙總,並具有每小時平均溫度的資料表。 為了建立資料表,您想要將從 IoT 裝置擷取的半結構化資料轉換為表格式資料,該裝置會每隔一段時間測量一次溫度。

此圖顯示轉換成數據表的 JSON 數據範例。

例如,若要建立可以用來訓練預測模型的資料集,您可以:

  1. 從 IoT 裝置擷取資料量值作為 JSON 物件。
  2. 將 JSON 物件轉換成資料表。
  3. 轉換資料以取得每分鐘每部機器的溫度。

接下來,讓我們探索可用來定型機器學習模型的服務。