取得並準備資料
資料是機器學習的基礎。 資料數量和資料品質都會影響模型的精確度。
若要訓練機器學習模型,您需要:
- 識別資料來源和格式。
- 選擇如何提供資料。
- 設計資料擷取解決方案。
若要 取得和準備 您用來定型機器學習模型的數據,您需要從來源擷取數據,並將其提供給您想要用來定型模型或進行預測的 Azure 服務。
識別資料來源和格式
首先,您必須識別資料來源及其目前的資料格式。
| 識別 | 範例 |
|---|---|
| 資料來源 | 例如,資料可能會儲存在客戶關係管理 (CRM) 系統、SQL 資料庫之類的交易式資料庫中,或是由物聯網 (IoT) 裝置所產生。 |
| 資料格式 | 您必須了解資料目前的格式,其可能是表格式或結構化資料、半結構化資料或非結構化資料。 |
然後,您必須決定訓練模型所需的資料,以及資料要以什麼格式提供給模型。
設計資料擷取解決方案
一般而言,最佳做法是先從其來源擷取資料,再進行分析。 無論您是將資料用於資料工程、資料分析或資料科學,您都要從來源擷取資料、轉換資料,並將資料載入至服務層。 這類程式也稱為 擷取、 轉換和 載入 (ETL) 或 擷取、 載入和 轉換 (ELT)。 服務層可讓您的資料供給您將用於進一步資料處理的服務,例如訓練機器學習模型。
若要移動和轉換數據,您可以使用 資料擷取管線。 資料擷取管線是一連串工作,可移動和轉換資料。 藉由建立管線,您可以選擇手動觸發工作,或當您想要自動化工作時排程管線。 這類管線可以使用 Azure Synapse Analytics、Azure Databricks 和 Azure Machine Learning 等 Azure 服務來建立。
資料擷取解決方案的常見方法是:
- 從其來源擷取原始資料 (例如 CRM 系統或 IoT 裝置)。
- 使用 Azure Synapse Analytics 複製和轉換資料。
- 將備妥的資料儲存在 Azure Blob 儲存體中。
- 使用 Azure Machine Learning 將模型定型。
探索範例
假設您想要訓練天氣預報模型。 您偏好使用一個資料表,其中每分鐘的所有溫度量值都合併在一起。 您想要建立資料的彙總,並具有每小時平均溫度的資料表。 為了建立資料表,您想要將從 IoT 裝置擷取的半結構化資料轉換為表格式資料,該裝置會每隔一段時間測量一次溫度。
例如,若要建立可以用來訓練預測模型的資料集,您可以:
- 從 IoT 裝置擷取資料量值作為 JSON 物件。
- 將 JSON 物件轉換成資料表。
- 轉換資料以取得每分鐘每部機器的溫度。
接下來,讓我們探索可用來定型機器學習模型的服務。