縮小問題的範圍
從第一個步驟開始,您想要透過了解下列各項來定義模型將解決的問題:
- 模型應該輸出什麼。
- 您使用哪種類型的機器學習工作。
- 哪些準則可讓模型成功。
您可以根據所擁有的資料和模型的預期輸出來識別機器學習工作。 該工作會決定可用來訓練模型的演算法類型。
一些常見的機器學習工作包括:
- 分類:預測類別值。
- 迴歸:預測數值。
- 時間序列預測:根據時間序列資料預測未來的數值。
- 電腦視覺:分類影像或偵測影像中的物件。
- 自然語言處理 (NLP):從文字擷取見解。
若要定型模型,根據您想要執行的工作,您會有一組演算法可供使用。 若要評估模型,您可以計算效能計量,例如正確性或精確度。 可用的計量也取決於模型需要執行的工作,並可協助您決定模型在其工作中是否成功。
探索範例
請考慮您想要判斷患者是否患有糖尿病的案例。 您嘗試解決的問題與可用的資料類型會決定您選擇的機器學習工作。 在此案例中,可用的資料是患者的其他健康資料點。 我們可以將想要的輸出呈現為患者是否有糖尿病的類別資訊。 因此,該機器學習工作是「分類」。
開始之前先了解整個流程,讓您有機會可以進行詳細決策以設計成功的機器學習解決方案。 下圖顯示一種方法,可解決辨識患者是否有糖尿病的問題。 在該圖中,會使用特定演算法預先準備、分割並訓練資料。 之後,會評估模型的品質。
- 載入資料:匯入並檢查資料集。
- 預先處理資料:正規化並清除以獲得一致性。
- 分割資料:分割為訓練集和測試集。
- 選擇模型:選取並設定演算法。
- 訓練模型:從訓練資料學習模式。
- 為模型評分:從測試資料產生預測。
- 評估:計算效能計量。
訓練機器學習模型通常是反覆的流程,您會多次執行這些步驟,以找出表現最好的模型。 接下來,讓我們檢查開發機器學習解決方案的數據準備程式。