共用方式為


數據採礦準備檢查清單

雖然數據採礦載入巨集可讓您相當輕鬆且有趣地建立和實驗模型,但當您需要取得可重複、可採取動作的結果時,您必須有足夠的時間來制定基本商務需求,以及取得和準備數據。 本節提供檢查清單來協助您規劃調查,並描述常見問題。

數據準備檢查清單

我已識別出已明確定義的輸出。
規劃如何使用結果。 不同類型的模型有不同的輸出。 時間序列模型會在未來產生數列的值,這些值很容易理解並採取行動。 其他模型會產生複雜集合,必須由主題專家分析,以產生最大價值。

  • 您要哪些輸出?

  • 您可以將輸出定義為單一數據行或值,或其他可採取動作的結果嗎?

  • 您知道模型很有用的準則為何?

  • 您將如何使用和解譯這些結果?

  • 您可以將新的輸入資料對應至預期的結果嗎?

我知道輸入數據的意義、數據類型和分佈。
請花一些時間探索並瞭解源數據。 請務必檢閱模型的人員瞭解使用了何種輸入數據,並知道如何解譯數據類型和變異性,以及平衡和品質。

  • 您有多少數據? 模型化是否有足夠的數據?

    不需要很大的量——更小且平衡的可能會更好。

  • 來自多個來源或單一來源的數據嗎?

  • 數據是否已處理及清除? 是否有更多輸入數據可供使用?

  • 您知道在收到資料之前,它如何被操控 -- 資料可能怎樣被截斷、摘要或轉換?

  • 輸入數據是否有一些可用於定型的範例結果?

我瞭解我們所擁有的數據完整性層級,以及我們需要的層級。
不正確的數據可能會影響模型的品質,或防止模型完全建置。 您應該充分了解數據的分佈和意義,以及它如何進入這個狀態。 您必須瞭解是否可以或適當地透過標記、截斷數值數據類型或摘要來簡化數據。

  • 數據標籤:它們是否清楚且正確?

  • 數據類型:它們是否合適,而且是否已變更?

  • 您是否已排序、清除或捨棄錯誤的數據?

    您是否已確認沒有重複專案?

  • 如何處理遺漏的值? 遺漏的值是否具有意義?

  • 您是否已驗證來源,以查看匯入程式中是否可能匯入任何錯誤?

    輸入儲存在哪裡? 保留多久時間?

    是否有數據字典? 您可以建立一個嗎?

  • 如果您合併資料集,是否檢查有多個欄表示相同資料?

我知道儲存源數據的位置、來源,以及其處理方式。 如有需要,可以輕鬆地重複此程式。
一次性數據集適用於實驗,但如果您想要將模型投入使用,您可以提前考慮如何將清理過程套用至操作數據。 此外,如果您有操作數據,您需要知道它可能在得到之前如何被變更——您需要知道它如何被四捨五入或總結,這是肯定的。

  • 您要能夠重複實驗嗎?

  • 您將使用哪些工具來準備支援資料分析的格式資料? 它可以自動化,或您需要有人在 Excel 中檢閱和清除嗎?

  • 如果您要從另一個系統採購數據,您是否能夠擷取和追蹤已套用的篩選?

  • 數據處理架構也可以套用機器學習演算法、執行測試,以及將結果可視化嗎?

我們已就預期預測的數據粒度達成一致,而我們的數據已修改為輸出這些單位。
在準備數據之前,請確定您希望結果的詳細程度,例如,您是希望獲得每日的銷售預測,還是每季度的銷售預測? 您可以考慮為相同的數據設定不同的數據結構,以處理不同層級的摘要。

  • 目前測量單位或時間單位為何?

    您想要在結果中使用的單位為何?

  • 是否可以定義所有輸入資料的基本單位(例如日/小時/分鐘/指令呼叫?

    您要合併至更高層級的單位嗎?

  • 類別是否一致地標示? 新增或移除類別是否容易?

我們的實驗設計是可重複且可重現的。
請考慮分析及驗證結果的策略,並規劃擷取數據快照集,以確保您可以追蹤數據的效果。 如果使用隨機種子,結果可能會稍有不同。 這會使比較和驗證模型變得困難。

  • 如果您對數據進行許多自定義變更,下次您想要建置模型時會發生什麼事?

  • 是否已定義手動程式或核准的程式,您應該用來處理輸入並取得所需的輸出?

  • 您決定要為模型使用種子了嗎?

我們有領域知識來驗證結果,或能夠存取可建議的主題專家。
花時間來驗證變數、模型和結果。 取得專家的協助,以評估互動和結果。 不過,不要讓假設推翻證據。 對新的和意想不到的發現開放。

  • 領域知識是否有助於篩選數據並減少輸入雜訊?

  • 領域專家能否協助瞭解解譯結果並建議改進功能?

另請參閱

選擇供資料挖掘用的資料