共用方式為


範例資料(SQL Server 資料探勘增益集)

數據採礦功能區中的數據分割精靈

[範例資料嚮導] 可讓您輕鬆地將原始資料分割成兩組,一個用於訓練模型,另一個用於測試模型。 此精靈也提供重新取樣數據的選項,以建置更能代表您目標的新數據集。

建立適合用於定型和測試模型的數據種類是數據採礦的一個重要部分,但如果沒有正確的工具,可能會很乏味。 精靈會執行分層取樣,以確保定型和測試集的平衡良好。

隨機取樣和過度取樣

. 隨機取樣是確保用於測試模型的數據最能公平地代表您用來建立模型的數據。 您可以隨機取樣儲存在 Excel 或外部資料來源中的數據

如果您使用隨機取樣選項, [取樣數據 精靈] 會自動建立定型和測試數據集,並將其輸出到個別的 Excel 工作表中,以供稍後參考。

如果您的資料儲存在 Excel 活頁簿中,而不是外部數據源,您也可以選擇使用 過度取樣。 使用此選項時,您可以指定資料中可能稀缺的目標值,精靈會收集包含更多目標值的平衡集合。 您可以指示精靈達到目標百分比,或建立特定數目的數據列。

如果您使用過度取樣選項, [範例數據 精靈] 會建立新的工作表,其中包含新平衡的範例數據。

使用範例數據精靈

將數據分成訓練集和測試集

  1. 在 [ 數據採礦] 功能區中,按兩下 [ 範例數據]。

  2. 在 [ 選取源數據] 頁面上,指定您要分割 的數據 是在 Excel 範圍或數據表中,還是位於外部數據源中。

  3. 在 [ 選取取樣類型 ] 頁面上,指定是否要透過隨機取樣建立定型和測試數據集,或透過過度取樣建立新的數據集。

    備註

    如果您使用外部數據源,則只能使用隨機取樣選項。 如果您想要搭配外部數據使用過度取樣,您可以使用 Excel 數據連線將數據匯入 Excel 活頁簿,然後使用範例數據精靈。

  4. 設定您選取之取樣方法的特定選項。

    • 針對隨機取樣,請指定要用於測試的原始數據百分比,或測試數據集中使用的數據列總數。

    • 針對過度抽樣,請選取您想要強調的欄位和數值。 然後,指定新數據集中的數據列總數,以及新數據集中應包含目標值的數據列百分比。

      過度取樣的目標值必須是離散值;您無法過度取樣連續數值數據。

  5. 在 [ 完成] 頁面上,接受新數據集的默認名稱,或輸入新名稱。

    精靈會為每個數據集建立新的工作表。

適用於 Excel 的數據採礦用戶端中的大部分精靈也提供一個選項,讓您將數據隨機分割成定型和測試集。 不過,如果您使用向導,您的數據會保留在相同的工作表中(或其他數據源),特定數據行是否為測試案例或訓練案例的相關信息是內部儲存的。 相反地,當您使用 範例數據 精靈時,測試和訓練資料會輸出至個別工作表,以便輕鬆參考。

當您瀏覽精靈時,您將有下列選項:

選項 評論
選擇來源資料對話盒 (適用於 Excel 的數據採礦用戶端) 選取包含數據的 Excel 範圍或數據表。 如果您想要使用外部數據,數據可以是關係型數據,但必須包含在 Analysis Services 數據源中。 T
選取取樣類型頁面 (適用於 Excel 的數據採礦用戶端) 如果您使用外部數據源,則只能使用隨機取樣選項。 此外,您必須使用 [ 數據列計數 ] 選項,指定要在最終數據集中建立的數據列數目。 您無法指定來源資料的百分比。
隨機取樣頁面 (適用於 Excel 的數據採礦用戶端) 您可以從來源複製數據列的百分比,或複製特定數目的數據列。
過度取樣頁(Excel 資料探勘用戶端) 目標狀態

從清單中選取在原始數據集中代表不足的值。 過度取樣會增加包含此狀態的數據列比例。

範例大小

選取要擷取的數據列總數。 這個值代表最終數據集的大小。

其他取樣選項

如果此精靈中的取樣選項不符合您的需求,您可以使用 SQL Server Integration Services (SSIS) 中的取樣轉換來取樣來自多個數據源的數據列。

如需詳細資訊,請參閱 數據列取樣轉換百分比取樣轉換

另請參閱

數據採礦準備檢查清單