共用方式為


建立資料探勘結構(SQL Server 資料探勘增益集)

[建立採礦結構] 按鈕、[數據採礦] 功能區

當您想要建立用於分析的數據集,而不一定建立模型時,請使用數據模型群組中的 [進階] 選項。 當您想要試驗不同的演算法時,這會很有用。

建立採礦結構之後,請使用 [新增模型至結構 ] 精靈,根據該結構建立模型。 您也可以使用 數據採礦進階查詢編輯器來建立新的模型。

當您打算使用進階演算法來建置模型,而這些演算法是由 Analysis Services 支援但無法通過精靈使用的(例如線性回歸或時序群集),或是您在使用自定義演算法時,您也可以選擇使用此選項。

備註

當您建立採礦結構時,也可以建立隨機選取的測試數據集,以用來驗證所有模型。 這很方便,因為您可以輕鬆地比較模型精確度與一般數據集。 只要選取選項 將數據分割成訓練集和測試集,並指定適當的百分比來保留進行測試,通常約為 30%。

使用精靈建立採礦結構

  1. 在 [ 數據採礦] 功能區中,按兩下 [ 進階],然後選取 [ 建立結構]。

  2. 在 [ 選取源數據 ] 對話框中,指定 Excel 範圍、Excel 數據表或外部數據源,其中包含您要用於分析的數據。

    [下一步]。

  3. 在 [ 選取數據行 ] 對話框中,檢閱所選數據源中可用的數據行清單。

  4. 按下資料行名稱右邊的箭號,以變更資料行 的使用方式 ,從下列值中選擇:

    • 索引鍵。 每個模型至少需要一個索引鍵。

    • 關鍵時間。 此選項僅適用於預測模型,其中是必要的。

    • 包含。 表示該欄應在採礦結構中提供,但不是鍵欄。

    • 請勿使用。 表示該欄位不應包含在資料探勘結構中。

    請記住,當您建置模型時,一律可以忽略數據行,但稍後新增數據行需要重新處理結構和模型。

  5. 按兩覽 (...) 按鈕來設定內容類型、資料類型和模型旗標。

    備註

    如果數據列包含數值數據,您應該一律開啟此對話框,以確保已選擇正確的數據類型。 在某些情況下,即使輸入數據是數位,您還是要將它視為類別變數或離散值,而不是連續數位。

    例如,郵遞區號欄位預設可能會列為連續的長整數資料類型,但為了取得更好的結果,您可以設定其處理為離散的文字資料值。

    如需詳細資訊,請參閱 選擇數據採礦中的數據中的內容類型一節。

    確定 以關閉對話框。

  6. [下一步]。

    視您所使用的資料類型,您可能會在此步驟之後完成向導。 在此情況下,請跳到 完成 頁面,為您的採礦結構命名。

    對於其他模型,您有其他選項可建立測試數據集。

  7. 在 [ 將數據分割成定型和測試數據集 ] 對話框中,指定數據分割的方式。 根據預設,30% 的數據會用於測試。

    或者,輸入要用於測試的數據列數目上限。

    [下一步]。

  8. 在 [ 完成] 對話框中,輸入新採礦結構的名稱和描述。

  9. 按一下完成

選項 評論
選取源數據 對話框 當您選取 Excel 數據表時,應該指出數據是否已經有標頭。 如果您略過這步,將使用第一列資料作為欄位名稱。

如果您使用 [ 外部數據源] 選項,則可以使用任何可在 Analysis Services 數據源中定義的數據類型。 不過,用於建立新數據源的載入巨集中的對話框不包含 Analysis Services 支援的完整數據源範圍,因此我們建議您事先在 Analysis Services 伺服器上建立數據源,然後使用載入巨集進行連線。
數據源查詢編輯器 對話框 連接到指定的數據源之後,您可以新增資料行,或建立自定義查詢來產生自定義數據行。
將數據分割成定型和測試數據集 定型與測試集的建議值是 70% 用於定型,30% 用於測試;不過,如果您有大量數據,您可以指定測試的數據列數目上限。
完成對話框 鑽取(drillthrough)選項可以用於某些模型類型,如果您已在挖掘結構中包含詳細欄位,這些選項會非常有用。 例如,如果您建立群體模型,可以包含名稱或電子郵件地址等詳細資料以進行明細查詢,但不用于分析,這使您更容易與特定群體中的客戶聯絡。

在 [建立採礦結構精靈] 中設定數據行使用方式

當您建立新的採礦結構時,可以指定數據源中的哪些數據行應該包含在採礦結構中,以及應該如何使用這些數據行。 請記住,採礦結構可以支援多個採礦模型。

價值觀 說明
包括 指定數據列包含可用於分析或預測的數據。
鑰匙 指定數據行包含交易標識碼、數列標識碼,或處理所需的另一個索引鍵。

所有演算法都需要 Key 資料行。 不過,有些演算法只允許單一密鑰,而另一些演算法則允許多個密鑰。

如果數據行包含索引鍵,但不需要進行處理,請選取 [不要使用]。
關鍵時間 指定資料欄包含日期或其他數值,可用來唯一識別時間序列中的項目。
請勿使用 指定應該忽略欄。 將不會處理數據行中的數據。

為了正確處理模型,演算法必須知道哪一個欄位是可以唯一識別每一列的索引鍵欄位,如果您要建立可預測模型,則需要知道哪個欄位是用來創建預測的目標欄位,以及哪些欄位作為輸入欄位來建立預測目標欄位的關係。

  • 被指定為不要使用的欄將不會存在於採礦結構中。

    如果您新增不必要的數據行或有不正確的值,可能會對分析的結果產生負面影響。 因此,請務必只包含相關的欄位。 不過,請記住,您在採礦結構中未使用的欄位將無法用於查詢。

  • 指定為 Include 類型的數據行將會包含在採礦結構中,稍後可用於採礦模型中的分析或預測。

    如果您不確定是否需要使用欄位,您可以隨時將欄位包含在資料挖掘結構中,然後建立一個不使用該欄位的資料挖掘模型。 例如,您可能會在數據中包含電話號碼數據行以供稍後參考,但建立忽略電話號碼的叢集模型。 建立叢集之後,您可以建立查詢,以傳回屬於特定叢集的人員電話號碼。

  • 所有演算法都需要 Key 欄。 Key 數據行中的值必須是唯一的。 只有在預測或時間序列模型中才需要 關鍵時間 欄。 .

需求

若要建立資料挖掘結構,您必須具備與 Analysis Services 實例的連接。 即使您使用暫存結構,也需要連接。 如需如何建立或變更連線的詳細資訊,請參閱連接到源數據(適用於 Excel 的數據採礦用戶端)。

另請參閱

建立數據採礦模型