Microsoft SQL Server Analysis Services 中的數據採礦精靈會在每次將新的採礦結構新增至數據採礦專案時啟動。 精靈可協助您選擇數據源,並設定數據源檢視,以定義要用於分析的數據,然後協助您建立初始模型。
在精靈的最後階段,您可以選擇性地將數據分割成訓練集和測試集,並啟用鑽取等功能。
開始之前要知道的事項
以下是啟動精靈之前必須知道的事項。
您會從關係資料庫或 OLAP 資料庫中的現有多維資料集建置資料探勘的結構和模型嗎?
哪些數據行包含可唯一識別案例記錄的索引鍵?
您要用於預測的數據行或屬性為何? 哪些數據行或屬性適合做為分析的輸入?
您應該使用哪一種演算法? SQL Server Analysis Services 中提供的演算法都有不同的特性,併產生不同的結果。 幸運的是,您不限於每個數據集的一個模型,因此您可以藉由新增不同的模型,隨意進行實驗。
您需要能夠在統一數據集上測試模型嗎? 若是如此,請考慮使用 選項將一些數據放在一邊進行測試。 您可以選擇一個百分比,並在需要時將其限制在指定的列數上限。
啟動數據採礦精靈
若要使用 [數據採礦精靈],您必須已在包含至少一個數據採礦或 OLAP 專案的 SQL Server Data Tools (SSDT) 中開啟解決方案。
如果您的解決方案已準備好進行數據採礦,您可以直接以滑鼠右鍵按兩下 [方案總管] 中的 [ 採礦結構 ] 節點,然後選取 [ 新增採礦結構 ] 以啟動精靈。
如果您的方案未包含任何現有的專案,您可以新增數據採礦專案。 從 [ 檔案] 功能表中,選取 [ 新增],然後選取 [ 專案]。 請務必選擇範本 Analysis Services 多維度和數據採礦專案。
您也可以使用 Analysis Services 匯入精靈,從現有的數據採礦解決方案取得元數據。 不過,您無法選取要匯入的個別物件;匯入整個資料庫,包括任何 Cube、數據源檢視等等。另請注意,透過匯入建立的新解決方案會自動設定為使用本機預設資料庫。 您可能需要將此變更為另一個實例,才能處理或瀏覽物件。如果您是從舊版 Analysis Services 匯入,則可能需要更新提供者的參考。
接下來,您將建立採礦結構和一個相關聯的數據採礦模型。 您也可以只建立採礦結構,並在稍後新增模型,但通常最容易先建立測試模型。
關係型與 OLAP 採礦模型
您擁有的下一個重要選項是使用關係型數據源,還是將模型以多維度 (OLAP) 數據為基礎。
數據採礦精靈會根據數據源是否為關聯型或立方體而在此分為兩個路徑。 除了數據選取過程之外,其他所有部分的選擇,如演算法的選擇、添加鑒效數據集的能力等,都是相同的,但選取多維數據比使用關係型數據更為複雜。 (如果您根據立方體建立模型,也會在結尾獲得一些其他選項。)
如需查看每個選項的詳細解說,請參閱下列主題:
建立關係型採礦結構
逐步引導您完成建置關係型數據採礦模型時所做的決策。
建立 OLAP 採礦結構
描述從 OLAP Cube 選擇資料時要進行的其他選項和選擇。
備註
您不需要有 Cube 或 OLAP 資料庫來執行數據採礦。 除非您的數據已儲存在 Cube 中,或您想要採礦 OLAP 維度或 OLAP 匯總或計算的結果,否則建議您使用關係型數據表或數據源進行數據採礦。
選擇演算法
接下來,您必須決定要在處理數據時使用的演算法。 這個決定可能很難做出。 Analysis Services 中提供的每個演算法都有不同的功能併產生不同的結果,因此您可以在判斷最適合您的數據和商務問題之前,先實驗並嘗試數個不同的模型。 如需每個演算法最適合的工作說明,請參閱下列主題:
資料採礦演算法 (Analysis Services - 數據採礦)
同樣地,您可以使用不同的演算法建立多個模型,或變更演算法的參數來建立不同的模型。 您不會鎖定至您選擇的演算法,而且最好在同一個數據上建立數個不同的模型。
定義用於模型化的數據
除了從來源選擇數據之外,您還必須指定數據源檢視中的哪一個數據表包含 案例數據。 案例數據表將用來定型數據採礦模型,因此應該包含您想要分析的實體:例如,客戶及其人口統計資訊。 每個案例都必須是唯一的,而且必須透過 案例索引鍵來識別。
除了指定案例數據表之外,您還可以在數據中包含 巢狀數據表 。 巢狀數據表通常包含案例數據表中實體的其他資訊,例如客戶所執行的交易,或與實體具有多對一關聯性的屬性。 例如,聯結至 Customers 案例數據表的巢狀數據表可能包含每個客戶購買的產品清單。 在分析網站流量的模型中,巢狀數據表可能包含使用者瀏覽的頁面序列。 如需詳細資訊,請參閱 巢狀數據表(Analysis Services - 數據採礦)
其他功能
為了協助您選擇正確的數據,並正確設定數據源,數據採礦精靈會提供下列其他功能:
數據類型的自動 -detection:精靈會檢查數據行值的唯一性和分佈,然後建議最佳數據類型,並建議數據的使用類型。 您可以從清單中選取值來覆蓋這些建議。
變數的建議:您可以點擊對話框,並啟動分析器,以計算模型中所含數據行之間的相互關聯,並判斷任何數據行是否可能是結果特徵的預測指標,根據當前模型的配置。 您可以輸入不同的值來覆寫這些建議。
特徵選取:大部分的演算法都會自動偵測良好預測值的數據行,並優先使用這些數據行。 在包含太多值的數據行中,將會套用 特徵選取 ,以減少數據的基數,並改善尋找有意義的模式的機會。 您可以使用模型參數來影響特徵選取行為。
自動分割 Cube:如果您的採礦模型是以 OLAP 數據源為基礎,則會自動提供使用 Cube 屬性來切割模型的能力。 這對於根據 Cube 數據的子集建立模型非常方便。
完成向導步骤
精靈程序的最後一步是為採礦結構及其相關的採礦模型命名。 根據您建立的模型類型,您可能也有下列重要選項:
如果您選取 [允許鑽研],模型會啟用 鑽研 的功能。 透過鑽取,具有適當許可權的使用者可以探索用來建置模型的原始資料。
如果您要建置 OLAP 模型,您可以選取選項、 建立新的數據採礦 Cube或建立數據採礦維度。 這兩個選項都可讓您更輕鬆地流覽完成的模型,並鑽研至基礎數據。
完成數據採礦精靈之後,您可以使用數據採礦設計師來修改採礦結構和模型、檢視模型的正確性、檢視結構和模型的特性,或使用模型進行預測。
相關內容
若要深入瞭解建立數據採礦模型時需要做出的決策,請參閱下列連結:
資料採礦演算法 (Analysis Services - 數據採礦)