このトピックでは、Microsoft 線形回帰アルゴリズムを使用するモデルに固有のマイニング モデル コンテンツについて説明します。 すべてのモデルの種類のマイニング モデル コンテンツの一般的な説明については、「 マイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
線形回帰モデルの構造について
線形回帰モデルには、非常に単純な構造があります。 各モデルには、モデルとそのメタデータを表す単一の親ノードと、予測可能な各属性の回帰式を含む回帰ツリー ノード (NODE_TYPE = 25) があります。
線形回帰モデルでは Microsoft デシジョン ツリーと同じアルゴリズムが使用されますが、ツリーを制約するために異なるパラメーターが使用され、連続属性のみが入力として受け入れられます。 ただし、線形回帰モデルは Microsoft デシジョン ツリー アルゴリズムに基づいているため、線形回帰モデルは Microsoft デシジョン ツリー ビューアーを使用して表示されます。 詳細については、「 Microsoft ツリー ビューアーを使用してモデルを参照する」を参照してください。
次のセクションでは、回帰式ノードの情報を解釈する方法について説明します。 この情報は、線形回帰モデルだけでなく、ツリーの一部に回帰を含むデシジョン ツリー モデルにも適用されます。
線形回帰モデルのモデル コンテンツ
このセクションでは、線形回帰に特定の関連性を持つマイニング モデル コンテンツ内の列についてのみ、詳細と例を示します。
スキーマ行セットの汎用列の詳細については、「 マイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
モデルカタログ
モデルが格納されているデータベースの名前。
MODEL_NAME
モデルの名前。
属性名
ルート ノード: 空白
回帰ノード: 予測可能な属性の名前。
ノード名
常にNODE_UNIQUE_NAMEと同じです。
ノード_ユニーク_ネーム
モデル内のノードの一意識別子。 この値は変更できません。
ノードタイプ
線形回帰モデルでは、次のノードの種類が出力されます。
| ノードの種類 ID | タイプ | 説明 |
|---|---|---|
| 二十五 | 回帰ツリーのルート | 入力変数と出力変数の関係を記述する数式を格納します。 |
ノードキャプション
ノードに関連付けられているラベルまたはキャプション。 このプロパティは主に表示目的です。
ルート ノード: 空白
回帰ノード: すべて。
子供の基数
ノードに含まれる子の数の見積もり。
ルート ノード: 回帰ノードの数を示します。 モデル内の予測可能な属性ごとに 1 つの回帰ノードが作成されます。
回帰ノード: 常に 0。
親ユニーク名
ノードの親の一意の名前。 ルート レベルのすべてのノードに対して NULL が返されます。
ノードの説明
ノードの説明。
ルート ノード: 空白
回帰ノード: すべて
ノードルール
線形回帰モデルには使用されません。
限界規則
線形回帰モデルには使用されません。
ノード確率
このノードに関連付けられている確率。
ルート ノード: 0
回帰ノード: 1
周辺確率
親ノードからノードに到達する確率。
ルート ノード: 0
回帰ノード: 1
ノード配分
ノード内の値に関する統計情報を提供する入れ子になったテーブル。
ルート ノード: 0
回帰ノード: 回帰式の作成に使用する要素を含むテーブル。 回帰ノードには、次の値型が含まれています。
| 値の型 |
|---|
| 1 (不足) |
| 3 (連続) |
| 7 (係数) |
| 8 (スコア ゲイン) |
| 9 (統計) |
| 11 (インターセプト) |
ノードサポート
このノードをサポートするケースの数。
ルート ノード: 0
回帰ノード: トレーニング ケースの数。
MSOLAP_MODEL_COLUMN
予測可能な属性の名前。
MSOLAP_NODE_SCORE
NODE_PROBABILITYと同じ
MSOLAP_ノード_短いキャプション
表示目的で使用されるラベル。
注釈
Microsoft 線形回帰アルゴリズムを使用してモデルを作成すると、データ マイニング エンジンはデシジョン ツリー モデルの特殊なインスタンスを作成し、ツリーを制約して、すべてのトレーニング データを 1 つのノードに含めるパラメーターを提供します。 すべての連続入力にはフラグが設定され、潜在的なリグレッサーとして評価されますが、最終的なモデルでは、データに適合するリグレッサーのみがリグレッサーとして保持されます。 この分析では、回帰式ごとに 1 つの回帰式が生成されるか、回帰式がまったく生成されません。
Microsoft ツリー ビューアーで [すべて] ノードをクリックすると、マイニング凡例で完全な回帰式を表示できます。
また、継続的な予測可能な属性を含むデシジョン ツリー モデルを作成する場合、ツリーに回帰ツリー ノードのプロパティを共有する回帰ノードがある場合があります。
連続属性のノード分布
回帰ノードの重要な情報のほとんどは、NODE_DISTRIBUTION テーブルに含まれています。 次の例は、NODE_DISTRIBUTION テーブルのレイアウトを示しています。 この例では、Targeted Mailing マイニング構造を使用して、年齢に基づいて顧客の収入を予測する線形回帰モデルを作成しています。 このモデルは、既存の AdventureWorks2012 サンプル データとマイニング構造を使用して簡単に構築できるため、説明のみを目的としています。
| 属性名 | 属性_値 | サポート | 確率 | 変異 | 値の型 |
|---|---|---|---|---|---|
| 年収 | 行方不明 | 0 | 0.000457142857142857 | 0 | 1 |
| 年収 | 57220.8876687257 | 17484 | 0.999542857142857 | 1041275619.52776 | 3 |
| 年齢 | 471.687717702463 | 0 | 0 | 126.969442359327 | 7 |
| 年齢 | 234.680904692439 | 0 | 0 | 0 | 8 |
| 年齢 | 45.4269617936399 | 0 | 0 | 126.969442359327 | 9 |
| 35793.5477381267 | 0 | 0 | 1012968919.28372 | 11 |
NODE_DISTRIBUTION テーブルには複数の行が含まれています。各行は変数でグループ化されます。 最初の 2 行は常に値型 1 と 3 であり、ターゲット属性を記述します。 後続の行は、特定の リグレッサーの数式に関する詳細を提供します。 リグレッサーは、出力変数と線形リレーションシップを持つ入力変数です。 複数のリグレッサーを使用でき、各リグレッサーには係数 (VALUETYPE = 7)、スコア ゲイン (VALUETYPE = 8)、および統計 (VALUETYPE = 9) に対して個別の行があります。 最後に、テーブルには、数式の切片を含む行があります (VALUETYPE = 11)。
回帰式の要素
入れ子になったNODE_DISTRIBUTION テーブルには、回帰式の各要素が個別の行に含まれています。 この例の結果の最初の 2 行のデータには、従属変数をモデル化する予測可能な属性 Yearly Income に関する情報が含まれています。 [サポート] 列には、この属性の 2 つの状態をサポートしているケースの数が表示されます。 年収 の値が使用可能であったか、 年収 の値が欠落しています。
VARIANCE 列には、予測可能な属性の計算された分散が表示されます。 分散 は、予想される分布を考えると、サンプル内の値がどのように分散しているかを示す尺度です。 ここでの分散は、平均からの二乗偏差の平均を取ることによって計算されます。 分散の平方根は標準偏差とも呼ばれます。 Analysis Services では標準偏差は提供されませんが、簡単に計算できます。
リグレッサーごとに、3 つの行が出力されます。 係数、スコア ゲイン、およびリグレッサー統計が含まれています。
最後に、方程式の切片を示す行がテーブルに含まれています。
係数
各リグレッサーについて、係数 (VALUETYPE = 7) が計算されます。 係数自体はATTRIBUTE_VALUE列に表示されますが、VARIANCE 列は係数の分散を示します。 係数は、線形性を最大化するために計算されます。
スコア増加
各リグレッサーのスコア ゲイン (VALUETYPE = 8) は、属性の興味深さのスコアを表します。 この値を使用して、複数のリグレッサーの有用性を推定できます。
統計
リグレッサー統計量 (VALUETYPE = 9) は、値を持つケースの属性の平均です。 ATTRIBUTE_VALUE列には平均自体が含まれますが、VARIANCE 列には平均からの偏差の合計が含まれます。
遮る
通常、回帰式の 切片 (VALUETYPE = 11) または 残差 は、入力属性が 0 の時点で予測可能な属性の値を示します。 多くの場合、これは発生せず、直感に反する結果につながる可能性があります。
たとえば、年齢に基づいて収入を予測するモデルでは、0 歳の収入を学習することは役に立ちません。 実際の生活では、通常、平均値に関する線の動作について知る方が便利です。 したがって、SQL Server Analysis Services は、平均との関係で各リグレッサーを表現するようにインターセプトを変更します。
この調整はマイニング モデルのコンテンツでは見にくいですが、Microsoft ツリー ビューアーのマイニング凡例で完成した数式を表示した場合は明らかです。 回帰式は、0 ポイントから平均を表すポイントにシフトされます。 これにより、現在のデータに対してより直感的なビューが表示されます。
したがって、平均年齢が約 45 であると仮定すると、回帰式の切片 (VALUETYPE = 11) によって平均収入が示されます。
こちらもご覧ください
マイニング モデル コンテンツ (Analysis Services - データ マイニング)
Microsoft 線形回帰アルゴリズム
Microsoft 線形回帰アルゴリズムのテクニカル リファレンス
線形回帰モデルクエリの例