照合ポリシーを作成する

このトピックでは、Data Quality Services (DQS) のナレッジベースで照合ポリシーを作成する方法について説明します。 DQS で照合プロセスの準備を行うには、サンプルデータに対して照合ポリシーアクティビティを実行します。このアクティビティでは、ポリシーで 1 つ以上の照合ルールを作成してテストし、ナレッジベースを公開して照合ルールを一般に使用できるようにします。ナレッジベースに一致するポリシーは 1 つだけ存在できますが、そのポリシーには複数の照合ルールを含めることができます。

照合ポリシーの作成は、3 つの段階で実行されます。データソースを識別し、ドメインを列にマップするマッピングプロセス、1 つ以上の一致ルールを作成して各一致ルールを個別にテストする照合ポリシープロセス、一致するすべてのルールを一緒に実行する照合結果プロセス、およびそれらに満足した場合は、ナレッジベースにポリシーを追加します。これらの各プロセスは、照合ポリシーアクティビティウィザードの個別のページで実行されます。これにより、異なるページ間を移動したり、プロセスを再実行したり、特定の照合ポリシープロセスを終了したり、プロセスの同じステージに戻ったりすることができます。すべてのルールをまとめてテストした後、必要に応じて [ 照合ポリシー] ページに戻り、個々のルールを調整し、個別にテストしてから、[ 照合結果 ] ページに戻り、すべてのルールを再度一緒に実行できます。 DQS では、ソースデータ、照合ルール、照合結果に関する統計情報が提供されます。これにより、照合ポリシーに関する情報に基づいた意思決定を行い、調整することができます。

開始する前に

[前提条件]

ソースデータが Excel ファイル内にある場合は、Data Quality Client コンピューターに Microsoft Excel をインストールする必要があります。それ以外の場合、マッピングステージで Excel ファイルを選択することはできません。 Microsoft Excel によって作成されるファイルには、.xlsx、.xls、または .csvの拡張子を付けることができます。 64 ビット版の Excel が使用されている場合は、Excel 2003 ファイル (.xls) のみがサポートされます。Excel 2007 または 2010 ファイル (.xlsx) はサポートされていません。 64 ビットバージョンの Excel 2007 または 2010 を使用している場合は、ファイルを .xls ファイルまたは .csv ファイルとして保存するか、代わりに 32 ビットバージョンの Excel をインストールします。

安全

権限

照合ポリシーを作成するには、DQS_MAIN データベースに対するdqs_kb_editorまたはdqs_administratorロールが必要です。

照合ルールのパラメーターを設定する方法

一致ルールの作成は反復的なプロセスであり、あるレコードが別のレコードと一致しているかどうかを判断するために使用される要因を入力します。テーブル内の任意のドメインの条件を入力できます。 DQS は、2 つのレコードに対して照合を実行すると、照合ルールに含まれるドメインにマップされたフィールドの値を比較します。 DQS は、ルールの各フィールドの値を分析し、各ドメインのルールに入力された要因を使用して最終的な一致スコアを計算します。比較される 2 つのレコードの照合スコアが最小一致スコアより大きい場合、2 つのフィールドは一致と見なされます。

照合ルールに入力する要素は次のとおりです。

重み: ルール内の各ドメインについて、ドメインの照合分析とルール内の相互ドメインの比較方法を決定する数値の重みを入力します。重みは、2つのレコード間の総合的な一致スコアに対するフィールドスコアの寄与を示しています。各ソースフィールドに割り当てられた計算されたスコアは、2 つのレコードの複合一致スコアに対して合計されます。前提条件ではない (正確または類似の類似性を持つ) フィールドごとに、重みを 10 から 100 に設定します。前提条件ではないドメインの重みの合計は 100 に等しい必要があります。値が前提条件である場合、重みは 0 に設定され、変更できません。
[正確な値の類似性]: 2 つの異なるレコードの同じフィールドの値が一致と見なされるために同一である必要がある場合は、[ 正確 ] を選択します。同一の場合、そのドメインの照合スコアは "100" に設定され、DQS はそのスコアとルール内の他のドメインのスコアを使用して集計照合スコアを決定します。同じでない場合、そのドメインの一致スコアは "0" に設定され、ルールの処理は次の条件に進みます。数値ドメインに一致するルールを設定し、[ 類似] を選択した場合は、許容範囲をパーセンテージまたは整数で入力できます。日付型のドメインの場合、[ 類似] を選択した場合は、日、月、または年 (整数) として許容範囲を入力できます。日付ドメインに対するパーセンテージの許容範囲はありません。 [正確] を選択した場合、このオプションはありません。
類似の類似性: 2 つの異なるレコードの同じフィールド内の 2 つの値が同じでない場合でも一致と見なすことができる場合は、[ 類似 ] を選択します。 DQS は、ルールを実行すると、そのドメインの一致スコアを計算し、そのスコアとルール内の他のドメインのスコアを使用して、集計一致スコアを決定します。フィールドの値間の最小類似性は 60%です。 2 つのレコードのフィールドに対して計算された一致スコアが 60 未満の場合、類似性スコアは自動的に 0 に設定されます。数値フィールドに一致するルールを設定し、[ 類似] を選択した場合は、許容範囲をパーセンテージまたは整数で入力できます。日付フィールドに一致するルールを設定し、[ 類似] を選択した場合は、数値許容値を入力できます。
前提条件: 2 つの異なるレコードの同じフィールド内の値が 100% 一致を返す必要がある、またはレコードが一致と見なされず、ルール内の他の句が無視されるように指定するには、[ 前提条件 ] を選択します。 [前提条件] を選択すると、ドメインの重み付けフィールドが削除され、ドメインの重みを定義できなくなります。重みの合計が 100 になるように、1 つ以上のドメインの重みをリセットする必要があります。前提条件ドメインは、レコード一致スコアには影響しません。レコード一致スコアは、類似性が [類似] または [正確] に設定されているフィールドの値を比較することによって決定されます。フィールドを前提条件にすると、そのドメインの類似性が自動的に [正確] に設定されます。

最小一致スコアは、2 つのレコードが一致と見なされるしきい値以上です (レコードの状態は "Matched" に設定されます)。整数値を "1" の増分で入力するか、上矢印または下矢印をクリックして値を "10" 単位で増減します。最小値は 80 です。一致するスコアが 80 未満の場合、2 つのレコードは一致とは見なされません。このページでは、最小一致スコアの範囲を変更することはできません。最も低い最小一致スコアは 80 です。ただし、[管理] ページ内で最小一致スコアを変更できます (DQS 管理者の場合)。

一致ルールの作成は反復的なプロセスです。必要な結果を得るには、ルール内のドメインの相対的な重み、ドメインの類似性または前提条件プロパティ、またはルールの最小一致スコアを変更する必要があるためです。また、複数のルールを作成する必要があり、それぞれが一致するスコアを作成するために実行される場合もあります。 1 つのルールだけで必要な結果を得るのは困難な場合があります。複数のルールによって、必要に応じた一致のさまざまな見方が提供されます。複数のルールを使用すると、各ルールに含めるドメインの数を減らしたり、各ドメインに高い重みを使用したり、より良い結果を得ることができる場合があります。データの精度が低く、完成度が低い場合は、必要な一致を見つけるためにさらに多くのルールが必要になる場合があります。データがより正確で完全な場合は、必要なルールが少なくなります。

プロファイリングは、完全性と一意性に関する分析情報を提供します。完全性と一意性を並行して検討してください。完全性と一意性データを使用して、照合プロセスでフィールドに与える重みを決定します。フィールドに一意性が高い場合、照合ポリシーでフィールドを使用すると、一致する結果が減少する可能性があるため、そのフィールドの重みを比較的小さな値に設定できます。列の一意性が低くても、完全性が低い場合は、その列のドメインを含めないようにすることができます。一意性は低いが、完全性が高い場合は、ドメインを含めることができます。性別などの一部の列は、自然に一意性のレベルが低い場合があります。詳細については、「プロファイラーと結果のタブ」を参照してください。

最初の手順: 照合ポリシーの開始

照合ポリシーアクティビティは、Data Quality Client アプリケーションのナレッジベース管理領域で実行します。

Data Quality クライアントを開始します。これを行う方法の詳細については、「Data Quality Client アプリケーションの実行」を参照してください。
Data Quality Client のホーム画面で、[ 新しいナレッジベース ] をクリックして、新しいナレッジベースで照合ポリシーを作成します。ナレッジベースの名前を入力し、説明を入力して、必要に応じて [ナレッジベースの作成] を設定します。アクティビティの [ 照合ポリシー ] をクリックします。 [次へ] をクリックして続行します。
[ ナレッジベースを開く ] をクリックして、既存のナレッジベースで照合ポリシーを作成または変更します。ナレッジベースを選択し、[ 照合ポリシー] を選択し、[ 次へ] をクリックします。 最近使用したナレッジベースの中から、ナレッジベースをクリックすることもできます。照合ポリシーの作業中に閉じられたナレッジベースを開いた場合は、照合ポリシーアクティビティが閉じられたステージに進みます (ナレッジベーステーブルのナレッジベースの [状態 ] 列または [最近使用した ナレッジベース] のナレッジベース名で示されます)。照合ポリシーを含むナレッジベースを開き、完了した場合は、[ 照合ポリシー ] ページに移動します。照合ポリシーを含まないナレッジベースを開き、完了した場合は、[ マッピング ] ページに移動します。

マッピングステージ

マッピングステージでは、照合ポリシーを作成するデータのソースを特定し、ソース列をドメインにマップして、一致するポリシーアクティビティでドメインを使用できるようにします。

[ マップ ] ページで、データベースのポリシーを作成するには、[ データソース]を SQL Server のままにし、ポリシーを作成するデータベースを [データベース] で選択し、[ テーブル/ビュー] でテーブルまたはビューを選択します。ソースデータベースは、Data Quality Server と同じ SQL Server インスタンスに存在する必要があります。それ以外の場合、ドロップダウンリストには表示されません。
Excel スプレッドシートでデータのポリシーを作成するには、[データソース用の Excel ファイル] を選択し、[参照] をクリックして Excel ファイルを選択し、必要に応じて [先頭行をヘッダーとして使用] を選択したままにします。 [ワークシート] で、データのソースとなる Excel ファイル内のワークシートを選択します。 Excel ファイルを選択するには、Data Quality Client コンピューターに Microsoft Excel をインストールする必要があります。それ以外の場合、[参照] ボタンは使用できません。このテキストボックスの下に、Microsoft Excel がインストールされていないことが通知されます。
[ マッピング] で、[ ソース列] のフィールドを選択し、[ ドメインの作成 ] アイコンをクリックします。
[ マッピング] で、[ ソース列] のデータソースのフィールドを選択し、対応するドメインを選択します。一致するプロセスで使用するすべてのドメインに対して繰り返します。 [ドメインの作成] または [複合 ドメインの作成 ] をクリックして、必要 に応じてドメインを作成します。

注

ソースデータ型が DQS でサポートされ、DQS ドメインのデータ型と一致する場合にのみ、照合ポリシーを作成するときに、ソースデータを DQS ドメインにマップできます。 DQS でサポートされているデータ型の詳細については、「DQS ドメインでサポートされている SQL Server および SSIS データ型」を参照してください。
プラス (+) コントロールをクリックして Mappings テーブルに行を追加するか、マイナス (-) コントロールをクリックして行を削除します。
[ データソースのプレビュー ] をクリックすると、選択した SQL Server テーブルまたはビュー、または選択した Excel ワークシートにデータが表示されます。
[ 複合ドメインの表示/選択 ] をクリックして、ナレッジベースで使用可能な複合ドメインの一覧を表示し、マッピングに応じて選択します。
[ 次へ ] をクリックして、照合ポリシーステージに進みます。

注

[ 閉じる ] をクリックして、一致するプロジェクトのステージを保存し、DQS ホームページに戻ります。次にこのプロジェクトを開くと、同じステージから開始されます。 [ キャンセル] をクリックすると、一致するアクティビティが終了し、作業が失われ、DQS ホームページに戻ります。

照合ポリシー段階

照合ルールを作成し、[照合ポリシー] ページで個別にテストします。 [照合ポリシー] ページで照合ルールをテストすると、選択したルールについて DQS によって識別されたクラスターを示す照合結果テーブルが表示されます。テーブルには、クラスター内の各レコードと、マッピングドメインの値と一致するスコア、およびクラスターの初期ピボットレコードが表示されます。照合プロセス全体のプロファイリングデータ、各照合ルールの条件、および一致する各ルールの結果に関する統計を個別に表示することもできます。必要なマスタールールデータをフィルター処理できます。

照合ルールの動作の詳細については、「照合ルールパラメーターを設定する方法」を参照してください。

[ 照合ポリシー ] ページで、[ 照合ルールの作成 ] アイコンをクリックします。
ルールの名前と説明を入力します。
一致する要件をより厳格にする場合は、 最小照合スコア の値を大きくします。最小一致スコアの詳細については、「照合ルールパラメーターを設定する方法」を参照してください。
[ 新しいドメイン要素の追加] アイコンを クリックします。
ルール値を入力するドメインまたは複合ドメインを選択します。

注

複合ドメインを選択できるのは、複合ドメイン内の各ドメインがソース列にマップされている場合のみです。
[類似性] では、2 つの異なるレコードの同じフィールド内の 2 つの値が同一でない場合でも一致と見なすことができる場合は、[類似] を選択します。 2 つの異なるレコードの同じフィールド内の 2 つの値が一致と見なされるために同一である必要がある場合は、[ 正確] を選択します。 (詳細については、「照合ルールのパラメーターを設定する方法」を参照してください)。
[ 重み] に、2 つのレコードの全体的な一致スコアに対するドメインの一致スコアの寄与度を決定する値を入力します。

注

複合ドメインの重みを定義する際には、複合ドメイン内の単一ドメインごとに異なる重みを入力することができます。この場合、複合ドメインには個別の重みが与えられません。または、複合ドメインに対して単一の重みを入力して、複合ドメイン内の単一ドメインに個別の重みを指定しないことも可能です。
[ 前提条件 ] を選択して、2 つのレコードのフィールドの値が 100% 一致を返す必要があることを指定します。それ以外の場合、レコードは一致と見なされず、ルール内の他の句は無視されます。 [類似性] が [類似] の場合は [正確] に変更され、重みは削除されます。一致するものは 100%である必要があるためです。
照合ルールの一部となる他のすべてのドメインについて、手順 4 から 8 を繰り返します。ルール内のすべてのドメインの重みの合計が 100 であることを確認します。
ドロップダウンリストから [ 重複するクラスター ] を選択すると、一致するクラスターのグループに共通のレコードがある場合でも、すべてのクラスターのピボットレコードとフォローレコードが表示されます。 [ 重複しないクラスター] を 選択すると、照合の実行時に共通のレコードを持つクラスターが 1 つのクラスターとして表示されます。
[ ソースからデータを再読み込み ] をクリックしてデータソースからステージングテーブルにデータをコピーし、照合ポリシーを実行するときにインデックスを再作成します。 ステージングテーブルにデータをコピーしてデータのインデックスを再作成せずに照合ポリシーを実行するには、[前のデータに対して実行] をクリックします。照合ポリシーの最初の実行で前のデータに対する実行が無効になっているか、[マップ] ページでマッピングを変更した場合は、次のポップアップで [はい] をクリックします。どちらの場合も、インデックスを再作成する必要があります。照合ポリシーが変更されていない場合は、インデックスを再作成する必要はありません。以前のデータで実行すると、パフォーマンスに役立ちます。
[ 開始 ] をクリックして、選択したルールの照合プロセスを実行します。プロセスが完了すると、テーブルには、クラスター内の各レコードのレコード ID、クラスター番号、およびデータ列 (一致するルールに含まれていない列を含む) が表示されます。クラスター内のピボット行は、重複除去プロセスを生き残るための主要な候補と見なされます。クラスター内の追加の各行は重複と見なされます。一致するスコア (ピボットレコードと比較) が結果テーブルに表示されます。クラスター番号は、クラスター内のピボットレコードのレコード ID と同じです。
照合結果テーブルのデータは、次のように操作できます。
- [フィルター] で [一致] を選択すると、一致したすべての行とそのスコアが表示されます。一致と見なされない行 (一致スコアが最小一致スコアより小さい) は、一致する結果テーブルには表示されません。一致しない行をすべて表示するには、[不一致] を選択してください。
- [ パーセント] ドロップダウンボックスで、ドロップダウンリストからパーセンテージ ("5" 単位) を選択します。その割合以上のスコアが一致するすべての行が、一致する結果テーブルに表示されます。
- 一致する結果テーブルでレコードをダブルクリックすると、[照合スコアの詳細] ポップアップが表示され、そこにはピボットレコードとソースレコード（それらすべてのフィールドの値）、それらの間のスコア、およびレコード照合の詳細が示されます。ドリルダウンでは、ピボットレコードとソースレコードの各フィールドの値が表示され、それらを比較でき、各フィールドが 2 つのレコードの全体的な一致スコアに寄与する一致スコアが表示されます。
[プロファイラー] タブと [一致する結果] タブで統計を表示し、必要な結果が得られるようにします。詳細については、「プロファイラーと結果のタブ」を参照してください。
ルールを変更する必要がある場合は、ルールエディターで変更し、[ 再起動] をクリックします。

注

最初の分析が完了すると、[ スタート ] ボタンが [再起動 ] ボタンに変わります。前の分析の結果がまだ保存されていない場合は、[ 再起動 ] をクリックすると、以前のデータが失われます。分析の実行中は、ページを離れたり、分析プロセスが終了したりしないでください。
[ 照合結果 ] タブには、ルールの最後の 2 回の実行の統計情報が表示されます。異なる設定で一致するルールを複数回実行した場合は、現在のルールと前のルールの統計情報を比較します。前のルールの結果が適切である場合は、[ 前のルールの復元 ] をクリックして前のルールの条件を復元し、編集前にルールを以前の状態に戻します。現在のルールの条件は失われます。これにより、最後の 2 回の照合実行に基づいてポリシーを調整でき、照合ポリシーのチューニングに費やす時間が短縮されます。
照合ポリシーに別のルールを追加する場合は、手順 1. から繰り返します。
[ 次へ ] をクリックして、一致する結果ステージに進みます。

照合結果段階

[照合結果] ページで一度にすべての照合ルールをテストします。これを行う前に、ルールテストの実行で重複または重複しないクラスターを識別するように指定できます。ルールを複数回実行している場合は、ソースから再読み込みされたデータまたは以前のデータに対してルールを実行できます。

[ 照合結果 ] ページで照合ルールをテストすると、すべてのルールについて DQS によって識別されたクラスターを示す一致する結果テーブルが表示されます。テーブルには、クラスター内の各レコードと、マッピングドメインの値と一致するスコア、およびクラスターの初期ピボットレコードが表示されます。また、照合ルール全体のプロファイルデータ、各照合ルールの条件、一致するすべてのルールの結果に関する統計情報を表示することもできます。

[照合結果] ページで、ドロップダウンリストから [重複するクラスター] を選択すると、クラスターのグループに共通のレコードがある場合でも、照合の実行時にすべてのクラスターのピボットレコードと次のレコードが表示されます。 [ 重複しないクラスター] を 選択すると、照合の実行時に共通のレコードを持つクラスターが 1 つのクラスターとして表示されます。
[ ソースからデータを再読み込み ] をクリックしてデータソースからステージングテーブルにデータをコピーし、照合ポリシーを実行するときにインデックスを再作成します。 ステージングテーブルにデータをコピーしてデータのインデックスを再作成せずに照合ポリシーを実行するには、[前のデータに対して実行] をクリックします。照合ポリシーの最初の実行で前のデータに対する実行が無効になっているか、[マップ] ページでマッピングを変更した場合は、次のポップアップで [はい] をクリックします。どちらの場合も、インデックスを再作成する必要があります。照合ポリシーが変更されていない場合は、インデックスを再作成する必要はありません。以前のデータで実行すると、パフォーマンスに役立ちます。
[ 開始 ] をクリックして、定義したすべてのルールに対して一致するプロセスを実行します。 [照合結果] テーブルには、クラスター内の各レコードのレコード ID、クラスター番号、およびデータ列 (照合ルールに含まれていない列を含む) が表示されます。クラスター内の先頭レコードがランダムに選択されます。 (一致するプロジェクトを実行するときに 、[エクスポート] ページでサバイバーシップルールを選択して、存続レコードを決定します)。クラスター内の追加の各行は重複と見なされます。一致するスコア (ピボットレコードと比較) が結果テーブルに表示されます。
照合結果テーブルのデータは、次のように操作できます。
- [フィルター] で [一致] を選択すると、一致したすべての行とそのスコアが表示されます。一致と見なされない行 (一致スコアが最小一致スコアより小さい) は、一致する結果テーブルには表示されません。一致していない行をすべて表示し、一致した行ではなくするには、一致しない を選択します。
- [ パーセント] ドロップダウンボックスで、ドロップダウンリストからパーセンテージ ("5" 単位) を選択します。その割合以上のスコアが一致するすべての行が、一致する結果テーブルに表示されます。
- 一致する結果テーブルのレコードをダブルクリックすると、DQS は[照合スコアの詳細]ポップアップを表示し、そこにピボットレコードとソースレコード（およびそれらのすべてのフィールドの値）、それらの間のスコア、レコード照合の詳細ドリルダウンが示されます。ドリルダウンでは、ピボットレコードとソースレコードの各フィールドの値が表示され、それらを比較でき、各フィールドが 2 つのレコードの全体的な一致スコアに寄与する一致スコアが表示されます。
[プロファイラー] タブと [一致する結果] タブで統計を表示し、必要な結果が得られるようにします。 [ 照合ルール ] タブをクリックして、各ルールのドメイン設定を確認します。詳細については、「プロファイラーと結果のタブ」を参照してください。
すべてのルールの結果に問題がある場合は、[ 戻る ] をクリックして [照合ポリシー ] ページに戻り、必要に応じて 1 つ以上のルールを変更し、[ 照合結果 ] ページに戻り、[ 再起動] をクリックします。

注

分析が完了すると、[ スタート ] ボタンが [再起動 ] ボタンに変わります。前の分析の結果がまだ保存されていない場合は、[ 再起動 ] をクリックすると、以前のデータが失われます。
すべてのルールの結果に問題がなければ、[ 完了 ] をクリックして照合ポリシープロセスを完了し、次のいずれかをクリックします。
- はい - ナレッジベースを発行して終了します。ナレッジベースは、現在のユーザーまたは他のユーザーが使用できるように公開されます。ナレッジベースはロックされず、ナレッジベース (ナレッジベーステーブル内) の状態は空に設定され、Domain Management アクティビティと Knowledge Discovery アクティビティの両方が使用可能になります。 [ナレッジベースを開く] 画面に戻ります。
- いいえ - ナレッジベースの作業を保存して終了します。作業は保存され、ナレッジベースはロックされたままになり、ナレッジベースの状態は [作業中] に設定されます。ドメイン管理アクティビティとナレッジ検出アクティビティの両方を使用できます。ホームページに戻ります。
- キャンセル - 現在の画面に留まる: ポップアップが閉じられ、ドメイン管理画面に戻ります。
[ 閉じる ] をクリックして作業内容を保存し、DQS ホームページに戻ります。ナレッジベースの状態には、文字列 "Matching Policy - "、および現在の状態が表示されます。 [照合結果] 画面で [閉じる] をクリックすると、"照合ポリシー - 結果" という状態が表示されます。 照合ポリシー画面で[閉じる]をクリックすると、"照合ポリシー - 照合ポリシー"という状態が表示されます。 [ 閉じる] をクリックした後、 ナレッジ検出 アクティビティを実行するには、 照合ポリシー アクティビティに戻り、[ 完了] をクリックし、[ はい ] をクリックしてナレッジベースを発行するか 、[いいえ ] をクリックしてナレッジベースに作業を保存して終了する必要があります。

注

一致するプロセスの実行中に [閉じる ] をクリックした場合、[ 閉じる] をクリックしても、一致するプロセスは終了しません。ナレッジベースを再度開くと、プロセスがまだ実行中であるか、完了した場合は結果が表示されることを確認できます。プロセスが完了していない場合は、進行状況が画面に表示されます。
[ キャンセル ] をクリックして照合ポリシーアクティビティを終了し、作業を失い、DQS ホームページに戻ります。

フォローアップ: 照合ポリシーを作成した後

照合ポリシーを作成したら、照合ポリシーを含むナレッジベースに基づいて、一致するプロジェクトを実行できます。詳細については、「一致するプロジェクトを実行する」を参照してください。

[プロファイラー] タブと [結果] タブ

[プロファイラーと結果] タブには、[照合ポリシー] ページと [照合結果] ページの両方の統計情報が表示されます。

[プロファイラー] タブ

[ Profiler ] タブをクリックすると、ソースデータベースと、ポリシールールに含まれる各フィールドの統計情報が表示されます。統計は、ポリシールールの実行時に更新されます。

次の統計情報を解釈する方法の詳細については、「照合ルールパラメーターを設定する方法」を参照してください。

ソースデータベースの統計には、次のものが含まれます。

レコード: ソースデータベース内のレコードの合計数
合計値: データソースのフィールド内の値の合計数
新しい値: 前回の実行以降に新しく追加された値の合計数と、その全体に対する割合
一意の値: フィールド内の一意の値の合計数と、その全体に対する割合
新しい一意の値: フィールドの新しい一意の値の合計数と、その全体に対する割合

フィールドの統計情報には、次のものが含まれます。

フィールド名
ドメイン名
新規: 新しい値の数と、ドメイン内の既存の値と比較した新しい値の割合
一意: フィールド内の一意のレコードの数とその合計に対する割合
完全性: 一致する演習用にマップされる各ソースフィールドの完全性

ポリシー通知の照合

照合ポリシーアクティビティの場合、次の条件によって通知が生成されます。

フィールドはすべてのレコードで空です。マッピングから削除することをお勧めします。
フィールドの完全性スコアは非常に低いです。マッピングから削除することもできます。
フィールド内のすべての値が無効です。フィールドの内容へのマッピングとドメインルールの関連性を確認する必要があります。
フィールドに有効な値のレベルが低い。フィールドの内容へのマッピングとドメインルールの関連性を確認する必要があります。
このフィールドには高度な一意性があります。照合ポリシーでこのフィールドを使用すると、照合結果が減少する可能性があります。

[照合結果] タブ

[ 照合結果 ] タブをクリックすると、照合ポリシールールの実行と、前のルール実行の統計情報が表示されます。異なるパラメーターを指定して同じルールを複数回実行した場合、一致する結果テーブルに両方の実行の統計情報が表示され、それらを比較できます。必要に応じて、前のルールを復元することもできます。

統計情報には、次のものが含まれます。

データベース内のレコードの合計数
データベース内の一致するレコードの合計数
重複と見なされないデータベース内のレコードの数
検出されたクラスターの数
クラスターの平均サイズ (重複レコードの数をクラスターの数で割った数)
クラスター内の重複の数が最も少ない
クラスター内の重複の最大数

Last updated on 2017-06-13