このレッスンでは、最初のレッスンで作成した Suppliers ナレッジ ベースを使用して、Excel ファイル内の 仕入先 データをクレンジングします。 DQS のデータ クレンジングには、ナレッジ ベースのナレッジにデータがどのように準拠しているかを分析する コンピューター支援プロセス と、コンピューター支援プロセスの結果を確認および変更できる 対話型プロセス が含まれます。 データ クレンジング機能は、データ ソース内の不適切なデータを識別し、正しくないデータの修正または修正提案を行います。 また、ドメイン値、シノニムの先頭値、ドメイン ルール、用語ベースの関係、および参照データを使用して、顧客データを標準化および強化します。 コンピューター支援プロセスによって提案された変更を対話的に承認または拒否できます。 詳細については、「 データ クレンジング 」を参照してください。
コンピューター支援プロセスでは、DQS クライアントのメイン ページの [構成] オプションを使用して構成できる次のしきい値が使用されます。
提案の最小スコア: 値の置換を提案するために DQS によって使用される最小スコアまたは信頼度レベル。
自動修正の最小スコア: 値を自動的に修正するために DQS によって使用される最小スコアまたは信頼度レベル。
これらの 設定を構成する方法の詳細については、「クレンジングと照合のしきい値 の構成」を参照してください。
このレッスンでは、以下のタスクを実行して、Suppliers ナレッジ ベースを使用して入力データをクレンジングします。
クレンジング用のデータ品質プロジェクトを作成し、Excel ファイル内のソース データの分析とクレンジングに使用するナレッジ ベースとして Suppliers ナレッジ ベースを選択し、クレンジング アクティビティを選択します。
クレンジングする Excel 列をナレッジ ベースの適切な DQS ドメイン/複合ドメインにマップします。
コンピューター支援型クレンジング アクティビティを実行します。 コンピューター支援プロセスでは、データ品質クライアントにデータ品質情報が表示されます。この情報を使用して、対話形式でデータをクレンジングできます。
クレンジング アクティビティの結果を表示および管理します。 コンピューター支援プロセスが正しい、正しくないが修正済み、推奨される変更で正しくない、または無効であると検出した値を確認できます。 修正後フィールドを使用して、変更を対話形式で承認または拒否するか、コンピューター支援プロセスの提案を修正またはオーバーライドすることができます。
クレンジング プロセスから Excel ファイルに結果をエクスポートします。
クレンジング プロジェクトの値をドメインにインポートして、ナレッジ ベースのナレッジを新しいルール、値、修正などで補強します。