このレッスンでは、仕入先データに関するナレッジ (メタデータ) を持つ Suppliers という名前の DQS ナレッジ ベースを作成します。 ナレッジ ベースを使用して、入力サプライヤー データに対してクレンジングおよび照合アクティビティを実行します。 クレンジング アクティビティは、正しくないデータまたは無効なデータを識別し、正しくないデータを修正し、修正/提案を提案し、データを標準化し、より多くの情報でデータを強化します。 照合アクティビティは、データを比較し、データの重複を削除するのに役立つデータ内の類似したレコード (ただし、少し異なる) を識別します。
対話型プロセスとコンピューター支援プロセスの両方を使用して、ナレッジ ベースの作成、ビルド、管理を行うことができます。 ナレッジ ベースのナレッジはドメインに保持されます。各ドメインは、クレンジングまたは照合するデータ内のデータ フィールドに固有です。
このレッスンでは、次のタスクを実行して Suppliers ナレッジ ベースを作成します。
Suppliers という名前の DQS ナレッジ ベースを作成 します。 ナレッジ ベースは、いくつかの方法で作成できます。 ナレッジ ベースは、最初から構築することも、既存のナレッジ ベースに基づいて構築することも、事前構築済みのエクスポートされたナレッジ ベースを含む DQS ファイル (.dqs) をインポートするか、サンプル データに対してナレッジ検出アクティビティを実行することで構築できます。 このチュートリアルでは、ナレッジ ベースをゼロから作成します。
データのクレンジングに使用する Suppliers ナレッジ ベースにドメインを作成し、データを照合して重複を識別します。 データ内のすべてのデータフィールドではなく、クレンジングおよび照合アクティビティで使用するデータフィールドに対してドメインを作成します。
値を手動で追加し、Excel ファイルから値をインポートし、サンプル データに対してナレッジ検出アクティビティを実行し、クレンジング プロジェクトからプロジェクト値をインポートすることで、ドメインに値を追加します。 ドメインのプロパティと値を含む DQS ファイルをインポートしてドメイン値をインポートすることもできます。このファイルは、チュートリアルでは実行しません。
ドメインのルールを設定します。 ドメイン ルールは、ドメイン値を検証、修正、標準化するために DQS によって使用される条件です。
ドメインの用語ベースのリレーションシップを設定します。 用語ベースのリレーションシップを使用すると、ドメイン内の値の一部である用語を修正できます。 たとえば、 Contoso Inc., Inc. という値では、"組み込み" として定義できる用語です。 これは、データの標準化と重複の識別に役立ちます。 たとえば、 Contoso Inc. と Contoso Incorporated は重複と見なすことができます。
ドメイン値でシノニムを指定します。 2 つ以上の値をシノニムとして設定し、そのうちの 1 つを先頭の値として設定できます。これは、クレンジング アクティビティ中にシノニム値を置き換えてデータを標準化します。
住所の入力規則という名前の複合ドメインを作成します。これは、住所行、市区町村、都道府県、および Zip ドメインで構成されます。 複合ドメインは、1 つ以上の単一ドメインで構成されるドメインです。 これにより、複数のドメインを含むルールを作成できます。 たとえば、ルールを定義できます。市区町村がロサンゼルスの場合、州は CA である必要があります。市区町村と都道府県は 2 つの異なるドメインです。
参照データ サービスを構成して使用します。 Data Quality Services (DQS) の参照データ サービス機能を使用すると、サードパーティの参照データ プロバイダーをサブスクライブし、高品質のデータに対して検証することでビジネス データをクレンジングおよび強化できます。 DQS 内の主要な DQS プロバイダーのサービスを使用して、クレンジング プロセス中にデータを標準化、修正、または強化できます。 このチュートリアルでは、Azure Marketplace で参照データ サービスを使用するように DQS 環境を構成し、アドレス検証複合ドメインに関連付けられているサービスを使用してアドレス データをクレンジングする方法について説明します。
ナレッジ ベースをクレンジングおよび照合アクティビティで利用できるようにするために発行します。