次の方法で共有


より信頼性の高い Genie スペース用のナレッジ ストアを構築する

Genie ナレッジ ストアを使用すると、ローカライズされたメタデータ、値のサンプリング、構造化された SQL 命令を使用して、領域をキュレーションおよび強化できます。 これらの機能は、Genie がデータを理解し、より正確で関連性の高い回答を生成するのに役立ちます。

ナレッジ ストアとは

ナレッジ ストアは、Genie によるデータの理解を強化し、応答の精度を向上させる、精選されたセマンティック定義のコレクションです。

ナレッジ ストアは、次の要素で構成されます。

  • 空間レベルのメタデータのカスタマイズ: テーブル、列、およびビジネス用語とシノニムのスペース固有の説明
  • 空間レベルのデータのカスタマイズ: 基になる Unity カタログ テーブルを変更することなく、簡略化された、フォーカスされたデータセット
  • 値サンプリング: Genie がデータ型を理解し、ユーザー プロンプトを実際の値に一致させる実際のデータの例
  • ジョインリレーションシップ: 正確な JOIN ステートメントのために定義されたテーブルリレーションシップ
  • SQL 式: ビジネス ロジックをキャプチャするメジャー、フィルター、およびディメンションの構造化された定義

すべてのナレッジ ストア構成は Genie 空間にスコープが設定され、Unity カタログメタデータやその他の Azure Databricks 資産には影響しません。

ナレッジ ストアのメタデータを管理する

ローカル テーブルと列の説明を提供し、一般的なビジネス用語に合った列シノニムを追加して、空間内のデータについて Genie に教えます。 不要な列または重複する列を非表示にして、Genie にフォーカスを維持することで、データセットを簡略化します。

これらのプラクティスにより、基になるテーブルに対する直接アクセス許可を持たないユーザーの使いやすさが向上し、命令バージョンの更新時のイテレーションも迅速にサポートされます。

空間レベルのメタデータにアクセスするには、Genie 空間 の [ > データの構成 ] をクリックします。 次に、テーブル名をクリックして、そのメタデータと列を表示します。

列の表示

テーブル名をクリックすると、列名と詳細の概要が表示されます。 次の例は、 accountsという名前のテーブルのサンプルを示しています。

次に示すように、メタデータの説明と列の詳細を示すテーブルの概要。

  • 形容: Genie はメタデータを使用してデータを理解し、正確な応答を生成します。 既定のテーブルの説明には、データ資産に関連付けられている Unity カタログメタデータが表示されます。 この説明を編集して、Genie が空間の SQL を作成するのに役立つ特定の指示を追加できます。 Unity カタログの説明を復元するには、[ リセット ] をクリックします。

  • 列: 列名と説明は列リストに含まれます。 各列には、 Example 値Value ディクショナリのどちらが含まれているかを示すタグが付けられます。 値サンプリングの概要を参照してください。

関連する列を非表示または表示する

列は、個別に、または一括で管理できます。 列を非表示または表示するには、次の手順に従います。

  • 1 つの列を非表示にする: 列名の横にある 目のアイコン をクリックします。
  • 複数の列を非表示にする:
    • 非表示にする列のチェック ボックスをオンにします。
    • [アクション] メニューの [選択した列を非表示にする] を選択します。
  • 変更を元に戻す: 非表示にされた列を表示するには、同じ手順を繰り返します。

列のメタデータを編集する

列ごとに次の内容をカスタマイズできます。

  • 説明: Genie の理解を強化するスペース固有の列の説明。
  • 類義語: ユーザー言語と列名の照合に役立つビジネス用語とキーワード。
  • 詳細設定: 値サンプリング コントロール。
    • 値の例: 代表的な値の自動サンプリングをオンまたはオフにします。
    • 値ディクショナリの作成: カテゴリ列の値ディクショナリを有効または無効にします。

列メタデータを編集するには:

  1. [ 鉛筆] アイコン をクリックします。列名の横にある鉛筆アイコンをクリックします。
  2. 列の説明とシノニムを編集します。
  3. 必要に応じて、[ 詳細設定 ] をクリックして値サンプリング コントロールを開きます。
  4. [ 保存] をクリックして変更を保持し、ダイアログを閉じます。

値サンプリングの概要

値サンプリングは、代表的な例を収集することで、実際のデータを理解して操作する Genie の能力を高めます。

値サンプリングでは、実際のデータ値へのアクセスを提供することで Genie の SQL 生成が向上します。 ユーザーがスペルミスや異なる用語で会話的な質問をする場合、値サンプリングは Genie がプロンプトをテーブル内の実際のデータ値と照合するのに役立ちます。

値サンプリング コンポーネント

  • 値の例: Genie がデータ型と書式設定を理解するのに役立つ各列の小さなサンプル。 これらは、対象となるすべての列に対して自動的に収集されます。
  • 値ディクショナリ: 列あたり最大 1,024 個の個別の値 (それぞれ 127 文字未満) のキュレーションされたリスト。 状態、製品カテゴリ、状態コードなど、カテゴリまたは一貫して書式設定された文字列値を含む最大 120 個の列に対して作成されます。

行フィルターまたは列マスクを含むテーブルは、値のサンプリングから除外されます。

値のサンプリングを管理する

Genie によるデータの理解を最適化するために、値と値ディクショナリの例を提供する列を制御します。 すべての Genie スペースに対して、値サンプリングが既定で有効になっています。

値の例を管理する

Genie 空間にテーブルを追加すると、値の例が自動的に追加されます。

列のサンプル値を非表示にするには

  1. Genie 空間 で [ > データの構成 ] をクリックします。
  2. テーブル名をクリックすると、その列が表示されます。
  3. [鉛筆] アイコン をクリックします。列名の横にある鉛筆アイコンをクリックします。
  4. 詳細設定をクリックします。
  5. [例の値] をオフにします。

このアクションにより、その列の値ディクショナリの作成が自動的に無効になります。 必要に応じて、この設定を使用して Example 値 をオンに戻します。

値ディクショナリの構成

空間にデータを追加すると、Genie は値サンプリング用の列を自動的に選択します。 値ディクショナリが有効になっている列を手動で管理できます。 最適な結果を得るには、カテゴリ値または構造化値を含む文字列列を選択します。 ユーザー ID、名前、ユーザー レビューなどの自由形式の列は使用しないでください。

Genie では、 行フィルターまたは列マスクを含むテーブルで値ディクショナリを有効にできなくなります。 ただし、行フィルターまたは列マスクを含むテーブルを参照するビュー、または 動的ビューの場合、スペース作成者は値ディクショナリを無効にする必要があります。

次の一覧には、値ディクショナリで適切に機能するデータ型の例が含まれています。

  • 州コードまたは国コード
  • 製品カテゴリ
  • 状態コード
  • 部門名

値ディクショナリを有効にするには:

  1. [鉛筆] アイコン をクリックします。列名の横にある鉛筆アイコンをクリックします。
  2. 詳細設定をクリックします。
  3. [ビルド値ディクショナリ] をオンにします。

右側に値ディクショナリ ボタンがある文字列列。

サンプル値を更新する

サンプル値を更新すると、データが再度ポーリングされ、値や値ディクショナリなどの新しい値が収集されます。

次の場合は、サンプル値を更新する必要があります。

  • 新しい値が列に追加されました
  • 既存の値の形式が変更されました

格納されている値を更新するには:

  1. [Kebab] メニュー アイコン をクリックします。列ビューの [kebab] メニュー
  2. [ サンプル値の更新] を選択する

UI の値の更新または値の削除オプション

結合リレーションシップを定義する

Genie がテーブルリレーションシップを定義して正確な JOIN ステートメントを作成できるようにします。

  1. [ 結合] をクリックします。
  2. 追加をクリックします。
  3. ドロップダウン メニューから左右のテーブルを選択します。
  4. 結合条件を入力します (例: accounts.id = opportunity.accountid)
    • (省略可能)より複雑な結合条件の場合は、SQL 式を使用します。 [ SQL 式の使用] をクリックし、結合条件を SQL 式として記録します。
  5. リレーションシップの 種類を選択します。
    • 多対1: 複数の左行が1つの右行に対応する
    • 1 対多: 1 つの左側の行が複数の右の行にマップされます
    • 1 対 1: 1 つの左行が最大 1 つの右行にマップされます

識別された 1 つの結合リレーションシップを示す結合手順

同じテーブル間に複数の結合が存在する場合、または自己結合が使用されている場合、Genie はあいまいさを回避するために、右側のテーブルの別名を自動的に生成します。

フィードバックから提案を取得する

テーブルを結合するメッセージまたは SQL 式を使用するメッセージのサムアップをユーザーがクリックすると、Genie は応答を分析し、空間作成者がナレッジ ストアを確認して追加するための新しい SQL スニペット (メジャー、結合、フィルターなど) を提案できます。 Genie は、フィードバックに基づいて動作を自動的に学習したり変更したりすることはありません。

SQL 式を定義する

メジャー、フィルター、およびディメンションを示す SQL 式インターフェイス

SQL 式は、KPI、属性、条件などの一般的なビジネス用語について Genie に教える構造化されたガイド付き方法を提供します。 Genie は、ユーザーがこれらの詳細な定義について質問したときに、これらの各定義を使用できます。

SQL 式は、手順で指定されている SQL クエリの例を補完します。 SQL 式は再利用可能なビジネス概念を定義しますが、一般的なユーザー プロンプト形式にアプローチする方法を Genie に教える場合は、SQL クエリの例の方が役立ちます。 たとえば、ユーザーが一般的に "パフォーマンスの内訳" を求める場合、SQL クエリの例では、リージョン、営業担当者、およびマネージャー別の売上が閉じられたことを示すことができます。

SQL 式は、次の作業が必要な場合に最適です。

  • KPI とメトリック (利益率やコンバージョン率など) の構造化された定義を提供する
  • 重要な値を計算する方法に関する明示的なコンテキストを Genie に与える
  • 月や顧客セグメントなど、データセットの追加ディメンションを定義する
  • 特定の時間より前の注文や大口注文などのビジネス条件に基づいた Genie フィルターを設定する方法を教える。

SQL 式タイプ

次の種類の SQL 式を定義できます。

  • 指標: 主要業績評価指標 (KPI) と指標。 名前、SQL 計算、シノニムを定義します。
  • フィルター: 一般的なフィルター条件。 名前、SQL フィルター ロジック、およびシノニムを定義します。
  • ディメンション: データをグループ化および分析するための属性。 名前、SQL 式、およびシノニムを定義します。

SQL 式を定義するには、次の手順に従います。

  1. [構成>手順>SQL 式] をクリックします。
  2. 追加をクリックします。 [フィルター]、[メジャー]、または [ディメンション] を選択します。
  3. [ 名前 ] フィールドに、式の名前を入力します。
  4. [ コード ] フィールドに、SQL 式を入力します。
  • フィルター式はブール条件に評価されます。
  • メジャー式では、テーブル内の複数の行に対する集計を計算する必要があります。
  • ディメンション式は、既存のデータから各行の値を変更する必要があります。
  1. [ シノニム ] フィールドに、ユーザーが式を口語的に参照する一般的な方法を入力します。
  2. [ 命令 ] フィールドに、式の目的と使用方法を Genie に伝える特定の命令を入力します。

次のステップ

Genie 空間の構築を続行するには、次のリンクを使用します。