Genie 知識儲存可讓您透過本地化元資料、值取樣和結構化 SQL 指令來策劃和增強您的空間。 這些功能可幫助 Genie 理解您的數據並生成更準確、更相關的響應。
什麼是知識商店?
知識存放區是精選語意定義的集合,可增強 Genie 對資料的理解並提高回應準確性。
知識存放區包含:
- 空間層級中繼資料自訂:表格、直欄、商務術語和同義字的空間特定描述
- 空間層級資料自訂:簡化、專注的資料集,而不需要變更基礎 Unity 目錄資料表
- 值採樣:幫助 Genie 理解數據類型並將用戶提示與實際值相匹配的真實數據示例
-
聯結關係:定義表關係以取得準確
JOIN的陳述式 - SQL 運算式:擷取商務邏輯的量值、篩選和維度的結構化定義
所有知識庫的配置都限制在您的 Genie 空間內,並不會對 Unity Catalog 索引中的中繼資料或其他 Azure Databricks 資產產生影響。
管理知識庫中繼資料
透過提供本機表格和列描述,並新增與常見業務術語一致的列同義詞,向 Genie 傳授您空間中的資料。 透過隱藏不必要或重複的列來簡化資料集,以保持 Genie 的焦點。
這些做法可改善對基礎資料表沒有直接許可權的使用者的可用性,而且它們也支援在更新指令版本時更快的反覆運算。
若要存取空間層級的中繼資料,請按一下 Genie 空間中的 設定 > 資料 。 然後按一下資料表名稱以檢視其中繼資料和欄位。
檢視數據行
按兩下資料表名稱以查看資料列名稱和詳細資料的概觀。 下列範例顯示名為 accounts的表格中的範例。
描述: Genie 會使用元數據來瞭解您的數據,並產生精確的回應。 預設資料表描述會顯示資料資產相關的 Unity Catalog 中的元資料。 您可以編輯此描述,以新增特定指示,以協助 Genie 為您的空間編寫 SQL。 按兩下 [重設 ] 以還原 Unity 目錄描述。
列: 數據列名稱和描述會包含在數據行清單中。 每個資料行都標示有標籤,以顯示它是否包含 範例值 或 值字典。 請參閱 值取樣概觀。
隱藏或顯示相關欄
欄位可以單獨或批次管理。 使用下列指示來隱藏或顯示欄。
-
隱藏單一欄:按一下欄名稱旁邊的
。 -
隱藏多個欄:
- 選取您要隱藏之欄的核取方塊。
- 從 [動作] 功能表中,選取 [隱藏選取的資料行]。
- 取消變更:重複相同步驟以顯示隱藏的資料行。
編輯欄中繼資料
您可以為每個欄自訂下列項目:
- 描述:特定於空間的列描述,可增強 Genie 的理解。
- 同義詞:有助於將使用者語言與欄名稱相符的商務術語和關鍵字。
-
進階設定:取樣值控制項。
- 範例值:開啟或關閉代表性值的自動取樣。
- 建置值字典:啟用或停用類別資料行的值字典。
若要編輯欄位中繼資料:
- 按一下欄名稱旁邊的
- 編輯欄位的描述和同義詞。
- 如有必要,請按一下進 階設定 以開啟值取樣控制項。
- 按一下 「儲存」 以保留變更並關閉對話方塊。
值取樣概觀
值採樣通過收集代表性示例來增強 Genie 理解和處理您的實際數據的能力。
值採樣通過提供對真實數據值的訪問來改進 Genie 的 SQL 生成。 當使用者提出拼字錯誤或不同術語的對話式問題時,值取樣可協助 Genie 將提示與表格中的實際資料值相符。
價值抽樣元件
- 範例值:每個欄中的小樣本,可協助 Genie 瞭解資料類型和格式。 這些資料會自動針對所有符合資格的資料行收集。
- 值字典:每欄最多 1,024 個不同值的精選清單 (每個值少於 127 個字元)。 為最多 120 個包含類別或格式一致的字串值 (例如狀態、產品類別或狀態代碼) 的欄建立。
具有列過濾器或直欄遮罩的表格會從值取樣中排除。
管理數值取樣
控制哪些列提供範例值和值字典,以最佳化 Genie 對您資料的理解。 預設情況下,所有 Genie 空間都會啟用值取樣。
管理範例值
當您將表格新增至 Genie 空間時,會自動新增範例值。
若要關閉欄位範例值:
- 請在 Genie 空間中點擊 設定 > 資料。
- 按兩下資料表名稱以檢視其資料行。
- 按一下 欄名稱旁邊的
。
- 按一下 [進階] 。
- 關閉 [範例值]。
此動作會自動停用為該數據行建立值字典。 如有必要,請使用此設定重新開啟 範例值 。
配置值字典
當您將資料新增至空間時,Genie 會自動選取資料行進行值取樣。 您可以手動管理哪些欄已啟用值字典。 選擇具有類別或結構化值的字串欄以獲得最佳結果。 避免使用自由文字欄,例如使用者 ID、名稱或使用者評論。
Genie 會防止您在具有 列篩選器或欄遮罩的表格上啟用值字典。 不過,空間設計者必須停用參照含有列過濾器或直欄遮罩的表格的視圖中的值字典,或動態視圖中的值字典。
下列清單包含可與值字典搭配使用的資料類型範例:
- 州或國家/地區代碼
- 產品類別目錄
- 狀態碼
- 部門名稱
若要啟用值字典:
- 按一下 欄名稱旁邊的
。
- 按一下 [進階] 。
- 開啟 建值字典。
重新整理範例值
重新整理範例值會重新擷取資料,並收集更新的範例值和數值字典。
在下列情況下,您應該重新整理範例值:
- 新值已新增至欄
- 現有值的格式已變更
若要更新儲存的值:
- 按一下
直欄檢視中的 Kebab 功能表
- 選取 [重新整理範例值]
定義聯結關聯性
透過定義表關係,幫助 Genie 建立準確 JOIN 的陳述:
- 按一下「聯結」。
- 按下 新增。
- 從下拉式選單中選取左表和右表。
- 輸入 「結合」條件 (例如
accounts.id = opportunity.accountid)- (選擇性)如需更複雜的聯結條件,請使用 SQL 運算式。 按兩下 [使用 SQL 運算式],然後將聯結條件記錄為 SQL 運算式。
- 選取 關係類型:
- 多對一:多個左列對應到一個右列
- 一對多:左側一列對應至多列右側列
- 一對一:左邊一列最多對應到右邊一列
備註
當同一表之間存在多個聯結或使用自聯結時,Genie 會自動產生右側表的別名以避免歧義。
從回饋中獲得建議
當使用者點擊包含連結資料表或使用 SQL 表達式的訊息讚號時,Genie 會分析回應,並建議新的 SQL 程式碼片段(如度量、聯結或篩選器),供系統作者審閱並添加至知識庫。 精靈不會根據回饋自動學習或改變行為。
定義 SQL 表達式
SQL 運算式提供了一種結構化的引導式方法來教導 Genie 有關常見業務術語(例如 KPI、屬性和條件)的資訊。 然後,當用戶詢問這些精細定義時,Genie 可以使用這些精細定義中的每一個。
SQL 運算式補充了指示中指定的 範例 SQL 查詢。 雖然 SQL 表達式定義了可重複使用的業務概念,但範例 SQL 查詢對於教導 Genie 如何處理常見的使用者提示格式更有幫助。 例如,如果使用者通常要求「績效明細」,則範例 SQL 查詢可以顯示這表示依區域、銷售代表和經理完成的銷售。
SQL 運算式在您需要時效果最佳:
- 提供 KPI 和指標的結構化定義,例如利潤率或轉換率
- 為 Genie 提供有關如何計算重要值的明確上下文
- 定義資料集的其他維度,例如月份或客戶區段
- 針對業務條件教導 Genie 篩選器,例如大訂單或特定時間之前的訂單
SQL 運算式類型
您可以定義下列類型的 SQL 表示式:
- 衡量標準:關鍵績效指標 (KPI) 和指標。 定義名稱、SQL 計算和同義字。
- 篩選器:常見的篩選條件。 定義名稱、SQL 篩選邏輯和同義字。
- 維度:用於分組和分析資料的屬性。 定義名稱、SQL 運算式及同義字。
使用下列指示來定義 SQL 表示式:
- 按一下 [設定]>指示>[SQL 運算式]
- 按下 新增。 選擇 Filter (篩選器)、 Measure(量值)或 Dimension (維度)。
- 在 名稱 欄位中,輸入運算式的名稱。
- 在 [程式碼 ] 欄位中,輸入 SQL 運算式。
- 篩選運算式的評估值應該為布林條件。
- 量值運算式應該計算資料表中多列的彙總。
- 維度運算式應該從現有資料變更每一列的值。
- 在 同義字 欄位中,輸入使用者可能口語上提到這些表達的一般方式。
- 在 「指示」 欄位中,輸入特定指示,告訴 Genie 運算式的用途以及如何使用它。
後續步驟
使用以下連結來幫助您繼續建立您的 Genie 空間。
- 為您的 Genie 空間添加上下文,以幫助生成準確的回應。 請參閱 新增 SQL 範例和指示
- 了解優化 Genie 空間的最佳實踐。 請參閱 策劃有效的精靈空間
- 評估並改善您的空間性能。 請參閱在 Genie 空間中使用基準測試