適用対象:
Databricks SQL
Databricks Runtime
column、epsilon および confidence を使用して、seed のグループ内のすべての値のカウント最小のスケッチを返します。
Databricks SQL および Databricks Runtime 13.3 LTS 以降では、この関数は名前付きパラメータ呼び出しをサポートしています。
構文
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
この関数は、 句を使用して OVERとして呼び出すこともできます。
引数
-
column: 整数の数値、STRING、またはBINARYに評価される式。 -
epsilon: 相対エラーを記述する 0 より大きいDOUBLEリテラル。 -
confidence: 0 より大きく 1 未満のDOUBLEリテラル。 -
seed:INTEGERリテラル。 -
cond: 集計に使用される行をフィルター処理するブール式 (省略可能)。
返品
BINARY です。
最小カウント スケッチは、サブ線形空間を使用したカーディナリティ推定に使用される、確率的データ構造です。
DISTINCT が指定されている場合、この関数は expr 値の一意のセットでのみ動作します。
例
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000