CREATE BLOOM FILTER INDEX

適用対象: 「はい」のチェックマーク Databricks SQL Databricks Runtime

新しいデータまたは書き換えられたデータに対してブルームフィルターのインデックスを作成します。既存のデータに対してはブルームフィルターが作成 "されません"。テーブル名またはいずれかの列が存在しない場合、コマンドは失敗します。列に対してブルームフィルターが有効になっている場合、既存のブルームフィルターオプションは新しいオプションに置き換えられます。

構文

CREATE BLOOMFILTER INDEX
ON [TABLE] table_name
FOR COLUMNS( { columnName1 [ options ] } [, ...] )
[ options ]

options
  OPTIONS ( { key1 [ = ] val1 } [, ...] )

パラメーター

table_name

既存の Delta テーブルを識別します。名前には、時仕様またはオプション指定を含めてはなりません。

既に書き込まれているデータのブルームフィルターインデックスを作成することはできませんが、OPTIMIZE コマンドは再構成されたデータの Bloom フィルターを更新します。そのため、以下の場合にテーブルで OPTIMIZE を実行して、ブルームフィルターにバックフィルすることができます。

テーブルを以前に最適化していない場合。
ファイルサイズが異なる場合。データファイルの再書き込みが必要です。
ZORDER を指定する場合 (または、既に存在する場合は別の ZORDER)。データファイルの再書き込みが必要です。

ブルームフィルターをチューニングするには、列レベルまたはテーブルレベルでオプションを定義します。

fpp: 偽陽性率。書き込まれたブルームフィルターごとの望ましい擬陽性率。これは、ブルームフィルターに 1 つの項目を書き込むのに必要なビット数に影響し、ブルームフィルターのサイズに影響します。値は 0 より大きく、1 以下でなければなりません。既定値は 0.1 で、項目ごとに 5 ビットが必要です。
numItems: ファイルに含めることができる個別の項目の数。この設定は、ブルームフィルターで使用される総ビット数 (項目数 * 項目あたりのビット数) に影響するため、フィルター処理の品質にとって重要です。この設定が正しくない場合、ブルームフィルターは入力が非常に少ないか、ディスク領域が無駄になり、このファイルをダウンロードする必要があるクエリの速度が低下するか、またはフィルターがいっぱいになり、精度が低下します (FPP が高い)。値は 0 を超える値である必要があります。既定値は 100 万項目です。
maxExpectedFpp: ブルームフィルターがディスクに書き込まれる、予想される最大の偽陽性確率。予想される FPP がこのしきい値より大きい場合、ブルームフィルターの選択度が低すぎます。ブルームフィルターの使用にかかる時間とリソースは、その有用性を上回ります。この値は、0 から 1 までの値である必要があります。既定値は 1.0 (無効) です。

これらのオプションは、データを書き込むときにのみ役割を果たします。これらのプロパティは、書き込み操作、テーブルレベル、列レベルのさまざまな階層レベルで構成できます。列レベルはテーブルレベルと操作レベルより優先され、テーブルレベルは操作レベルより優先されます。

「ブルームフィルターのインデックス」を参照してください。

BLOOMFILTERインデックスを削除

フィードバック

このページはお役に立ちましたか?

Last updated on 2024-11-14

次の方法で共有

CREATE BLOOM FILTER INDEX

構文

パラメーター

関連記事

フィードバック

その他のリソース