文字列値の 2 つのデータセットを比較し、2 つのデータセット間の違いを特徴付けするテキスト パターンを見つけます。 このプラグインは、evaluate 演算子を使用して呼び出されます。
diffpatterns_textは、2 つのセット内のデータのさまざまな部分をキャプチャするテキスト パターンのセットを返します。 たとえば、条件が true されている場合は行の大部分をキャプチャし、条件が false場合は行の割合が低いパターンです。 パターンは、空白で区切られた連続するトークンから構築され、テキスト列のトークンまたはワイルドカードを表す * を使用します。 各パターンは、結果内の行によって表されます。
構文
T | evaluate diffpatterns_text(
TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])
構文規則について詳しく知る。
パラメーター
| 件名 | タイプ | 必須 | 説明 |
|---|---|---|---|
| TextColumn | string |
✔️ | 分析するテキスト列。 |
| BooleanCondition | string |
✔️ | ブール値に評価される式。 アルゴリズムは、この式に基づいて比較するために、クエリを 2 つのデータセットに分割します。 |
| MinTokens | int |
結果パターンあたりのワイルドカード以外のトークンの最小数を表す 0 ~ 200 の整数値。 既定値は 1 です。 | |
| しきい値 | decimal |
2 つのセット間の最小パターン比の差を設定する 0.015 ~ 1 の 10 進値。 既定値は 0.05 です。 「 diffpatternsを参照してください。 | |
| MaxTokens | int |
結果パターンあたりのトークンの最大数を設定する 0 ~ 20 の整数値。下限を指定すると、クエリ ランタイムが減少します。 |
返品
diffpatterns_text の結果は次の列を返します。
- Count_of_True: 条件が
trueの場合に、パターンに一致する行の数。 - Count_of_False: 条件が
falseの場合に、パターンに一致する行の数。 - Percent_of_True: 条件が
trueの場合に、行からのパターンに一致する行の割合。 - Percent_of_False: 条件が
falseの場合に、行からのパターンに一致する行の割合。 - Pattern: テキスト文字列からのトークンと、ワイルドカードの場合は '
*' を含むテキスト パターン。
注
パターンは必ずしも異なるわけではなく、データセットの完全なカバレッジを提供しない場合があります。 パターンは重複していることがあり、一部の行はどのパターンとも一致しない場合があります。
例示
次の例は、diffpatterns_text プラグインを使用して、EpisodeNarrative テーブルのStormEvents列でパターンを検索する方法を示しています。 この例では、EpisodeNarrativeが "Extreme Cold/Wind Chill" の場合とそうでない場合に、EventType列のテキスト パターンを比較します。
次の例では、ヘルプ クラスターの StormEvents テーブルのデータを使用します。 このデータにアクセスするには、https://dataexplorer.azure.com/clusters/help/databases/Samples にサインインします。 左側のメニューで、help>Samples>Tables>Storm_Events を参照します。
このチュートリアルの例では、 StormEvents テーブルを使用します。このテーブルは、 Weather analyticsサンプル データで一般公開されています。
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
出力
| Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | パターン |
|---|---|---|---|---|
| 11 | 0 | 6.29 | 0 | 風が西西にシフト *ウェイク*表面トラフは、重い湖の影響降雪ダウンウィンドを持って来た*湖スーペリアから |
| 9 | 0 | 5.14 | 0 | カナダの高圧定住 **地域*は、2006年2月以来最も寒い温度を生み出しました。 期間 * 凍結温度 |
| 0 | 34 | 0 | 6.24 | * * * * * * * * * * * * * * * * 西テネシー、 |
| 0 | 42 | 0 | 7.71 | * * * * * * 原因 * * * * * * * 西部コロラド州全体。 * |
| 0 | 45 | 0 | 8.26 | * * 通常より下 * |
| 0 | 110 | 0 | 20.18 | 通常より下 * |