diffpatterns_text plug-in

Aplica-se a: ✅Microsoft Fabric✅Azure Data Explorer

Compara dois conjuntos de dados de valores de cadeia de caracteres e localiza padrões de texto que caracterizam diferenças entre os dois conjuntos de dados. O plugin é invocado com o operador evaluate.

O diffpatterns_text retorna um conjunto de padrões de texto que capturam diferentes partes dos dados nos dois conjuntos. Por exemplo, um padrão capturando uma grande porcentagem das linhas quando a condição é true e baixa porcentagem das linhas quando a condição é false. Os padrões são construídos a partir de tokens consecutivos separados por espaço em branco, com um token da coluna de texto ou um * representando um curinga. Cada padrão é representado por uma linha nos resultados.

Sintaxe

T | evaluate diffpatterns_text( TextColumn, BooleanCondition [, MinTokens, Limiar , MaxTokens])

Saiba mais sobre convenções de sintaxe.

Parâmetros

Nome	Tipo	Obrigatório	Descrição
TextColumn	`string`	✔️	A coluna de texto a analisar.
BooleanCondition	`string`	✔️	Uma expressão que é avaliada como um valor booleano. O algoritmo divide a consulta em dois conjuntos de dados para comparar com base nessa expressão.
MinTokens	`int`		Um valor inteiro entre 0 e 200 que representa o número mínimo de tokens não curinga por padrão de resultado. O padrão é 1.
Limiar	`decimal`		Um valor decimal entre 0,015 e 1 que define a diferença mínima da razão de padrão entre os dois conjuntos. O padrão é 0,05. Veja diffpatterns.
MaxTokens	`int`		Um valor inteiro entre 0 e 20 que define o número máximo de tokens por padrão de resultado, especificando um limite inferior, diminui o tempo de execução da consulta.

Devoluções

O resultado de diffpatterns_text retorna as seguintes colunas:

Count_of_True: O número de linhas correspondentes ao padrão quando a condição é true.
Count_of_False: O número de linhas correspondentes ao padrão quando a condição é false.
Percent_of_True: A percentagem de linhas que correspondem ao padrão das linhas quando a condição é true.
Percent_of_False: A percentagem de linhas que correspondem ao padrão das linhas quando a condição é false.
Padrão: O padrão de texto que contém tokens da cadeia de caracteres de texto e '*' para curingas.

Observação

Os padrões não são necessariamente distintos e podem não fornecer cobertura total do conjunto de dados. Os padrões podem estar sobrepostos e algumas linhas podem não corresponder a nenhum padrão.

Exemplos

O exemplo a seguir mostra como usar o diffpatterns_text plug-in para localizar padrões na EpisodeNarrative coluna da StormEvents tabela. O exemplo compara os padrões de texto da EpisodeNarrative coluna quando o EventType é "Extreme Cold/Wind Chill" e quando não é.

O exemplo a seguir usa dados da tabela StormEvents no cluster de ajuda. Para aceder a estes dados, inicie sessão em https://dataexplorer.azure.com/clusters/help/databases/Samples. No menu à esquerda, navegue para ajudar>Exemplos>de tabelas>Storm_Events.

Executar a consulta

Os exemplos neste tutorial usam a tabela StormEvents, que está disponível publicamente no Weather analyticsdados de exemplo.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Realização

Count_of_True	Count_of_False	Percent_of_True	Percent_of_False	Padrão
11	0	6.29	0	Ventos que se deslocam para noroeste em * esteira * um cavado de superfície trouxe forte efeito lago queda de neve downwind * Lago Superior de
9	0	5.14	0	A região canadense de alta pressão * * produziu as temperaturas mais frias desde fevereiro * 2006. Durações * temperaturas de congelação
0	34	0	6.24	* * * * *
0	42	0	7.71	* * * * * * * * * *
0	45	0	8.26	* * abaixo do normal *
0	110	0	20.18	Abaixo do normal *

Feedback

Esta página foi útil?

Last updated on 2025-05-26