Delen via


Plugin diffpatterns_text

Van toepassing op: ✅Microsoft FabricAzure Data Explorer-

Vergelijkt twee gegevenssets met tekenreekswaarden en zoekt tekstpatronen die verschillen tussen de twee gegevenssets karakteriseren. De invoegtoepassing wordt aangeroepen met de operator evaluate.

De diffpatterns_text functie retourneert een set tekstpatronen die verschillende delen van de gegevens in de twee sets vastleggen. Een patroon dat bijvoorbeeld een groot percentage van de rijen vastlegt wanneer de voorwaarde is true en een laag percentage van de rijen wanneer de voorwaarde is false. De patronen worden opgebouwd uit opeenvolgende tokens, gescheiden door witruimte, met een token uit de tekstkolom of een * jokerteken. Elk patroon wordt vertegenwoordigd door een rij in de resultaten.

Syntaxis

T | evaluate diffpatterns_text( TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

Meer informatie over syntaxisconventies.

Parameterwaarden

Naam Typologie Verplicht Beschrijving
TextColumn string ✔️ De te analyseren tekstkolom.
Booleaanse voorwaarde string ✔️ Een expressie die resulteert in een Booleaanse waarde. Het algoritme splitst de query in de twee gegevenssets om te vergelijken op basis van deze expressie.
MinTokens int Een geheel getal tussen 0 en 200 dat het minimale aantal niet-jokertekentokens per resultaatpatroon vertegenwoordigt. De standaardwaarde is 1.
Drempel decimal Een decimale waarde tussen 0,015 en 1 waarmee het minimale patroonverhoudingsverschil tussen de twee sets wordt ingesteld. De standaardwaarde is 0,05. Zie diffpatterns.
MaxTokens int Een geheel getal tussen 0 en 20 waarmee het maximale aantal tokens per resultaatpatroon wordt ingesteld, waardoor een lagere limiet wordt opgegeven, wordt de queryruntime verlaagd.

Retouren

Het resultaat van diffpatterns_text retourneert de volgende kolommen:

  • Count_of_True: het aantal rijen dat overeenkomt met het patroon wanneer de voorwaarde is true.
  • Count_of_False: het aantal rijen dat overeenkomt met het patroon wanneer de voorwaarde is false.
  • Percent_of_True: het percentage rijen dat overeenkomt met het patroon uit de rijen wanneer de voorwaarde is true.
  • Percent_of_False: het percentage rijen dat overeenkomt met het patroon uit de rijen wanneer de voorwaarde is false.
  • Patroon: Het tekstpatroon met tokens uit de tekenreeks en '*' voor jokertekens.

Opmerking

De patronen zijn niet noodzakelijkerwijs uniek en bieden mogelijk geen volledige dekking van de gegevensset. De patronen kunnen overlappen en sommige rijen komen mogelijk niet overeen met een patroon.

Voorbeelden

In het volgende voorbeeld ziet u hoe u de diffpatterns_text invoegtoepassing gebruikt om patronen te vinden in de EpisodeNarrative kolom van de StormEvents tabel. In het voorbeeld worden de tekstpatronen van de EpisodeNarrative kolom vergeleken wanneer de EventType 'Extreme koude/windkoeling' is en wanneer dit niet het resultaat is.

In het volgende voorbeeld worden gegevens uit de Tabel StormEvents in het Help-cluster gebruikt. Meld u aan bij https://dataexplorer.azure.com/clusters/help/databases/Samples. Blader in het linkermenu naarVoorbeelden>>van tabellen>Storm_Events.

In de voorbeelden in deze tutorial wordt de StormEvents tabel gebruikt, die openbaar beschikbaar is in de Weather Analyticsvoorbeeldgegevens.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Uitvoer

Count_of_True Count_of_False Percent_of_True Percent_of_False Patroon
11 0 6.29 0 Winden die naar het noordwesten verschuiven in * wake * een oppervlakte trough bracht zware meer effect sneeuwval downwind * Lake Superior van
9 0 5.14 0 Canadese hoge druk geregeld * * regio * geproduceerd de koudste temperaturen sinds februari * 2006. Duur * vriestemperaturen
0 34 0 6.24 * West Tennessee,
0 42 0 7.71 * veroorzaakt * * * over west Colorado. *
0 45 0 8.26 * onder normaal *
0 110 0 20.18 Onder normaal *