Udostępnij przez


Indexes - Analyze

Pokazuje, jak analizator dzieli tekst na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
endpoint
path True

string

Adres URL punktu końcowego usługi wyszukiwania.

indexName
path True

string

Nazwa indeksu, dla którego ma zostać przetestowany analizator.

api-version
query True

string

Wersja interfejsu API klienta.

Nagłówek żądania

Nazwa Wymagane Typ Opis
x-ms-client-request-id

string (uuid)

Identyfikator śledzenia wysłany z żądaniem, aby pomóc w debugowaniu.

Treść żądania

Nazwa Wymagane Typ Opis
text True

string

Tekst do podziału na tokeny.

analyzer

LexicalAnalyzerName

Nazwa analizatora, który ma być używany do przerwania podanego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

charFilters

CharFilterName[]

Opcjonalna lista filtrów znaków, które mają być używane podczas dzielenia podanego tekstu. Ten parametr można ustawić tylko w przypadku korzystania z parametru tokenizera.

normalizer

LexicalNormalizerName

Nazwa normalizatora, który ma być używany do normalizacji danego tekstu.

tokenFilters

TokenFilterName[]

Opcjonalna lista filtrów tokenów, które mają być używane podczas przerywania podanego tekstu. Ten parametr można ustawić tylko w przypadku korzystania z parametru tokenizera.

tokenizer

LexicalTokenizerName

Nazwa tokenizatora, który ma być używany do przerwania podanego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

Odpowiedzi

Nazwa Typ Opis
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Odpowiedź na błąd.

Przykłady

SearchServiceIndexAnalyze

Przykładowe żądanie

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Przykładowa odpowiedź

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definicje

Nazwa Opis
AnalyzedTokenInfo

Informacje o tokenie zwróconym przez analizator.

AnalyzeRequest

Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny.

AnalyzeResult

Wynik testowania analizatora na tekście.

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

ErrorAdditionalInfo

Dodatkowe informacje o błędzie zarządzania zasobami.

ErrorDetail

Szczegóły błędu.

ErrorResponse

Odpowiedź na błąd

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

LexicalNormalizerName

Definiuje nazwy wszystkich normalizatorów tekstu obsługiwanych przez wyszukiwarkę.

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

AnalyzedTokenInfo

Informacje o tokenie zwróconym przez analizator.

Nazwa Typ Opis
endOffset

integer (int32)

Indeks ostatniego znaku tokenu w tekście wejściowym.

position

integer (int32)

Pozycja tokenu w tekście wejściowym względem innych tokenów. Pierwszy token w tekście wejściowym ma pozycję 0, następny ma pozycję 1 i tak dalej. W zależności od używanego analizatora niektóre tokeny mogą mieć tę samą pozycję, na przykład jeśli są synonimami siebie nawzajem.

startOffset

integer (int32)

Indeks pierwszego znaku tokenu w tekście wejściowym.

token

string

Token zwrócony przez analizator.

AnalyzeRequest

Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny.

Nazwa Typ Opis
analyzer

LexicalAnalyzerName

Nazwa analizatora, który ma być używany do przerwania podanego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

charFilters

CharFilterName[]

Opcjonalna lista filtrów znaków, które mają być używane podczas dzielenia podanego tekstu. Ten parametr można ustawić tylko w przypadku korzystania z parametru tokenizera.

normalizer

LexicalNormalizerName

Nazwa normalizatora, który ma być używany do normalizacji danego tekstu.

text

string

Tekst do podziału na tokeny.

tokenFilters

TokenFilterName[]

Opcjonalna lista filtrów tokenów, które mają być używane podczas przerywania podanego tekstu. Ten parametr można ustawić tylko w przypadku korzystania z parametru tokenizera.

tokenizer

LexicalTokenizerName

Nazwa tokenizatora, który ma być używany do przerwania podanego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

AnalyzeResult

Wynik testowania analizatora na tekście.

Nazwa Typ Opis
tokens

AnalyzedTokenInfo[]

Lista tokenów zwróconych przez analizator określony w żądaniu.

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

Wartość Opis
html_strip

Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Dodatkowe informacje o błędzie zarządzania zasobami.

Nazwa Typ Opis
info

object

Dodatkowe informacje.

type

string

Dodatkowy typ informacji.

ErrorDetail

Szczegóły błędu.

Nazwa Typ Opis
additionalInfo

ErrorAdditionalInfo[]

Dodatkowe informacje o błędzie.

code

string

Kod błędu.

details

ErrorDetail[]

Szczegóły błędu.

message

string

Komunikat o błędzie.

target

string

Element docelowy błędu.

ErrorResponse

Odpowiedź na błąd

Nazwa Typ Opis
error

ErrorDetail

Obiekt błędu.

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

Wartość Opis
ar.microsoft

Microsoft Analyzer dla języka arabskiego.

ar.lucene

Analizator Lucene dla języka arabskiego.

hy.lucene

Analizator Lucene dla języka ormiańskiego.

bn.microsoft

Microsoft Analyzer dla języka Bangla.

eu.lucene

Analizator Lucene dla języka baskijskiego.

bg.microsoft

Microsoft Analyzer dla języka bułgarskiego.

bg.lucene

Analizator Lucene dla języka bułgarskiego.

ca.microsoft

Microsoft analyzer dla języka katalońskiego.

ca.lucene

Analizator Lucene dla języka katalońskiego.

zh-Hans.microsoft

Microsoft Analyzer dla języka chińskiego (uproszczonego).

zh-Hans.lucene

Analizator Lucene dla języka chińskiego (uproszczony).

zh-Hant.microsoft

Microsoft Analyzer dla języka chińskiego (tradycyjnego).

zh-Hant.lucene

Analizator Lucene dla języka chińskiego (tradycyjnego).

hr.microsoft

Microsoft Analyzer dla języka chorwackiego.

cs.microsoft

Microsoft Analyzer dla języka czeskiego.

cs.lucene

Analizator Lucene dla Czech.

da.microsoft

Microsoft Analyzer dla języka duńskiego.

da.lucene

Analizator Lucene dla języka duńskiego.

nl.microsoft

Microsoft Analyzer dla języka niderlandzkiego.

nl.lucene

Analizator Lucene dla języka niderlandzkiego.

en.microsoft

Microsoft Analyzer dla języka angielskiego.

en.lucene

Analizator Lucene dla języka angielskiego.

et.microsoft

Microsoft Analyzer dla języka estońskiego.

fi.microsoft

Microsoft Analyzer dla języka fińskiego.

fi.lucene

Analizator Lucene dla języka fińskiego.

fr.microsoft

Microsoft Analyzer dla języka francuskiego.

fr.lucene

Analizator Lucene dla języka francuskiego.

gl.lucene

Analizator Lucene dla języka galicyjskiego.

de.microsoft

Microsoft Analyzer dla języka niemieckiego.

de.lucene

Analizator Lucene dla języka niemieckiego.

el.microsoft

Microsoft Analyzer dla języka greckiego.

el.lucene

Analizator Lucene dla języka greckiego.

gu.microsoft

Microsoft Analyzer dla języka gudżarati.

he.microsoft

Microsoft Analyzer dla języka hebrajskiego.

hi.microsoft

Microsoft Analyzer dla języka hindi.

hi.lucene

Lucene analyzer dla języka hindi.

hu.microsoft

Microsoft Analyzer dla języka węgierskiego.

hu.lucene

Analizator Lucene dla języka węgierskiego.

is.microsoft

Microsoft Analyzer dla języka islandzkiego.

id.microsoft

Microsoft Analyzer dla języka indonezyjskiego (Bahasa).

id.lucene

Analizator Lucene dla języka indonezyjskiego.

ga.lucene

Analizator Lucene dla języka irlandzkiego.

it.microsoft

Microsoft Analyzer dla języka włoskiego.

it.lucene

Analizator Lucene dla języka włoskiego.

ja.microsoft

Microsoft Analyzer dla języka japońskiego.

ja.lucene

Analizator Lucene dla języka japońskiego.

kn.microsoft

Microsoft Analyzer dla Kannada.

ko.microsoft

Microsoft Analyzer dla języka koreańskiego.

ko.lucene

Analizator Lucene dla języka koreańskiego.

lv.microsoft

Microsoft Analyzer dla języka łotewskiego.

lv.lucene

Lucene analyzer dla języka łotewskiego.

lt.microsoft

Microsoft Analyzer dla języka litewskiego.

ml.microsoft

Microsoft Analyzer dla języka malayalam.

ms.microsoft

Microsoft Analyzer dla języka malajskiego (łacińskiego).

mr.microsoft

Microsoft Analyzer dla Marathi.

nb.microsoft

Microsoft Analyzer dla języka norweskiego (Bokmål).

no.lucene

Analizator Lucene dla języka norweskiego.

fa.lucene

Analizator Lucene dla języka perskiego.

pl.microsoft

Microsoft analyzer dla języka polskiego.

pl.lucene

Analizator Lucene dla języka polskiego.

pt-BR.microsoft

Microsoft Analyzer dla języka portugalskiego (Brazylia).

pt-BR.lucene

Analizator Lucene dla języka portugalskiego (Brazylia).

pt-PT.microsoft

Microsoft Analyzer dla języka portugalskiego (Portugalia).

pt-PT.lucene

Analizator Lucene dla języka portugalskiego (Portugalia).

pa.microsoft

Microsoft Analyzer dla języka pendżabskiego.

ro.microsoft

Microsoft Analyzer dla języka rumuńskiego.

ro.lucene

Analizator Lucene dla języka rumuńskiego.

ru.microsoft

Microsoft Analyzer dla języka rosyjskiego.

ru.lucene

Analizator Lucene dla języka rosyjskiego.

sr-cyrillic.microsoft

Microsoft Analyzer dla języka serbskiego (cyrylica).

sr-latin.microsoft

Microsoft Analyzer dla języka serbskiego (łacińskiego).

sk.microsoft

Microsoft Analyzer dla języka słowackiego.

sl.microsoft

Microsoft Analyzer dla języka słoweńskiego.

es.microsoft

Microsoft Analyzer dla języka hiszpańskiego.

es.lucene

Analizator Lucene dla języka hiszpańskiego.

sv.microsoft

Microsoft Analyzer dla języka szwedzkiego.

sv.lucene

Analizator Lucene dla języka szwedzkiego.

ta.microsoft

Microsoft Analyzer dla języka tamilskiego.

te.microsoft

Microsoft Analyzer dla języka telugu.

th.microsoft

Microsoft Analyzer dla języka tajskiego.

th.lucene

Analizator Lucene dla języka tajskiego.

tr.microsoft

Microsoft Analyzer dla języka tureckiego.

tr.lucene

Analizator Lucene dla języka tureckiego.

uk.microsoft

Microsoft Analyzer dla języka ukraińskiego.

ur.microsoft

Microsoft Analyzer dla języka urdu.

vi.microsoft

Microsoft Analyzer dla wietnamskiego.

standard.lucene

Standardowy analizator Lucene.

standardasciifolding.lucene

Standardowy analizator składany ASCII Lucene. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Dzieli tekst na miejsca niebędące literami; Stosuje filtry tokenów małych liter i stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Analizator korzystający z tokenizatora białych znaków. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Definiuje nazwy wszystkich normalizatorów tekstu obsługiwanych przez wyszukiwarkę.

Wartość Opis
asciifolding

Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Usuwa elisje. Na przykład "l'avion" (samolot) zostanie przekształcony w "avion" (samolot). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Normalizuje tekst tokenu na małe litery. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Standardowy normalizator, który składa się z małych liter i asciifoldingu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Normalizuje tekst tokenu do wielkich liter. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

Wartość Opis
classic

Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenizuje dane wejściowe z krawędzi na n-gramy o podanych rozmiarach. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Emituje całe dane wejściowe jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Dzieli tekst na elementy niebędące literami. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Tekst jest dzielony przy użyciu reguł specyficznych dla języka.

microsoft_language_stemming_tokenizer

Dzieli tekst za pomocą reguł specyficznych dla języka i redukuje słowa do ich podstawowych form.

nGram

Tokenizuje dane wejściowe na n-gramy o podanych rozmiarach. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizator dla hierarchii przypominających ścieżki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizator, który używa dopasowania wzorca wyrażeń regularnych do konstruowania odrębnych tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Standardowy analizator Lucene; Składa się ze standardowego tokenizatora, filtru małych liter i filtru zatrzymania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Dzieli tekst w odstępach. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

Wartość Opis
arabic_normalization

Filtr tokenu, który stosuje normalizator arabski w celu znormalizowania ortografii. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Usuwa wszystkie znaki po apostrofie (łącznie z samym apostrofem). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Tworzy bigramy terminów CJK, które są generowane ze standardowego tokenizatora. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normalizuje różnice szerokości CJK. Składa warianty ASCII o pełnej szerokości do odpowiednika podstawowego łacińskiego, a warianty katakana o połowie szerokości do równoważnego Kana. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Usuwa angielskie zaimki dzierżawcze i kropki z akronimów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są nadal indeksowane, z nałożonymi bigramami. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Generuje n-gramy o podanych rozmiarach, zaczynając od przodu lub z tyłu tokenu wejściowego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Usuwa elisje. Na przykład "l'avion" (samolot) zostanie przekształcony w "avion" (samolot). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normalizuje znaki niemieckie zgodnie z heurystyką algorytmu kuli śnieżnej German2. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normalizuje tekst w języku hindi, aby usunąć niektóre różnice w odmianach pisowni. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normalizuje reprezentację tekstu Unicode w językach indyjskich. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Emituje każdy token przychodzący dwa razy, raz jako słowo kluczowe i raz jako słowo niekluczowe. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Wysokowydajny filtr kstem dla języka angielskiego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Usuwa słowa, które są za długie lub za krótkie. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Ogranicza liczbę tokenów podczas indeksowania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normalizuje tekst tokenu do małych liter. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Generuje n-gramy o podanych rozmiarach. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Stosuje normalizację dla języka perskiego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Utwórz tokeny dla dopasowań fonetycznych. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Używa algorytmu stemmingu Portera do przekształcania strumienia tokenów. Zobacz http://tartarus.org/~martin/PorterStemmer

reverse

Odwraca ciąg tokenu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Normalizuje użycie wymiennych znaków skandynawskich. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Składa skandynawskie znaki åÅäæÄÆ-a> i öÖøØ-o>. Dyskryminuje również używanie podwójnych samogłosek aa, ae, ao, oe i oo, pozostawiając tylko pierwszą. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Tworzy kombinacje tokenów jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Filtr, który wyprowadza słowa za pomocą stemmera generowanego przez Snowball. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normalizuje reprezentację tekstu Sorani w formacie Unicode. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Filtr macierzysty specyficzny dla języka. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Usuwa wyrazy zatrzymania ze strumienia tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Przycina początkowe i końcowe białe znaki z tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Obcina terminy do określonej długości. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtruje tokeny z tym samym tekstem co poprzedni token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normalizuje tekst tokenu do wielkich liter. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Dzieli wyrazy na podwyrazy i wykonuje opcjonalne przekształcenia w grupach podsłów.