Indexes - Analyze
Pokazuje, jak analizator dzieli tekst na tokeny.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01
Parametry identyfikatora URI
| Nazwa | W | Wymagane | Typ | Opis |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
Adres URL punktu końcowego usługi wyszukiwania. |
|
index
|
path | True |
string |
Nazwa indeksu, dla którego ma zostać przetestowany analizator. |
|
api-version
|
query | True |
string |
Wersja interfejsu API klienta. |
Nagłówek żądania
| Nazwa | Wymagane | Typ | Opis |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
Identyfikator śledzenia wysłany z żądaniem, aby pomóc w debugowaniu. |
Treść żądania
| Nazwa | Wymagane | Typ | Opis |
|---|---|---|---|
| text | True |
string |
Tekst do podziału na tokeny. |
| analyzer |
Nazwa analizatora, który ma być używany do przerwania podanego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają. |
||
| charFilters |
Opcjonalna lista filtrów znaków, które mają być używane podczas dzielenia podanego tekstu. Ten parametr można ustawić tylko w przypadku korzystania z parametru tokenizera. |
||
| normalizer |
Nazwa normalizatora, który ma być używany do normalizacji danego tekstu. |
||
| tokenFilters |
Opcjonalna lista filtrów tokenów, które mają być używane podczas przerywania podanego tekstu. Ten parametr można ustawić tylko w przypadku korzystania z parametru tokenizera. |
||
| tokenizer |
Nazwa tokenizatora, który ma być używany do przerwania podanego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają. |
Odpowiedzi
| Nazwa | Typ | Opis |
|---|---|---|
| 200 OK | ||
| Other Status Codes |
Odpowiedź na błąd. |
Przykłady
SearchServiceIndexAnalyze
Przykładowe żądanie
POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01
{
"text": "Text to analyze",
"analyzer": "ar.lucene"
}
Przykładowa odpowiedź
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definicje
| Nazwa | Opis |
|---|---|
|
Analyzed |
Informacje o tokenie zwróconym przez analizator. |
|
Analyze |
Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny. |
|
Analyze |
Wynik testowania analizatora na tekście. |
|
Char |
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę. |
|
Error |
Dodatkowe informacje o błędzie zarządzania zasobami. |
|
Error |
Szczegóły błędu. |
|
Error |
Odpowiedź na błąd |
|
Lexical |
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę. |
|
Lexical |
Definiuje nazwy wszystkich normalizatorów tekstu obsługiwanych przez wyszukiwarkę. |
|
Lexical |
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę. |
|
Token |
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę. |
AnalyzedTokenInfo
Informacje o tokenie zwróconym przez analizator.
| Nazwa | Typ | Opis |
|---|---|---|
| endOffset |
integer (int32) |
Indeks ostatniego znaku tokenu w tekście wejściowym. |
| position |
integer (int32) |
Pozycja tokenu w tekście wejściowym względem innych tokenów. Pierwszy token w tekście wejściowym ma pozycję 0, następny ma pozycję 1 i tak dalej. W zależności od używanego analizatora niektóre tokeny mogą mieć tę samą pozycję, na przykład jeśli są synonimami siebie nawzajem. |
| startOffset |
integer (int32) |
Indeks pierwszego znaku tokenu w tekście wejściowym. |
| token |
string |
Token zwrócony przez analizator. |
AnalyzeRequest
Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny.
| Nazwa | Typ | Opis |
|---|---|---|
| analyzer |
Nazwa analizatora, który ma być używany do przerwania podanego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają. |
|
| charFilters |
Opcjonalna lista filtrów znaków, które mają być używane podczas dzielenia podanego tekstu. Ten parametr można ustawić tylko w przypadku korzystania z parametru tokenizera. |
|
| normalizer |
Nazwa normalizatora, który ma być używany do normalizacji danego tekstu. |
|
| text |
string |
Tekst do podziału na tokeny. |
| tokenFilters |
Opcjonalna lista filtrów tokenów, które mają być używane podczas przerywania podanego tekstu. Ten parametr można ustawić tylko w przypadku korzystania z parametru tokenizera. |
|
| tokenizer |
Nazwa tokenizatora, który ma być używany do przerwania podanego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają. |
AnalyzeResult
Wynik testowania analizatora na tekście.
| Nazwa | Typ | Opis |
|---|---|---|
| tokens |
Lista tokenów zwróconych przez analizator określony w żądaniu. |
CharFilterName
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.
| Wartość | Opis |
|---|---|
| html_strip |
Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Dodatkowe informacje o błędzie zarządzania zasobami.
| Nazwa | Typ | Opis |
|---|---|---|
| info |
object |
Dodatkowe informacje. |
| type |
string |
Dodatkowy typ informacji. |
ErrorDetail
Szczegóły błędu.
| Nazwa | Typ | Opis |
|---|---|---|
| additionalInfo |
Dodatkowe informacje o błędzie. |
|
| code |
string |
Kod błędu. |
| details |
Szczegóły błędu. |
|
| message |
string |
Komunikat o błędzie. |
| target |
string |
Element docelowy błędu. |
ErrorResponse
Odpowiedź na błąd
| Nazwa | Typ | Opis |
|---|---|---|
| error |
Obiekt błędu. |
LexicalAnalyzerName
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.
| Wartość | Opis |
|---|---|
| ar.microsoft |
Microsoft Analyzer dla języka arabskiego. |
| ar.lucene |
Analizator Lucene dla języka arabskiego. |
| hy.lucene |
Analizator Lucene dla języka ormiańskiego. |
| bn.microsoft |
Microsoft Analyzer dla języka Bangla. |
| eu.lucene |
Analizator Lucene dla języka baskijskiego. |
| bg.microsoft |
Microsoft Analyzer dla języka bułgarskiego. |
| bg.lucene |
Analizator Lucene dla języka bułgarskiego. |
| ca.microsoft |
Microsoft analyzer dla języka katalońskiego. |
| ca.lucene |
Analizator Lucene dla języka katalońskiego. |
| zh-Hans.microsoft |
Microsoft Analyzer dla języka chińskiego (uproszczonego). |
| zh-Hans.lucene |
Analizator Lucene dla języka chińskiego (uproszczony). |
| zh-Hant.microsoft |
Microsoft Analyzer dla języka chińskiego (tradycyjnego). |
| zh-Hant.lucene |
Analizator Lucene dla języka chińskiego (tradycyjnego). |
| hr.microsoft |
Microsoft Analyzer dla języka chorwackiego. |
| cs.microsoft |
Microsoft Analyzer dla języka czeskiego. |
| cs.lucene |
Analizator Lucene dla Czech. |
| da.microsoft |
Microsoft Analyzer dla języka duńskiego. |
| da.lucene |
Analizator Lucene dla języka duńskiego. |
| nl.microsoft |
Microsoft Analyzer dla języka niderlandzkiego. |
| nl.lucene |
Analizator Lucene dla języka niderlandzkiego. |
| en.microsoft |
Microsoft Analyzer dla języka angielskiego. |
| en.lucene |
Analizator Lucene dla języka angielskiego. |
| et.microsoft |
Microsoft Analyzer dla języka estońskiego. |
| fi.microsoft |
Microsoft Analyzer dla języka fińskiego. |
| fi.lucene |
Analizator Lucene dla języka fińskiego. |
| fr.microsoft |
Microsoft Analyzer dla języka francuskiego. |
| fr.lucene |
Analizator Lucene dla języka francuskiego. |
| gl.lucene |
Analizator Lucene dla języka galicyjskiego. |
| de.microsoft |
Microsoft Analyzer dla języka niemieckiego. |
| de.lucene |
Analizator Lucene dla języka niemieckiego. |
| el.microsoft |
Microsoft Analyzer dla języka greckiego. |
| el.lucene |
Analizator Lucene dla języka greckiego. |
| gu.microsoft |
Microsoft Analyzer dla języka gudżarati. |
| he.microsoft |
Microsoft Analyzer dla języka hebrajskiego. |
| hi.microsoft |
Microsoft Analyzer dla języka hindi. |
| hi.lucene |
Lucene analyzer dla języka hindi. |
| hu.microsoft |
Microsoft Analyzer dla języka węgierskiego. |
| hu.lucene |
Analizator Lucene dla języka węgierskiego. |
| is.microsoft |
Microsoft Analyzer dla języka islandzkiego. |
| id.microsoft |
Microsoft Analyzer dla języka indonezyjskiego (Bahasa). |
| id.lucene |
Analizator Lucene dla języka indonezyjskiego. |
| ga.lucene |
Analizator Lucene dla języka irlandzkiego. |
| it.microsoft |
Microsoft Analyzer dla języka włoskiego. |
| it.lucene |
Analizator Lucene dla języka włoskiego. |
| ja.microsoft |
Microsoft Analyzer dla języka japońskiego. |
| ja.lucene |
Analizator Lucene dla języka japońskiego. |
| kn.microsoft |
Microsoft Analyzer dla Kannada. |
| ko.microsoft |
Microsoft Analyzer dla języka koreańskiego. |
| ko.lucene |
Analizator Lucene dla języka koreańskiego. |
| lv.microsoft |
Microsoft Analyzer dla języka łotewskiego. |
| lv.lucene |
Lucene analyzer dla języka łotewskiego. |
| lt.microsoft |
Microsoft Analyzer dla języka litewskiego. |
| ml.microsoft |
Microsoft Analyzer dla języka malayalam. |
| ms.microsoft |
Microsoft Analyzer dla języka malajskiego (łacińskiego). |
| mr.microsoft |
Microsoft Analyzer dla Marathi. |
| nb.microsoft |
Microsoft Analyzer dla języka norweskiego (Bokmål). |
| no.lucene |
Analizator Lucene dla języka norweskiego. |
| fa.lucene |
Analizator Lucene dla języka perskiego. |
| pl.microsoft |
Microsoft analyzer dla języka polskiego. |
| pl.lucene |
Analizator Lucene dla języka polskiego. |
| pt-BR.microsoft |
Microsoft Analyzer dla języka portugalskiego (Brazylia). |
| pt-BR.lucene |
Analizator Lucene dla języka portugalskiego (Brazylia). |
| pt-PT.microsoft |
Microsoft Analyzer dla języka portugalskiego (Portugalia). |
| pt-PT.lucene |
Analizator Lucene dla języka portugalskiego (Portugalia). |
| pa.microsoft |
Microsoft Analyzer dla języka pendżabskiego. |
| ro.microsoft |
Microsoft Analyzer dla języka rumuńskiego. |
| ro.lucene |
Analizator Lucene dla języka rumuńskiego. |
| ru.microsoft |
Microsoft Analyzer dla języka rosyjskiego. |
| ru.lucene |
Analizator Lucene dla języka rosyjskiego. |
| sr-cyrillic.microsoft |
Microsoft Analyzer dla języka serbskiego (cyrylica). |
| sr-latin.microsoft |
Microsoft Analyzer dla języka serbskiego (łacińskiego). |
| sk.microsoft |
Microsoft Analyzer dla języka słowackiego. |
| sl.microsoft |
Microsoft Analyzer dla języka słoweńskiego. |
| es.microsoft |
Microsoft Analyzer dla języka hiszpańskiego. |
| es.lucene |
Analizator Lucene dla języka hiszpańskiego. |
| sv.microsoft |
Microsoft Analyzer dla języka szwedzkiego. |
| sv.lucene |
Analizator Lucene dla języka szwedzkiego. |
| ta.microsoft |
Microsoft Analyzer dla języka tamilskiego. |
| te.microsoft |
Microsoft Analyzer dla języka telugu. |
| th.microsoft |
Microsoft Analyzer dla języka tajskiego. |
| th.lucene |
Analizator Lucene dla języka tajskiego. |
| tr.microsoft |
Microsoft Analyzer dla języka tureckiego. |
| tr.lucene |
Analizator Lucene dla języka tureckiego. |
| uk.microsoft |
Microsoft Analyzer dla języka ukraińskiego. |
| ur.microsoft |
Microsoft Analyzer dla języka urdu. |
| vi.microsoft |
Microsoft Analyzer dla wietnamskiego. |
| standard.lucene |
Standardowy analizator Lucene. |
| standardasciifolding.lucene |
Standardowy analizator składany ASCII Lucene. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
Dzieli tekst na miejsca niebędące literami; Stosuje filtry tokenów małych liter i stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
Analizator korzystający z tokenizatora białych znaków. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
Definiuje nazwy wszystkich normalizatorów tekstu obsługiwanych przez wyszukiwarkę.
| Wartość | Opis |
|---|---|
| asciifolding |
Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
Usuwa elisje. Na przykład "l'avion" (samolot) zostanie przekształcony w "avion" (samolot). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
Normalizuje tekst tokenu na małe litery. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
Standardowy normalizator, który składa się z małych liter i asciifoldingu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
Normalizuje tekst tokenu do wielkich liter. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.
TokenFilterName
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.