Indexes - Analyze
Montre comment un analyseur décompose le texte en jetons.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01
Paramètres URI
| Nom | Dans | Obligatoire | Type | Description |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
URL du point de terminaison du service de recherche. |
|
index
|
path | True |
string |
Nom de l’index pour lequel tester un analyseur. |
|
api-version
|
query | True |
string |
Version de l’API cliente. |
En-tête de la demande
| Nom | Obligatoire | Type | Description |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
ID de suivi envoyé avec la demande pour aider au débogage. |
Corps de la demande
| Nom | Obligatoire | Type | Description |
|---|---|---|---|
| text | True |
string |
Le texte à diviser en jetons. |
| analyzer |
Nom de l’analyseur à utiliser pour couper le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un générateur de jetons à la place. Les paramètres du tokenizer et de l’analyseur s’excluent mutuellement. |
||
| charFilters |
Une liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer. |
||
| normalizer |
Nom du normaliseur à utiliser pour normaliser le texte donné. |
||
| tokenFilters |
Une liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer. |
||
| tokenizer |
Le nom du générateur de jetons à utiliser pour casser le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres du tokenizer et de l’analyseur s’excluent mutuellement. |
Réponses
| Nom | Type | Description |
|---|---|---|
| 200 OK | ||
| Other Status Codes |
Réponse d’erreur. |
Exemples
SearchServiceIndexAnalyze
Exemple de requête
POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01
{
"text": "Text to analyze",
"analyzer": "ar.lucene"
}
Exemple de réponse
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Définitions
| Nom | Description |
|---|---|
|
Analyzed |
Informations sur un jeton renvoyé par un analyseur. |
|
Analyze |
Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons. |
|
Analyze |
Le résultat du test d’un analyseur sur du texte. |
|
Char |
Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche. |
|
Error |
Informations supplémentaires sur l’erreur de gestion des ressources. |
|
Error |
Détail de l’erreur. |
|
Error |
Réponse d’erreur |
|
Lexical |
Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche. |
|
Lexical |
Définit les noms de tous les normaliseurs de texte pris en charge par le moteur de recherche. |
|
Lexical |
Définit les noms de tous les tokenizers pris en charge par le moteur de recherche. |
|
Token |
Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche. |
AnalyzedTokenInfo
Informations sur un jeton renvoyé par un analyseur.
| Nom | Type | Description |
|---|---|---|
| endOffset |
integer (int32) |
L’index du dernier caractère du jeton dans le texte d’entrée. |
| position |
integer (int32) |
Position du jeton dans le texte d’entrée par rapport aux autres jetons. Le premier jeton du texte d’entrée a la position 0, le suivant a la position 1, et ainsi de suite. Selon l’analyseur utilisé, certains jetons peuvent avoir la même position, par exemple s’ils sont synonymes les uns des autres. |
| startOffset |
integer (int32) |
L’index du premier caractère du jeton dans le texte d’entrée. |
| token |
string |
Jeton renvoyé par l’analyseur. |
AnalyzeRequest
Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.
| Nom | Type | Description |
|---|---|---|
| analyzer |
Nom de l’analyseur à utiliser pour couper le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un générateur de jetons à la place. Les paramètres du tokenizer et de l’analyseur s’excluent mutuellement. |
|
| charFilters |
Une liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer. |
|
| normalizer |
Nom du normaliseur à utiliser pour normaliser le texte donné. |
|
| text |
string |
Le texte à diviser en jetons. |
| tokenFilters |
Une liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer. |
|
| tokenizer |
Le nom du générateur de jetons à utiliser pour casser le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres du tokenizer et de l’analyseur s’excluent mutuellement. |
AnalyzeResult
Le résultat du test d’un analyseur sur du texte.
| Nom | Type | Description |
|---|---|---|
| tokens |
Liste des jetons renvoyés par l’analyseur spécifié dans la demande. |
CharFilterName
Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.
| Valeur | Description |
|---|---|
| html_strip |
Filtre de caractères qui tente de supprimer les constructions HTML. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Informations supplémentaires sur l’erreur de gestion des ressources.
| Nom | Type | Description |
|---|---|---|
| info |
object |
Informations supplémentaires. |
| type |
string |
Type d’informations supplémentaire. |
ErrorDetail
Détail de l’erreur.
| Nom | Type | Description |
|---|---|---|
| additionalInfo |
Informations supplémentaires sur l’erreur. |
|
| code |
string |
Code d’erreur. |
| details |
Détails de l’erreur. |
|
| message |
string |
Message d’erreur. |
| target |
string |
Cible d’erreur. |
ErrorResponse
Réponse d’erreur
| Nom | Type | Description |
|---|---|---|
| error |
Objet d’erreur. |
LexicalAnalyzerName
Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.
| Valeur | Description |
|---|---|
| ar.microsoft |
Microsoft analyzer pour l’arabe. |
| ar.lucene |
Analyseur Lucene pour l’arabe. |
| hy.lucene |
Analyseur Lucene pour l’arménien. |
| bn.microsoft |
Analyseur Microsoft pour le bengali. |
| eu.lucene |
Analyseur Lucene pour le basque. |
| bg.microsoft |
Microsoft analyzer pour le bulgare. |
| bg.lucene |
Analyseur Lucene pour le bulgare. |
| ca.microsoft |
Analyseur Microsoft pour le catalan. |
| ca.lucene |
Analyseur Lucene pour le catalan. |
| zh-Hans.microsoft |
Microsoft analyzer pour le chinois (simplifié). |
| zh-Hans.lucene |
Analyseur Lucene pour le chinois (simplifié). |
| zh-Hant.microsoft |
Microsoft analyzer pour le chinois (traditionnel). |
| zh-Hant.lucene |
Analyseur Lucene pour le chinois (traditionnel). |
| hr.microsoft |
Analyseur Microsoft pour le croate. |
| cs.microsoft |
Microsoft analyzer pour le tchèque. |
| cs.lucene |
Analyseur Lucene pour le tchèque. |
| da.microsoft |
Analyseur Microsoft pour le danois. |
| da.lucene |
Analyseur Lucene pour le danois. |
| nl.microsoft |
Analyseur Microsoft pour le néerlandais. |
| nl.lucene |
Analyseur Lucene pour le néerlandais. |
| en.microsoft |
Microsoft analyzer pour l’anglais. |
| en.lucene |
Analyseur Lucene pour l’anglais. |
| et.microsoft |
Microsoft analyzer pour l’estonien. |
| fi.microsoft |
Microsoft analyzer pour le finnois. |
| fi.lucene |
Analyseur Lucene pour le finnois. |
| fr.microsoft |
Analyseur Microsoft pour le français. |
| fr.lucene |
Analyseur Lucene pour le français. |
| gl.lucene |
Analyseur Lucene pour le galicien. |
| de.microsoft |
Microsoft analyzer pour l’allemand. |
| de.lucene |
Analyseur Lucene pour l’allemand. |
| el.microsoft |
Analyseur Microsoft pour le grec. |
| el.lucene |
Analyseur Lucene pour le grec. |
| gu.microsoft |
Analyseur Microsoft pour le gujarati. |
| he.microsoft |
Microsoft analyzer pour l’hébreu. |
| hi.microsoft |
Analyseur Microsoft pour l’hindi. |
| hi.lucene |
Analyseur Lucene pour l’hindi. |
| hu.microsoft |
Microsoft analyzer pour le hongrois. |
| hu.lucene |
Analyseur Lucene pour le hongrois. |
| is.microsoft |
Microsoft analyzer pour l’islandais. |
| id.microsoft |
Analyseur Microsoft pour l’indonésien (Bahasa). |
| id.lucene |
Analyseur Lucene pour l’indonésien. |
| ga.lucene |
Analyseur Lucene pour l’irlandais. |
| it.microsoft |
Microsoft analyzer pour l’italien. |
| it.lucene |
Analyseur Lucene pour l’italien. |
| ja.microsoft |
Microsoft analyzer pour le japonais. |
| ja.lucene |
Analyseur Lucene pour le japonais. |
| kn.microsoft |
Analyseur Microsoft pour Kannada. |
| ko.microsoft |
Microsoft analyzer pour le coréen. |
| ko.lucene |
Analyseur Lucene pour le coréen. |
| lv.microsoft |
Analyseur Microsoft pour le letton. |
| lv.lucene |
Analyseur Lucene pour le letton. |
| lt.microsoft |
Analyseur Microsoft pour le lituanien. |
| ml.microsoft |
Analyseur Microsoft pour le malayalam. |
| ms.microsoft |
Microsoft analyzer pour le malais (latin). |
| mr.microsoft |
Analyseur Microsoft pour Marathi. |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål). |
| no.lucene |
Analyseur Lucene pour Norwegian. |
| fa.lucene |
Analyseur Lucene pour le persan. |
| pl.microsoft |
Analyseur Microsoft pour le polonais. |
| pl.lucene |
Analyseur Lucene pour le polonais. |
| pt-BR.microsoft |
Microsoft analyzer pour le portugais (Brésil). |
| pt-BR.lucene |
Analyseur Lucene pour le portugais (Brésil). |
| pt-PT.microsoft |
Microsoft analyzer pour le portugais (Portugal). |
| pt-PT.lucene |
Analyseur Lucene pour le portugais (Portugal). |
| pa.microsoft |
Analyseur Microsoft pour le pendjabi. |
| ro.microsoft |
Analyseur Microsoft pour le roumain. |
| ro.lucene |
Analyseur Lucene pour roumain. |
| ru.microsoft |
Microsoft analyzer pour le russe. |
| ru.lucene |
Analyseur Lucene pour le russe. |
| sr-cyrillic.microsoft |
Microsoft analyzer pour le serbe (cyrillique). |
| sr-latin.microsoft |
Analyseur Microsoft pour le serbe (latin). |
| sk.microsoft |
Analyseur Microsoft pour le slovaque. |
| sl.microsoft |
Analyseur Microsoft pour le slovène. |
| es.microsoft |
Analyseur Microsoft pour l’espagnol. |
| es.lucene |
Analyseur Lucene pour l’espagnol. |
| sv.microsoft |
Microsoft analyzer pour le suédois. |
| sv.lucene |
Analyseur Lucene pour le suédois. |
| ta.microsoft |
Analyseur Microsoft pour le tamoul. |
| te.microsoft |
Analyseur Microsoft pour le télougou. |
| th.microsoft |
Analyseur Microsoft pour le thaï. |
| th.lucene |
Analyseur Lucene pour le thaïlandais. |
| tr.microsoft |
Analyseur Microsoft pour le turc. |
| tr.lucene |
Analyseur Lucene pour le turc. |
| uk.microsoft |
Microsoft analyzer pour l’ukrainien. |
| ur.microsoft |
Analyseur Microsoft pour l’ourdou. |
| vi.microsoft |
Analyseur Microsoft pour le vietnamien. |
| standard.lucene |
Analyseur Lucene standard. |
| standardasciifolding.lucene |
Analyseur standard ASCII Folding Lucene. Voir https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
Traite l’intégralité du contenu d’un champ comme un jeton unique. Ceci est utile pour des données telles que les codes postaux, les identifiants et certains noms de produits. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
Sépare le texte en termes de manière flexible à l’aide d’un modèle d’expression régulière. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
Divise le texte en non-lettres et le convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
Divise le texte en non-lettres ; Applique les filtres de jeton en minuscules et en mots vides. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
Un analyseur qui utilise le générateur de jetons d’espaces. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
Définit les noms de tous les normaliseurs de texte pris en charge par le moteur de recherche.
| Valeur | Description |
|---|---|
| asciifolding |
Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, le cas échéant. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
Supprime les élisions. Par exemple, « l’avion » sera converti en « avion ». Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
Normalise le texte du jeton en minuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
Normaliseur standard, qui se compose de minuscules et d’un repliement ascii. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
Normalise le texte du jeton en majuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Définit les noms de tous les tokenizers pris en charge par le moteur de recherche.
TokenFilterName
Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.