Indexes - Create
Crea un nuevo índice de búsqueda.
POST {endpoint}/indexes?api-version=2025-09-01
Parámetros de identificador URI
| Nombre | En | Requerido | Tipo | Description |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
La dirección URL del punto de conexión del servicio de búsqueda. |
|
api-version
|
query | True |
string |
Versión de api de cliente. |
Encabezado de la solicitud
| Nombre | Requerido | Tipo | Description |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
El identificador de seguimiento enviado con la solicitud para ayudar con la depuración. |
Cuerpo de la solicitud
| Nombre | Requerido | Tipo | Description |
|---|---|---|---|
| fields | True |
Los campos del índice. |
|
| name | True |
string |
El nombre del índice. |
| @odata.etag |
string |
La ETag del índice. |
|
| analyzers | LexicalAnalyzer[]: |
Los analizadores del índice. |
|
| charFilters | CharFilter[]: |
Los filtros de caracteres para el índice. |
|
| corsOptions |
Opciones para controlar el uso compartido de recursos entre orígenes (CORS) para el índice. |
||
| defaultScoringProfile |
string |
Nombre del perfil de puntuación que se va a usar si no se especifica ninguno en la consulta. Si no se establece esta propiedad y no se especifica ningún perfil de puntuación en la consulta, se usará la puntuación predeterminada (tf-idf). |
|
| description |
string |
La descripción del índice. |
|
| encryptionKey |
Descripción de una clave de cifrado que se crea en Azure Key Vault. Esta clave se usa para proporcionar un nivel adicional de cifrado en reposo para sus datos cuando desea una garantía total de que nadie, ni siquiera Microsoft, puede descifrar sus datos. Una vez que haya cifrado sus datos, siempre permanecerán encriptados. El servicio de búsqueda omitirá los intentos de establecer esta propiedad en null. Puede cambiar esta propiedad según sea necesario si desea rotar su clave de cifrado; Sus datos no se verán afectados. El cifrado con claves administradas por el cliente no está disponible para los servicios de búsqueda gratuitos y solo está disponible para los servicios pagos creados a partir del 1 de enero de 2019. |
||
| normalizers | LexicalNormalizer[]: |
Los normalizadores del índice. |
|
| scoringProfiles |
Los perfiles de puntuación para el índice. |
||
| semantic |
Define parámetros para un índice de búsqueda que influyen en las capacidades semánticas. |
||
| similarity | Similarity: |
El tipo de algoritmo de similitud que se utilizará al puntuar y clasificar los documentos que coincidan con una consulta de búsqueda. El algoritmo de similitud solo se puede definir en el momento de la creación del índice y no se puede modificar en los índices existentes. Si es null, se usa el algoritmo ClassicSimilarity. |
|
| suggesters |
Los sugerentes para el índice. |
||
| tokenFilters |
TokenFilter[]:
|
El token filtra el índice. |
|
| tokenizers | LexicalTokenizer[]: |
Los tokenizadores del índice. |
|
| vectorSearch |
Contiene opciones de configuración relacionadas con la búsqueda vectorial. |
Respuestas
| Nombre | Tipo | Description |
|---|---|---|
| 201 Created | ||
| Other Status Codes |
Respuesta de error. |
Ejemplos
SearchServiceCreateIndex
Solicitud de ejemplo
POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
Respuesta de muestra
{
"@odata.etag": "0x1234568AE7E58A1",
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
Definiciones
| Nombre | Description |
|---|---|
|
Ascii |
Convierte los caracteres Unicode alfabéticos, numéricos y simbólicos que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Latín básico") en sus equivalentes ASCII, si existen dichos equivalentes. Este filtro de token se implementa mediante Apache Lucene. |
|
Azure |
Credenciales de una aplicación registrada creada para el servicio de búsqueda, usadas para el acceso autenticado a las claves de cifrado almacenadas en Azure Key Vault. |
|
Azure |
Permite generar una inserción vectorial para una entrada de texto determinada mediante el recurso de Azure OpenAI. |
|
Azure |
Nombre del modelo de Azure Open AI al que se llamará. |
|
Azure |
Especifica los parámetros para conectarse al recurso de Azure OpenAI. |
|
Azure |
Especifica el recurso de Azure OpenAI que se usa para vectorizar una cadena de consulta. |
|
Binary |
Contiene opciones de configuración específicas del método de compresión de cuantificación binaria utilizado durante la indexación y la consulta. |
| BM25Similarity |
Función de clasificación basada en el algoritmo de similitud Okapi BM25. BM25 es un algoritmo similar a TF-IDF que incluye normalización de longitud (controlada por el parámetro 'b'), así como saturación de frecuencia de términos (controlada por el parámetro 'k1'). |
|
Char |
Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda. |
|
Cjk |
Forma bigramas de términos CJK que se generan a partir del tokenizador estándar. Este filtro de token se implementa mediante Apache Lucene. |
|
Cjk |
Scripts que CjkBigramTokenFilter puede omitir. |
|
Classic |
Algoritmo de similitud heredado que utiliza la implementación de TFIDFSimilarity de Lucene de TF-IDF. Esta variación de TF-IDF introduce una normalización de la longitud estática de los documentos, así como factores de coordinación que penalizan los documentos que solo coinciden parcialmente con las consultas buscadas. |
|
Classic |
Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos en idiomas europeos. Este tokenizador se implementa mediante Apache Lucene. |
|
Common |
Construya bigramas para términos frecuentes durante la indexación. Los términos individuales también están indexados, con bigramas superpuestos. Este filtro de token se implementa mediante Apache Lucene. |
|
Cors |
Define opciones para controlar el uso compartido de recursos entre orígenes (CORS) para un índice. |
|
Custom |
Le permite tomar el control sobre el proceso de conversión de texto en tokens indexables / buscables. Es una configuración definida por el usuario que consta de un único tokenizador predefinido y uno o varios filtros. El tokenizador es responsable de dividir el texto en tokens y los filtros para modificar los tokens emitidos por el tokenizador. |
|
Custom |
Permite configurar la normalización de los campos filtrables, ordenables y facetables, que de forma predeterminada funcionan con coincidencia estricta. Se trata de una configuración definida por el usuario que consta de al menos uno o más filtros, que modifican el token que se almacena. |
|
Dictionary |
Descompone palabras compuestas que se encuentran en muchas lenguas germánicas. Este filtro de token se implementa mediante Apache Lucene. |
|
Distance |
Define una función que aumenta las puntuaciones en función de la distancia desde una ubicación geográfica. |
|
Distance |
Proporciona valores de parámetro a una función de puntuación de distancia. |
|
Edge |
Genera n-gramas de los tamaños dados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene. |
|
Edge |
Especifica desde qué lado de la entrada se debe generar un n-grama. |
|
Edge |
Genera n-gramas de los tamaños dados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene. |
|
Edge |
Tokeniza la entrada de un borde en n-gramas de los tamaños dados. Este tokenizador se implementa mediante Apache Lucene. |
|
Elision |
Elimina elisiones. Por ejemplo, "l'avion" (el avión) se convertirá en "avion" (avión). Este filtro de token se implementa mediante Apache Lucene. |
|
Error |
Información adicional sobre el error de administración de recursos. |
|
Error |
Detalle del error. |
|
Error |
Respuesta de error |
|
Exhaustive |
Contiene los parámetros específicos del algoritmo KNN exhaustivo. |
|
Exhaustive |
Contiene opciones de configuración específicas del algoritmo KNN exhaustivo utilizado durante la consulta, que realizará una búsqueda de fuerza bruta en todo el índice vectorial. |
|
Freshness |
Define una función que aumenta las puntuaciones en función del valor de un campo de fecha y hora. |
|
Freshness |
Proporciona valores de parámetro a una función de puntuación de actualización. |
|
Hnsw |
Contiene los parámetros específicos del algoritmo HNSW. |
|
Hnsw |
Contiene opciones de configuración específicas del algoritmo de vecinos más cercanos aproximados de HNSW utilizado durante la indexación y la consulta. El algoritmo HNSW ofrece una compensación ajustable entre la velocidad de búsqueda y la precisión. |
|
Input |
Asignación de campos de entrada para una aptitud. |
|
Keep |
Un filtro de tokens que solo mantiene tokens con texto contenido en una lista especificada de palabras. Este filtro de token se implementa mediante Apache Lucene. |
|
Keyword |
Marca los términos como palabras clave. Este filtro de token se implementa mediante Apache Lucene. |
|
Keyword |
Emite toda la entrada como un solo token. Este tokenizador se implementa mediante Apache Lucene. |
|
Keyword |
Emite toda la entrada como un solo token. Este tokenizador se implementa mediante Apache Lucene. |
|
Length |
Elimina palabras que son demasiado largas o demasiado cortas. Este filtro de token se implementa mediante Apache Lucene. |
|
Lexical |
Define los nombres de todos los analizadores de texto compatibles con el motor de búsqueda. |
|
Lexical |
Define los nombres de todos los normalizadores de texto admitidos por el motor de búsqueda. |
|
Lexical |
Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda. |
|
Limit |
Limita el número de tokens durante la indexación. Este filtro de token se implementa mediante Apache Lucene. |
|
Lucene |
Analizador estándar de Apache Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro de parada. |
|
Lucene |
Rompe el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene. |
|
Lucene |
Rompe el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene. |
|
Magnitude |
Define una función que aumenta las puntuaciones en función de la magnitud de un campo numérico. |
|
Magnitude |
Proporciona valores de parámetro a una función de puntuación de magnitud. |
|
Mapping |
Un filtro de caracteres que aplica asignaciones definidas con la opción mappings. La coincidencia es codiciosa (gana la coincidencia de patrones más larga en un punto dado). Se permite que el reemplazo sea la cadena vacía. Este filtro de caracteres se implementa mediante Apache Lucene. |
|
Microsoft |
Divide el texto utilizando reglas específicas del idioma y reduce las palabras a sus formas base. |
|
Microsoft |
Divide el texto utilizando reglas específicas del idioma. |
|
Microsoft |
Enumera los idiomas admitidos por el tokenizador de lematización de lenguaje de Microsoft. |
|
Microsoft |
Enumera los idiomas admitidos por el tokenizador de idioma de Microsoft. |
|
NGram |
Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene. |
|
NGram |
Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene. |
|
NGram |
Tokeniza la entrada en n-gramas de los tamaños dados. Este tokenizador se implementa mediante Apache Lucene. |
|
Output |
Asignación de campos de salida para una aptitud. |
|
Path |
Tokenizador para jerarquías similares a rutas. Este tokenizador se implementa mediante Apache Lucene. |
|
Pattern |
Separa el texto de forma flexible en términos a través de un patrón de expresión regular. Este analizador se implementa mediante Apache Lucene. |
|
Pattern |
Utiliza expresiones regulares de Java para emitir varios tokens, uno para cada grupo de captura en uno o más patrones. Este filtro de token se implementa mediante Apache Lucene. |
|
Pattern |
Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Utiliza una expresión regular para identificar las secuencias de caracteres que se van a conservar y un patrón de reemplazo para identificar los caracteres que se van a reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb". Este filtro de caracteres se implementa mediante Apache Lucene. |
|
Pattern |
Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Utiliza una expresión regular para identificar las secuencias de caracteres que se van a conservar y un patrón de reemplazo para identificar los caracteres que se van a reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb". Este filtro de token se implementa mediante Apache Lucene. |
|
Pattern |
Tokenizador que utiliza la coincidencia de patrones de expresiones regulares para construir tokens distintos. Este tokenizador se implementa mediante Apache Lucene. |
|
Phonetic |
Identifica el tipo de codificador fonético que se va a usar con PhoneticTokenFilter. |
|
Phonetic |
Cree tokens para coincidencias fonéticas. Este filtro de token se implementa mediante Apache Lucene. |
|
Prioritized |
Describe los campos de título, contenido y palabras clave que se utilizarán para la clasificación semántica, los subtítulos, los resaltados y las respuestas. |
|
Ranking |
Representa la puntuación que se usará para el criterio de ordenación de los documentos. |
|
Regex |
Define marcas que se pueden combinar para controlar cómo se usan las expresiones regulares en el analizador de patrones y el tokenizador de patrones. |
|
Rescoring |
Contiene las opciones para volver a puntuar. |
|
Scalar |
Contiene los parámetros específicos de la cuantificación escalar. |
|
Scalar |
Contiene opciones de configuración específicas del método de compresión de cuantificación escalar utilizado durante la indexación y la consulta. |
|
Scoring |
Define la función de agregación utilizada para combinar los resultados de todas las funciones de puntuación de un perfil de puntuación. |
|
Scoring |
Define la función utilizada para interpolar el aumento de puntuación en un rango de documentos. |
|
Scoring |
Define los parámetros de un índice de búsqueda que influyen en la puntuación en las consultas de búsqueda. |
|
Search |
Representa un campo en una definición de índice, que describe el nombre, el tipo de datos y el comportamiento de búsqueda de un campo. |
|
Search |
Define el tipo de datos de un campo en un índice de búsqueda. |
|
Search |
Representa una definición de índice de búsqueda, que describe los campos y el comportamiento de búsqueda de un índice. |
|
Search |
Borra la propiedad de identidad de un origen de datos. |
|
Search |
Especifica la identidad de un origen de datos que se va a utilizar. |
|
Search |
Una clave de cifrado administrada por el cliente en Azure Key Vault. Las claves que crea y administra se pueden usar para cifrar o descifrar datos en reposo, como índices y mapas de sinónimos. |
|
Semantic |
Define una configuración específica que se utilizará en el contexto de las capacidades semánticas. |
|
Semantic |
Campo que se usa como parte de la configuración semántica. |
|
Semantic |
Define parámetros para un índice de búsqueda que influyen en las capacidades semánticas. |
|
Shingle |
Crea combinaciones de tokens como un solo token. Este filtro de token se implementa mediante Apache Lucene. |
|
Snowball |
Filtro que deriva palabras mediante un lematizador generado por Snowball. Este filtro de token se implementa mediante Apache Lucene. |
|
Snowball |
El idioma que se va a utilizar para un filtro de tokens de Snowball. |
|
Stemmer |
Proporciona la capacidad de invalidar otros filtros de lematización con lematización personalizada basada en diccionario. Cualquier término derivado del diccionario se marcará como palabras clave para que no se relacione con lematizadores en la cadena. Debe colocarse antes de cualquier filtro de derivación. Este filtro de token se implementa mediante Apache Lucene. |
|
Stemmer |
Filtro de lematización específico del idioma. Este filtro de token se implementa mediante Apache Lucene. |
|
Stemmer |
El lenguaje que se va a usar para un filtro de token de lematización. |
|
Stop |
Divide el texto en no letras; Aplica los filtros de token de minúsculas y palabras irrelevantes. Este analizador se implementa mediante Apache Lucene. |
|
Stopwords |
Identifica una lista predefinida de palabras irrelevantes específicas del idioma. |
|
Stopwords |
Quita las palabras vacías de una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene. |
| Suggester |
Define cómo se debe aplicar la API de sugerencias a un grupo de campos del índice. |
|
Suggester |
Valor que indica las capacidades del sugeridor. |
|
Synonym |
Coincide con sinónimos de una o varias palabras en una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene. |
|
Tag |
Define una función que aumenta las puntuaciones de los documentos con valores de cadena que coinciden con una lista determinada de etiquetas. |
|
Tag |
Proporciona valores de parámetro a una función de puntuación de etiquetas. |
|
Text |
Define ponderaciones en los campos de índice para las que las coincidencias deben aumentar la puntuación en las consultas de búsqueda. |
|
Token |
Representa clases de caracteres en las que puede operar un filtro de token. |
|
Token |
Define los nombres de todos los filtros de token admitidos por el motor de búsqueda. |
|
Truncate |
Trunca los términos a una longitud específica. Este filtro de token se implementa mediante Apache Lucene. |
|
Uax |
Tokeniza las URL y los correos electrónicos como un token. Este tokenizador se implementa mediante Apache Lucene. |
|
Unique |
Filtra los tokens con el mismo texto que el token anterior. Este filtro de token se implementa mediante Apache Lucene. |
|
Vector |
El formato de codificación para interpretar el contenido de los campos vectoriales. |
|
Vector |
Contiene opciones de configuración relacionadas con la búsqueda vectorial. |
|
Vector |
El algoritmo utilizado para la indexación y la consulta. |
|
Vector |
La métrica de similitud que se utilizará para las comparaciones vectoriales. Se recomienda elegir la misma métrica de similitud con la que se entrenó el modelo de incrustación. |
|
Vector |
El método de compresión utilizado para la indexación y la consulta. |
|
Vector |
Método de almacenamiento de los vectores de precisión total originales utilizados para las operaciones de repuntuación e índice interno. |
|
Vector |
Tipo de datos cuantificados de valores vectoriales comprimidos. |
|
Vector |
Define una combinación de configuraciones para usar con la búsqueda vectorial. |
|
Vector |
El método de vectorización que se utilizará durante el tiempo de consulta. |
|
Web |
Especifica las propiedades para conectarse a un vectorizador definido por el usuario. |
|
Web |
Especifica un vectorizador definido por el usuario para generar la incrustación vectorial de una cadena de consulta. La integración de un vectorizador externo se logra mediante la interfaz de API web personalizada de un conjunto de aptitudes. |
|
Word |
Divide las palabras en subpalabras y realiza transformaciones opcionales en grupos de subpalabras. Este filtro de token se implementa mediante Apache Lucene. |
AsciiFoldingTokenFilter
Convierte los caracteres Unicode alfabéticos, numéricos y simbólicos que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Latín básico") en sus equivalentes ASCII, si existen dichos equivalentes. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| preserveOriginal |
boolean |
False |
Valor que indica si se conservará el token original. El valor predeterminado es False. |
AzureActiveDirectoryApplicationCredentials
Credenciales de una aplicación registrada creada para el servicio de búsqueda, usadas para el acceso autenticado a las claves de cifrado almacenadas en Azure Key Vault.
| Nombre | Tipo | Description |
|---|---|---|
| applicationId |
string |
Un identificador de aplicación de AAD al que se concedieron los permisos de acceso necesarios a Azure Key Vault que se usará al cifrar los datos en reposo. El identificador de aplicación no debe confundirse con el identificador de objeto de la aplicación de AAD. |
| applicationSecret |
string |
Clave de autenticación de la aplicación de AAD especificada. |
AzureOpenAIEmbeddingSkill
Permite generar una inserción vectorial para una entrada de texto determinada mediante el recurso de Azure OpenAI.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de aptitud. |
| apiKey |
string |
Clave de API del recurso de Azure OpenAI designado. |
| authIdentity | SearchIndexerDataIdentity: |
La identidad administrada asignada por el usuario que se usa para las conexiones salientes. |
| context |
string |
Representa el nivel en el que tienen lugar las operaciones, como la raíz del documento o el contenido del documento (por ejemplo, /document o /document/content). El valor predeterminado es /document. |
| deploymentId |
string |
Identificador de la implementación del modelo de Azure OpenAI en el recurso designado. |
| description |
string |
La descripción de la aptitud que describe las entradas, salidas y uso de la aptitud. |
| dimensions |
integer (int32) |
Número de dimensiones que deben tener las incrustaciones de salida resultantes. Solo se admite en text-embedding-3 y modelos posteriores. |
| inputs |
Las entradas de las aptitudes pueden ser una columna en el conjunto de datos de origen o la salida de una aptitud ascendente. |
|
| modelName |
Nombre del modelo de incrustación que se implementa en la ruta deploymentId proporcionada. |
|
| name |
string |
El nombre de la aptitud que la identifica de forma única dentro del conjunto de aptitudes. A una habilidad sin nombre definido se le asignará un nombre predeterminado de su índice basado en 1 en la matriz de habilidades, con el prefijo del carácter '#'. |
| outputs |
La salida de una aptitud es un campo de un índice de búsqueda o un valor que otra aptitud puede consumir como entrada. |
|
| resourceUri |
string (uri) |
URI del recurso de Azure OpenAI. |
AzureOpenAIModelName
Nombre del modelo de Azure Open AI al que se llamará.
| Valor | Description |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
Especifica los parámetros para conectarse al recurso de Azure OpenAI.
| Nombre | Tipo | Description |
|---|---|---|
| apiKey |
string |
Clave de API del recurso de Azure OpenAI designado. |
| authIdentity | SearchIndexerDataIdentity: |
La identidad administrada asignada por el usuario que se usa para las conexiones salientes. |
| deploymentId |
string |
Identificador de la implementación del modelo de Azure OpenAI en el recurso designado. |
| modelName |
Nombre del modelo de incrustación que se implementa en la ruta deploymentId proporcionada. |
|
| resourceUri |
string (uri) |
URI del recurso de Azure OpenAI. |
AzureOpenAIVectorizer
Especifica el recurso de Azure OpenAI que se usa para vectorizar una cadena de consulta.
| Nombre | Tipo | Description |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
Contiene los parámetros específicos de la vectorización de inserción de Azure OpenAI. |
| kind |
string:
azure |
El nombre del tipo de método de vectorización que se configura para su uso con la búsqueda vectorial. |
| name |
string |
El nombre que se va a asociar con este método de vectorización en particular. |
BinaryQuantizationVectorSearchCompressionConfiguration
Contiene opciones de configuración específicas del método de compresión de cuantificación binaria utilizado durante la indexación y la consulta.
| Nombre | Tipo | Description |
|---|---|---|
| kind |
string:
binary |
El nombre del tipo de método de compresión que se configura para su uso con la búsqueda vectorial. |
| name |
string |
El nombre que se va a asociar a esta configuración en particular. |
| rescoringOptions |
Contiene las opciones para volver a puntuar. |
|
| truncationDimension |
integer (int32) |
El número de dimensiones a las que se van a truncar los vectores. El truncamiento de los vectores reduce el tamaño de los vectores y la cantidad de datos que deben transferirse durante la búsqueda. Esto puede ahorrar costos de almacenamiento y mejorar el rendimiento de la búsqueda a expensas de la recuperación. Solo debe usarse para incrustaciones entrenadas con Matryoshka Representation Learning (MRL), como OpenAI text-embedding-3-large (small). El valor predeterminado es null, lo que significa que no hay truncamiento. |
BM25Similarity
Función de clasificación basada en el algoritmo de similitud Okapi BM25. BM25 es un algoritmo similar a TF-IDF que incluye normalización de longitud (controlada por el parámetro 'b'), así como saturación de frecuencia de términos (controlada por el parámetro 'k1').
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
Esta propiedad controla cómo la longitud de un documento afecta a la puntuación de relevancia. De forma predeterminada, se utiliza un valor de 0,75. Un valor de 0,0 significa que no se aplica ninguna normalización de longitud, mientras que un valor de 1,0 significa que la puntuación está completamente normalizada por la longitud del documento. |
| k1 |
number (double) |
Esta propiedad controla la función de escalado entre la frecuencia de términos de cada término coincidente y la puntuación de relevancia final de un par documento-consulta. De forma predeterminada, se utiliza un valor de 1,2. Un valor de 0,0 significa que la puntuación no escala con un aumento en la frecuencia del término. |
CharFilterName
Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.
| Valor | Description |
|---|---|
| html_strip |
Un filtro de caracteres que intenta eliminar las construcciones HTML. Vea https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html. |
CjkBigramTokenFilter
Forma bigramas de términos CJK que se generan a partir del tokenizador estándar. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| ignoreScripts |
Los scripts que se deben ignorar. |
||
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| outputUnigrams |
boolean |
False |
Valor que indica si se deben generar unigramas y bigramas (si es verdadero) o solo bigramas (si es falso). El valor predeterminado es False. |
CjkBigramTokenFilterScripts
Scripts que CjkBigramTokenFilter puede omitir.
| Valor | Description |
|---|---|
| han |
Ignorar la escritura Han al formar bigramas de términos CJK. |
| hiragana |
Ignore el script Hiragana al formar bigramas de términos CJK. |
| katakana |
Ignorar la escritura Katakana al formar bigramas de términos CJK. |
| hangul |
Ignore el script hangul al formar bigramas de términos CJK. |
ClassicSimilarity
Algoritmo de similitud heredado que utiliza la implementación de TFIDFSimilarity de Lucene de TF-IDF. Esta variación de TF-IDF introduce una normalización de la longitud estática de los documentos, así como factores de coordinación que penalizan los documentos que solo coinciden parcialmente con las consultas buscadas.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos en idiomas europeos. Este tokenizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
La longitud máxima del token. El valor predeterminado es 255. Los tokens más largos que la longitud máxima se dividen. La longitud máxima del token que se puede utilizar es de 300 caracteres. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
CommonGramTokenFilter
Construya bigramas para términos frecuentes durante la indexación. Los términos individuales también están indexados, con bigramas superpuestos. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| commonWords |
string[] |
El conjunto de palabras comunes. |
|
| ignoreCase |
boolean |
False |
Valor que indica si las palabras comunes que coinciden no distinguen entre mayúsculas y minúsculas. El valor predeterminado es False. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| queryMode |
boolean |
False |
Valor que indica si el filtro de token está en modo de consulta. Cuando está en modo de consulta, el filtro de token genera bigramas y, a continuación, quita palabras comunes y términos únicos seguidos de una palabra común. El valor predeterminado es False. |
CorsOptions
Define opciones para controlar el uso compartido de recursos entre orígenes (CORS) para un índice.
| Nombre | Tipo | Description |
|---|---|---|
| allowedOrigins |
string[] |
La lista de orígenes desde los que se concederá acceso al código JavaScript al índice. Puede contener una lista de hosts con el formato {protocol}://{fully-qualified-domain-name}[:{port#}], o un solo '*' para permitir todos los orígenes (no recomendado). |
| maxAgeInSeconds |
integer (int64) |
La duración durante la cual los exploradores deben almacenar en caché las respuestas preparatorias de CORS. El valor predeterminado es 5 minutos. |
CustomAnalyzer
Le permite tomar el control sobre el proceso de conversión de texto en tokens indexables / buscables. Es una configuración definida por el usuario que consta de un único tokenizador predefinido y uno o varios filtros. El tokenizador es responsable de dividir el texto en tokens y los filtros para modificar los tokens emitidos por el tokenizador.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de analizador. |
| charFilters |
Una lista de filtros de caracteres que se usan para preparar el texto de entrada antes de que el tokenizador lo procese. Por ejemplo, pueden reemplazar ciertos caracteres o símbolos. Los filtros se ejecutan en el orden en que se enumeran. |
|
| name |
string |
El nombre del analizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
| tokenFilters |
Una lista de filtros de tokens que se usan para filtrar o modificar los tokens generados por un tokenizador. Por ejemplo, puede especificar un filtro en minúsculas que convierta todos los caracteres en minúsculas. Los filtros se ejecutan en el orden en que se enumeran. |
|
| tokenizer |
El nombre del tokenizador que se va a usar para dividir el texto continuo en una secuencia de tokens, como dividir una oración en palabras. |
CustomNormalizer
Permite configurar la normalización de los campos filtrables, ordenables y facetables, que de forma predeterminada funcionan con coincidencia estricta. Se trata de una configuración definida por el usuario que consta de al menos uno o más filtros, que modifican el token que se almacena.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de normalizador. |
| charFilters |
Una lista de filtros de caracteres utilizados para preparar el texto de entrada antes de procesarlo. Por ejemplo, pueden reemplazar ciertos caracteres o símbolos. Los filtros se ejecutan en el orden en que se enumeran. |
|
| name |
string |
El nombre del normalizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. No puede terminar en '.microsoft' ni '.lucene', ni llamarse 'asciifolding', 'standard', 'lowercase', 'uppercase' o 'elision'. |
| tokenFilters |
Una lista de filtros de token que se usan para filtrar o modificar el token de entrada. Por ejemplo, puede especificar un filtro en minúsculas que convierta todos los caracteres en minúsculas. Los filtros se ejecutan en el orden en que se enumeran. |
DictionaryDecompounderTokenFilter
Descompone palabras compuestas que se encuentran en muchas lenguas germánicas. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
El tamaño máximo de subpalabra. Solo se generan subpalabras más cortas que esta. El valor predeterminado es 15. El máximo es 300. |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
El tamaño mínimo de subpalabra. Solo se generan subpalabras más largas que esta. El valor predeterminado es 2. El máximo es 300. |
| minWordSize |
integer (int32) maximum: 300 |
5 |
El tamaño mínimo de la palabra. Solo se procesan palabras más largas que esta. El valor predeterminado es 5. El máximo es 300. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| onlyLongestMatch |
boolean |
False |
Valor que indica si se debe agregar solo la subpalabra coincidente más larga a la salida. El valor predeterminado es False. |
| wordList |
string[] |
La lista de palabras para emparejar. |
DistanceScoringFunction
Define una función que aumenta las puntuaciones en función de la distancia desde una ubicación geográfica.
| Nombre | Tipo | Description |
|---|---|---|
| boost |
number (double) |
Un multiplicador para la puntuación bruta. Debe ser un número positivo que no sea igual a 1.0. |
| distance |
Valores de parámetros para la función de puntuación de distancia. |
|
| fieldName |
string |
El nombre del campo utilizado como entrada para la función de puntuación. |
| interpolation |
Un valor que indica cómo se interpolará el aumento en las puntuaciones del documento; El valor predeterminado es "Lineal". |
|
| type |
string:
distance |
Indica el tipo de función que se va a utilizar. Los valores válidos incluyen magnitud, actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas. |
DistanceScoringParameters
Proporciona valores de parámetro a una función de puntuación de distancia.
| Nombre | Tipo | Description |
|---|---|---|
| boostingDistance |
number (double) |
La distancia en kilómetros desde la ubicación de referencia donde termina el rango de impulso. |
| referencePointParameter |
string |
El nombre del parámetro pasado en las consultas de búsqueda para especificar la ubicación de referencia. |
EdgeNGramTokenFilter
Genera n-gramas de los tamaños dados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| maxGram |
integer (int32) |
2 |
La longitud máxima de n-gramas. El valor predeterminado es 2. |
| minGram |
integer (int32) |
1 |
La longitud mínima de n-gramas. El valor predeterminado es 1. Debe ser menor que el valor de maxGram. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| side | front |
Especifica desde qué lado de la entrada se debe generar el n-grama. El valor predeterminado es "front". |
EdgeNGramTokenFilterSide
Especifica desde qué lado de la entrada se debe generar un n-grama.
| Valor | Description |
|---|---|
| front |
Especifica que el n-grama debe generarse desde el frente de la entrada. |
| back |
Especifica que el n-grama debe generarse desde la parte posterior de la entrada. |
EdgeNGramTokenFilterV2
Genera n-gramas de los tamaños dados a partir de la parte delantera o posterior de un token de entrada. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
La longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
La longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| side | front |
Especifica desde qué lado de la entrada se debe generar el n-grama. El valor predeterminado es "front". |
EdgeNGramTokenizer
Tokeniza la entrada de un borde en n-gramas de los tamaños dados. Este tokenizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
La longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
La longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| tokenChars |
Clases de personajes para mantener en los tokens. |
ElisionTokenFilter
Elimina elisiones. Por ejemplo, "l'avion" (el avión) se convertirá en "avion" (avión). Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
| articles |
string[] |
El conjunto de artículos que se van a eliminar. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
ErrorAdditionalInfo
Información adicional sobre el error de administración de recursos.
| Nombre | Tipo | Description |
|---|---|---|
| info |
object |
Información adicional. |
| type |
string |
Tipo de información adicional. |
ErrorDetail
Detalle del error.
| Nombre | Tipo | Description |
|---|---|---|
| additionalInfo |
Información adicional del error. |
|
| code |
string |
Código de error. |
| details |
Detalles del error. |
|
| message |
string |
El mensaje de error. |
| target |
string |
Destino del error. |
ErrorResponse
Respuesta de error
| Nombre | Tipo | Description |
|---|---|---|
| error |
Objeto de error. |
ExhaustiveKnnParameters
Contiene los parámetros específicos del algoritmo KNN exhaustivo.
| Nombre | Tipo | Description |
|---|---|---|
| metric |
La métrica de similitud que se utilizará para las comparaciones vectoriales. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Contiene opciones de configuración específicas del algoritmo KNN exhaustivo utilizado durante la consulta, que realizará una búsqueda de fuerza bruta en todo el índice vectorial.
| Nombre | Tipo | Description |
|---|---|---|
| exhaustiveKnnParameters |
Contiene los parámetros específicos del algoritmo KNN exhaustivo. |
|
| kind |
string:
exhaustive |
El nombre del tipo de algoritmo que se configura para su uso con la búsqueda vectorial. |
| name |
string |
El nombre que se va a asociar a esta configuración en particular. |
FreshnessScoringFunction
Define una función que aumenta las puntuaciones en función del valor de un campo de fecha y hora.
| Nombre | Tipo | Description |
|---|---|---|
| boost |
number (double) |
Un multiplicador para la puntuación bruta. Debe ser un número positivo que no sea igual a 1.0. |
| fieldName |
string |
El nombre del campo utilizado como entrada para la función de puntuación. |
| freshness |
Valores de parámetro para la función de puntuación de actualización. |
|
| interpolation |
Un valor que indica cómo se interpolará el aumento en las puntuaciones del documento; El valor predeterminado es "Lineal". |
|
| type |
string:
freshness |
Indica el tipo de función que se va a utilizar. Los valores válidos incluyen magnitud, actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas. |
FreshnessScoringParameters
Proporciona valores de parámetro a una función de puntuación de actualización.
| Nombre | Tipo | Description |
|---|---|---|
| boostingDuration |
string (duration) |
El período de vencimiento después del cual se detendrá el impulso para un documento en particular. |
HnswParameters
Contiene los parámetros específicos del algoritmo HNSW.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
El tamaño de la lista dinámica que contiene los vecinos más cercanos, que se utiliza durante el tiempo del índice. El aumento de este parámetro puede mejorar la calidad del índice, a expensas de un mayor tiempo de indexación. En cierto punto, aumentar este parámetro conduce a rendimientos decrecientes. |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
El tamaño de la lista dinámica que contiene los vecinos más cercanos, que se utiliza durante el tiempo de búsqueda. El aumento de este parámetro puede mejorar los resultados de la búsqueda, a expensas de una búsqueda más lenta. En cierto punto, aumentar este parámetro conduce a rendimientos decrecientes. |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
El número de enlaces bidireccionales creados para cada nuevo elemento durante la construcción. El aumento del valor de este parámetro puede mejorar la recuperación y reducir los tiempos de recuperación de conjuntos de datos con alta dimensionalidad intrínseca a expensas de un mayor consumo de memoria y un mayor tiempo de indexación. |
| metric |
La métrica de similitud que se utilizará para las comparaciones vectoriales. |
HnswVectorSearchAlgorithmConfiguration
Contiene opciones de configuración específicas del algoritmo de vecinos más cercanos aproximados de HNSW utilizado durante la indexación y la consulta. El algoritmo HNSW ofrece una compensación ajustable entre la velocidad de búsqueda y la precisión.
| Nombre | Tipo | Description |
|---|---|---|
| hnswParameters |
Contiene los parámetros específicos del algoritmo HNSW. |
|
| kind |
string:
hnsw |
El nombre del tipo de algoritmo que se configura para su uso con la búsqueda vectorial. |
| name |
string |
El nombre que se va a asociar a esta configuración en particular. |
InputFieldMappingEntry
Asignación de campos de entrada para una aptitud.
| Nombre | Tipo | Description |
|---|---|---|
| inputs |
Las entradas recursivas que se usan al crear un tipo complejo. |
|
| name |
string |
Nombre de la entrada. |
| source |
string |
El origen de la entrada. |
| sourceContext |
string |
El contexto de origen utilizado para seleccionar entradas recursivas. |
KeepTokenFilter
Un filtro de tokens que solo mantiene tokens con texto contenido en una lista especificada de palabras. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| keepWords |
string[] |
La lista de palabras a conservar. |
|
| keepWordsCase |
boolean |
False |
Valor que indica si se deben minúsculas todas las palabras primero. El valor predeterminado es False. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
KeywordMarkerTokenFilter
Marca los términos como palabras clave. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| ignoreCase |
boolean |
False |
Valor que indica si se deben omitir mayúsculas y minúsculas. Si es true, todas las palabras se convierten primero a minúsculas. El valor predeterminado es False. |
| keywords |
string[] |
Una lista de palabras para marcar como palabras clave. |
|
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
KeywordTokenizer
Emite toda la entrada como un solo token. Este tokenizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| bufferSize |
integer (int32) |
256 |
El tamaño del búfer de lectura en bytes. El valor predeterminado es 256. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
KeywordTokenizerV2
Emite toda la entrada como un solo token. Este tokenizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
La longitud máxima del token. El valor predeterminado es 256. Los tokens más largos que la longitud máxima se dividen. La longitud máxima del token que se puede utilizar es de 300 caracteres. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
LengthTokenFilter
Elimina palabras que son demasiado largas o demasiado cortas. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| max |
integer (int32) maximum: 300 |
300 |
La longitud máxima en caracteres. El valor predeterminado y máximo es 300. |
| min |
integer (int32) maximum: 300 |
0 |
La longitud mínima en caracteres. El valor predeterminado es 0. El máximo es 300. Debe ser menor que el valor de max. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
LexicalAnalyzerName
Define los nombres de todos los analizadores de texto compatibles con el motor de búsqueda.
| Valor | Description |
|---|---|
| ar.microsoft |
Analizador de Microsoft para árabe. |
| ar.lucene |
Analizador Lucene para árabe. |
| hy.lucene |
Analizador Lucene para armenio. |
| bn.microsoft |
Analizador de Microsoft para bengalí. |
| eu.lucene |
Analizador Lucene para euskera. |
| bg.microsoft |
Analizador de Microsoft para búlgaro. |
| bg.lucene |
Analizador Lucene para búlgaro. |
| ca.microsoft |
Microsoft analyzer for Catalan. |
| ca.lucene |
Analizador Lucene para catalán. |
| zh-Hans.microsoft |
Analizador de Microsoft para chino (simplificado). |
| zh-Hans.lucene |
Analizador Lucene para chino (simplificado). |
| zh-Hant.microsoft |
Analizador de Microsoft para chino (tradicional). |
| zh-Hant.lucene |
Analizador Lucene para chino (tradicional). |
| hr.microsoft |
Analizador de Microsoft para croata. |
| cs.microsoft |
Analizador de Microsoft para checo. |
| cs.lucene |
Analizador Lucene para checo. |
| da.microsoft |
Microsoft analyzer for Danish. |
| da.lucene |
Analizador Lucene para danés. |
| nl.microsoft |
Analizador de Microsoft para holandés. |
| nl.lucene |
Analizador Lucene para holandés. |
| en.microsoft |
Analizador de Microsoft para inglés. |
| en.lucene |
Analizador Lucene para inglés. |
| et.microsoft |
Microsoft analyzer for Estonian. |
| fi.microsoft |
Microsoft analyzer para finlandés. |
| fi.lucene |
Analizador Lucene para finlandés. |
| fr.microsoft |
Analizador de Microsoft para francés. |
| fr.lucene |
Analizador Lucene para francés. |
| gl.lucene |
Analizador Lucene para gallego. |
| de.microsoft |
Analizador de Microsoft para alemán. |
| de.lucene |
Analizador Lucene para alemán. |
| el.microsoft |
Analizador de Microsoft para griego. |
| el.lucene |
Analizador Lucene para griego. |
| gu.microsoft |
Analizador de Microsoft para gujarati. |
| he.microsoft |
Analizador de Microsoft para hebreo. |
| hi.microsoft |
Analizador de Microsoft para hindi. |
| hi.lucene |
Analizador Lucene para hindi. |
| hu.microsoft |
Analizador de Microsoft para húngaro. |
| hu.lucene |
Analizador Lucene para húngaro. |
| is.microsoft |
Analizador de Microsoft para islandés. |
| id.microsoft |
Analizador de Microsoft para indonesio (bahasa). |
| id.lucene |
Analizador Lucene para indonesio. |
| ga.lucene |
Analizador Lucene para irlandés. |
| it.microsoft |
Analizador de Microsoft para italiano. |
| it.lucene |
Analizador Lucene para italiano. |
| ja.microsoft |
Analizador de Microsoft para japonés. |
| ja.lucene |
Analizador Lucene para japonés. |
| kn.microsoft |
Analizador de Microsoft para kannada. |
| ko.microsoft |
Analizador de Microsoft para coreano. |
| ko.lucene |
Analizador Lucene para coreano. |
| lv.microsoft |
Analizador de Microsoft para letón. |
| lv.lucene |
Analizador Lucene para letón. |
| lt.microsoft |
Analizador de Microsoft para lituano. |
| ml.microsoft |
Analizador de Microsoft para malayalam. |
| ms.microsoft |
Analizador de Microsoft para malayo (latín). |
| mr.microsoft |
Analizador de Microsoft para marathi. |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål). |
| no.lucene |
Analizador Lucene para noruego. |
| fa.lucene |
Analizador Lucene para persa. |
| pl.microsoft |
Analizador de Microsoft para polaco. |
| pl.lucene |
Analizador Lucene para polaco. |
| pt-BR.microsoft |
Analizador de Microsoft para portugués (Brasil). |
| pt-BR.lucene |
Analizador Lucene para portugués (Brasil). |
| pt-PT.microsoft |
Analizador de Microsoft para portugués (Portugal). |
| pt-PT.lucene |
Analizador Lucene para portugués (Portugal). |
| pa.microsoft |
Analizador de Microsoft para punjabi. |
| ro.microsoft |
Analizador de Microsoft para rumano. |
| ro.lucene |
Analizador Lucene para rumano. |
| ru.microsoft |
Analizador de Microsoft para ruso. |
| ru.lucene |
Analizador Lucene para ruso. |
| sr-cyrillic.microsoft |
Analizador de Microsoft para serbio (cirílico). |
| sr-latin.microsoft |
Analizador de Microsoft para serbio (latín). |
| sk.microsoft |
Microsoft analyzer for Slovak. |
| sl.microsoft |
Microsoft analyzer for Slovenian. |
| es.microsoft |
Analizador de Microsoft para español. |
| es.lucene |
Analizador Lucene para español. |
| sv.microsoft |
Microsoft analyzer para sueco. |
| sv.lucene |
Analizador Lucene para sueco. |
| ta.microsoft |
Analizador de Microsoft para tamil. |
| te.microsoft |
Analizador de Microsoft para telugu. |
| th.microsoft |
Analizador de Microsoft para tailandés. |
| th.lucene |
Analizador Lucene para tailandés. |
| tr.microsoft |
Analizador de Microsoft para turco. |
| tr.lucene |
Analizador Lucene para turco. |
| uk.microsoft |
Analizador de Microsoft para ucraniano. |
| ur.microsoft |
Microsoft analyzer for Urdu. |
| vi.microsoft |
Analizador de Microsoft para vietnamita. |
| standard.lucene |
Analizador Lucene estándar. |
| standardasciifolding.lucene |
Analizador Lucene plegable ASCII estándar. Vea https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers. |
| keyword |
Trata todo el contenido de un campo como un único token. Esto es útil para datos como códigos postales, identificadores y algunos nombres de productos. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html. |
| pattern |
Separa el texto de forma flexible en términos a través de un patrón de expresión regular. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html. |
| simple |
Divide el texto en letras distintas y las convierte en minúsculas. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html. |
| stop |
Divide el texto en no letras; Aplica los filtros de token de minúsculas y palabras irrelevantes. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html. |
| whitespace |
Un analizador que usa el tokenizador de espacios en blanco. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html. |
LexicalNormalizerName
Define los nombres de todos los normalizadores de texto admitidos por el motor de búsqueda.
| Valor | Description |
|---|---|
| asciifolding |
Convierte los caracteres Unicode alfabéticos, numéricos y simbólicos que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Latín básico") en sus equivalentes ASCII, si existen dichos equivalentes. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html. |
| elision |
Elimina elisiones. Por ejemplo, "l'avion" (el avión) se convertirá en "avion" (avión). Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html. |
| lowercase |
Normaliza el texto del token a minúsculas. Vea https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html. |
| standard |
Normalizador estándar, que consta de minúsculas y asciifolding. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html. |
| uppercase |
Normaliza el texto del token en mayúsculas. Vea https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html. |
LexicalTokenizerName
Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.
LimitTokenFilter
Limita el número de tokens durante la indexación. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| consumeAllTokens |
boolean |
False |
Valor que indica si se deben consumir todos los tokens de la entrada incluso si se alcanza maxTokenCount. El valor predeterminado es False. |
| maxTokenCount |
integer (int32) |
1 |
El número máximo de tokens que se van a producir. El valor predeterminado es 1. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
LuceneStandardAnalyzer
Analizador estándar de Apache Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro de parada.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de analizador. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
La longitud máxima del token. El valor predeterminado es 255. Los tokens más largos que la longitud máxima se dividen. La longitud máxima del token que se puede utilizar es de 300 caracteres. |
| name |
string |
El nombre del analizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| stopwords |
string[] |
Una lista de palabras vacías. |
LuceneStandardTokenizer
Rompe el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| maxTokenLength |
integer (int32) |
255 |
La longitud máxima del token. El valor predeterminado es 255. Los tokens más largos que la longitud máxima se dividen. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
LuceneStandardTokenizerV2
Rompe el texto siguiendo las reglas de segmentación de texto Unicode. Este tokenizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
La longitud máxima del token. El valor predeterminado es 255. Los tokens más largos que la longitud máxima se dividen. La longitud máxima del token que se puede utilizar es de 300 caracteres. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
MagnitudeScoringFunction
Define una función que aumenta las puntuaciones en función de la magnitud de un campo numérico.
| Nombre | Tipo | Description |
|---|---|---|
| boost |
number (double) |
Un multiplicador para la puntuación bruta. Debe ser un número positivo que no sea igual a 1.0. |
| fieldName |
string |
El nombre del campo utilizado como entrada para la función de puntuación. |
| interpolation |
Un valor que indica cómo se interpolará el aumento en las puntuaciones del documento; El valor predeterminado es "Lineal". |
|
| magnitude |
Valores de parámetros para la función de puntuación de magnitud. |
|
| type |
string:
magnitude |
Indica el tipo de función que se va a utilizar. Los valores válidos incluyen magnitud, actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas. |
MagnitudeScoringParameters
Proporciona valores de parámetro a una función de puntuación de magnitud.
| Nombre | Tipo | Description |
|---|---|---|
| boostingRangeEnd |
number (double) |
El valor de campo en el que finaliza el impulso. |
| boostingRangeStart |
number (double) |
El valor de campo en el que comienza el impulso. |
| constantBoostBeyondRange |
boolean |
Un valor que indica si se debe aplicar un aumento constante para los valores de campo más allá del valor final del rango; default es false. |
MappingCharFilter
Un filtro de caracteres que aplica asignaciones definidas con la opción mappings. La coincidencia es codiciosa (gana la coincidencia de patrones más larga en un punto dado). Se permite que el reemplazo sea la cadena vacía. Este filtro de caracteres se implementa mediante Apache Lucene.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro char. |
| mappings |
string[] |
Una lista de asignaciones del siguiente formato: "a=>b" (todas las apariciones del carácter "a" se reemplazarán por el carácter "b"). |
| name |
string |
El nombre del filtro char. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
MicrosoftLanguageStemmingTokenizer
Divide el texto utilizando reglas específicas del idioma y reduce las palabras a sus formas base.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| isSearchTokenizer |
boolean |
False |
Valor que indica cómo se usa el tokenizador. Establézcalo en true si se usa como tokenizador de búsqueda, establézcalo en false si se usa como tokenizador de indexación. El valor predeterminado es False. |
| language |
El lenguaje a utilizar. El valor predeterminado es el inglés. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
La longitud máxima del token. Los tokens más largos que la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres. Los tokens de más de 300 caracteres se dividen primero en tokens de longitud 300 y, a continuación, cada uno de esos tokens se divide en función de la longitud máxima del token establecida. El valor predeterminado es 255. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
MicrosoftLanguageTokenizer
Divide el texto utilizando reglas específicas del idioma.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| isSearchTokenizer |
boolean |
False |
Valor que indica cómo se usa el tokenizador. Establézcalo en true si se usa como tokenizador de búsqueda, establézcalo en false si se usa como tokenizador de indexación. El valor predeterminado es False. |
| language |
El lenguaje a utilizar. El valor predeterminado es el inglés. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
La longitud máxima del token. Los tokens más largos que la longitud máxima se dividen. La longitud máxima del token que se puede usar es de 300 caracteres. Los tokens de más de 300 caracteres se dividen primero en tokens de longitud 300 y, a continuación, cada uno de esos tokens se divide en función de la longitud máxima del token establecida. El valor predeterminado es 255. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
MicrosoftStemmingTokenizerLanguage
Enumera los idiomas admitidos por el tokenizador de lematización de lenguaje de Microsoft.
| Valor | Description |
|---|---|
| arabic |
Selecciona el tokenizador de lematización de Microsoft para árabe. |
| bangla |
Selecciona el tokenizador de lematización de Microsoft para bengalí. |
| bulgarian |
Selecciona el tokenizador de lematización de Microsoft para búlgaro. |
| catalan |
Selecciona el tokenizador de lematización de Microsoft para catalán. |
| croatian |
Selecciona el tokenizador de lematización de Microsoft para croata. |
| czech |
Selecciona el tokenizador de lematización de Microsoft para checo. |
| danish |
Selecciona el tokenizador de lematización de Microsoft para danés. |
| dutch |
Selecciona el tokenizador de lematización de Microsoft para holandés. |
| english |
Selecciona el tokenizador de lematización de Microsoft para inglés. |
| estonian |
Selecciona el tokenizador de lematización de Microsoft para estonio. |
| finnish |
Selecciona el tokenizador de lematización de Microsoft para finlandés. |
| french |
Selecciona el tokenizador de lematización de Microsoft para francés. |
| german |
Selecciona el tokenizador de lematización de Microsoft para alemán. |
| greek |
Selecciona el tokenizador de lematización de Microsoft para griego. |
| gujarati |
Selecciona el tokenizador de lematización de Microsoft para Gujarati. |
| hebrew |
Selecciona el tokenizador de lematización de Microsoft para hebreo. |
| hindi |
Selecciona el tokenizador de lematización de Microsoft para hindi. |
| hungarian |
Selecciona el tokenizador de lematización de Microsoft para húngaro. |
| icelandic |
Selecciona el tokenizador de lematización de Microsoft para islandés. |
| indonesian |
Selecciona el tokenizador de lematización de Microsoft para indonesio. |
| italian |
Selecciona el tokenizador de lematización de Microsoft para italiano. |
| kannada |
Selecciona el tokenizador de lematización de Microsoft para Kannada. |
| latvian |
Selecciona el tokenizador de lematización de Microsoft para letón. |
| lithuanian |
Selecciona el tokenizador de lematización de Microsoft para lituano. |
| malay |
Selecciona el tokenizador de lematización de Microsoft para malayo. |
| malayalam |
Selecciona el tokenizador de lematización de Microsoft para malayalam. |
| marathi |
Selecciona el tokenizador de lematización de Microsoft para marathi. |
| norwegianBokmaal |
Selecciona el tokenizador de lematización de Microsoft para noruego (Bokmål). |
| polish |
Selecciona el tokenizador de lematización de Microsoft para polaco. |
| portuguese |
Selecciona el tokenizador de lematización de Microsoft para portugués. |
| portugueseBrazilian |
Selecciona el tokenizador de lematización de Microsoft para portugués (Brasil). |
| punjabi |
Selecciona el tokenizador de lematización de Microsoft para Punjabi. |
| romanian |
Selecciona el tokenizador de lematización de Microsoft para rumano. |
| russian |
Selecciona el tokenizador de lematización de Microsoft para ruso. |
| serbianCyrillic |
Selecciona el tokenizador de derivación de Microsoft para serbio (cirílico). |
| serbianLatin |
Selecciona el tokenizador de lematización de Microsoft para serbio (latín). |
| slovak |
Selecciona el tokenizador de lematización de Microsoft para eslovaco. |
| slovenian |
Selecciona el tokenizador de lematización de Microsoft para esloveno. |
| spanish |
Selecciona el tokenizador de lematización de Microsoft para español. |
| swedish |
Selecciona el tokenizador de lematización de Microsoft para sueco. |
| tamil |
Selecciona el tokenizador de lematización de Microsoft para tamil. |
| telugu |
Selecciona el tokenizador de lematización de Microsoft para telugu. |
| turkish |
Selecciona el tokenizador de lematización de Microsoft para turco. |
| ukrainian |
Selecciona el tokenizador de lematización de Microsoft para ucraniano. |
| urdu |
Selecciona el tokenizador de lematización de Microsoft para urdu. |
MicrosoftTokenizerLanguage
Enumera los idiomas admitidos por el tokenizador de idioma de Microsoft.
| Valor | Description |
|---|---|
| bangla |
Selecciona el tokenizador de Microsoft para bengalí. |
| bulgarian |
Selecciona el tokenizador de Microsoft para búlgaro. |
| catalan |
Selecciona el tokenizador de Microsoft para catalán. |
| chineseSimplified |
Selecciona el tokenizador de Microsoft para chino (simplificado). |
| chineseTraditional |
Selecciona el tokenizador de Microsoft para chino (tradicional). |
| croatian |
Selecciona el tokenizador de Microsoft para croata. |
| czech |
Selecciona el tokenizador de Microsoft para checo. |
| danish |
Selecciona el tokenizador de Microsoft para danés. |
| dutch |
Selecciona el tokenizador de Microsoft para holandés. |
| english |
Selecciona el tokenizador de Microsoft para inglés. |
| french |
Selecciona el tokenizador de Microsoft para francés. |
| german |
Selecciona el tokenizador de Microsoft para alemán. |
| greek |
Selecciona el tokenizador de Microsoft para griego. |
| gujarati |
Selecciona el tokenizador de Microsoft para Gujarati. |
| hindi |
Selecciona el tokenizador de Microsoft para hindi. |
| icelandic |
Selecciona el tokenizador de Microsoft para islandés. |
| indonesian |
Selecciona el tokenizador de Microsoft para indonesio. |
| italian |
Selecciona el tokenizador de Microsoft para italiano. |
| japanese |
Selecciona el tokenizador de Microsoft para japonés. |
| kannada |
Selecciona el tokenizador de Microsoft para Kannada. |
| korean |
Selecciona el tokenizador de Microsoft para coreano. |
| malay |
Selecciona el tokenizador de Microsoft para malayo. |
| malayalam |
Selecciona el tokenizador de Microsoft para malayalam. |
| marathi |
Selecciona el tokenizador de Microsoft para marathi. |
| norwegianBokmaal |
Selecciona el tokenizador de Microsoft para noruego (Bokmål). |
| polish |
Selecciona el tokenizador de Microsoft para polaco. |
| portuguese |
Selecciona el tokenizador de Microsoft para portugués. |
| portugueseBrazilian |
Selecciona el tokenizador de Microsoft para portugués (Brasil). |
| punjabi |
Selecciona el tokenizador de Microsoft para Punjabi. |
| romanian |
Selecciona el tokenizador de Microsoft para rumano. |
| russian |
Selecciona el tokenizador de Microsoft para ruso. |
| serbianCyrillic |
Selecciona el tokenizador de Microsoft para serbio (cirílico). |
| serbianLatin |
Selecciona el tokenizador de Microsoft para serbio (latino). |
| slovenian |
Selecciona el tokenizador de Microsoft para el esloveno. |
| spanish |
Selecciona el tokenizador de Microsoft para español. |
| swedish |
Selecciona el tokenizador de Microsoft para sueco. |
| tamil |
Selecciona el tokenizador de Microsoft para tamil. |
| telugu |
Selecciona el tokenizador de Microsoft para telugu. |
| thai |
Selecciona el tokenizador de Microsoft para tailandés. |
| ukrainian |
Selecciona el tokenizador de Microsoft para ucraniano. |
| urdu |
Selecciona el tokenizador de Microsoft para urdu. |
| vietnamese |
Selecciona el tokenizador de Microsoft para vietnamita. |
NGramTokenFilter
Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| maxGram |
integer (int32) |
2 |
La longitud máxima de n-gramas. El valor predeterminado es 2. |
| minGram |
integer (int32) |
1 |
La longitud mínima de n-gramas. El valor predeterminado es 1. Debe ser menor que el valor de maxGram. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
NGramTokenFilterV2
Genera n-gramas de los tamaños dados. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
La longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
La longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
NGramTokenizer
Tokeniza la entrada en n-gramas de los tamaños dados. Este tokenizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
La longitud máxima de n-gramas. El valor predeterminado es 2. El máximo es 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
La longitud mínima de n-gramas. El valor predeterminado es 1. El máximo es 300. Debe ser menor que el valor de maxGram. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| tokenChars |
Clases de personajes para mantener en los tokens. |
OutputFieldMappingEntry
Asignación de campos de salida para una aptitud.
| Nombre | Tipo | Description |
|---|---|---|
| name |
string |
El nombre de la salida definida por la aptitud. |
| targetName |
string |
El nombre de destino de la salida. Es opcional y por defecto nombrar. |
PathHierarchyTokenizerV2
Tokenizador para jerarquías similares a rutas. Este tokenizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| delimiter |
string (char) |
/ |
Carácter delimitador que se va a utilizar. El valor predeterminado es "/". |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
La longitud máxima del token. El valor predeterminado y máximo es 300. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| replacement |
string (char) |
/ |
Valor que, si se establece, reemplaza el carácter delimitador. El valor predeterminado es "/". |
| reverse |
boolean |
False |
Valor que indica si se deben generar tokens en orden inverso. El valor predeterminado es False. |
| skip |
integer (int32) |
0 |
El número de tokens iniciales que se van a omitir. El valor predeterminado es 0. |
PatternAnalyzer
Separa el texto de forma flexible en términos a través de un patrón de expresión regular. Este analizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de analizador. |
|
| flags |
Marcas de expresiones regulares. |
||
| lowercase |
boolean |
True |
Valor que indica si los términos deben estar en minúsculas. El valor predeterminado es true. |
| name |
string |
El nombre del analizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| pattern |
string |
\W+ |
Un patrón de expresión regular para que coincida con los separadores de tokens. El valor predeterminado es una expresión que coincide con uno o más caracteres que no son palabras. |
| stopwords |
string[] |
Una lista de palabras vacías. |
PatternCaptureTokenFilter
Utiliza expresiones regulares de Java para emitir varios tokens, uno para cada grupo de captura en uno o más patrones. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| patterns |
string[] |
Una lista de patrones para hacer coincidir con cada token. |
|
| preserveOriginal |
boolean |
True |
Valor que indica si se debe devolver el token original incluso si uno de los patrones coincide. El valor predeterminado es true. |
PatternReplaceCharFilter
Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Utiliza una expresión regular para identificar las secuencias de caracteres que se van a conservar y un patrón de reemplazo para identificar los caracteres que se van a reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb". Este filtro de caracteres se implementa mediante Apache Lucene.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro char. |
| name |
string |
El nombre del filtro char. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
| pattern |
string |
Un patrón de expresión regular. |
| replacement |
string |
El texto de reemplazo. |
PatternReplaceTokenFilter
Filtro de caracteres que reemplaza los caracteres de la cadena de entrada. Utiliza una expresión regular para identificar las secuencias de caracteres que se van a conservar y un patrón de reemplazo para identificar los caracteres que se van a reemplazar. Por ejemplo, dado el texto de entrada "aa bb aa bb", el patrón "(aa)\s+(bb)" y el reemplazo "$1#$2", el resultado sería "aa#bb aa#bb". Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
| pattern |
string |
Un patrón de expresión regular. |
| replacement |
string |
El texto de reemplazo. |
PatternTokenizer
Tokenizador que utiliza la coincidencia de patrones de expresiones regulares para construir tokens distintos. Este tokenizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| flags |
Marcas de expresiones regulares. |
||
| group |
integer (int32) |
-1 |
Ordinal de base cero del grupo coincidente en el patrón de expresión regular que se va a extraer en tokens. Use -1 si desea usar todo el patrón para dividir la entrada en tokens, independientemente de los grupos coincidentes. El valor predeterminado es -1. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| pattern |
string |
\W+ |
Un patrón de expresión regular para que coincida con los separadores de tokens. El valor predeterminado es una expresión que coincide con uno o más caracteres que no son palabras. |
PhoneticEncoder
Identifica el tipo de codificador fonético que se va a usar con PhoneticTokenFilter.
| Valor | Description |
|---|---|
| metaphone |
Codifica un token en un valor de Metaphone. |
| doubleMetaphone |
Codifica un token en un valor de metáfono doble. |
| soundex |
Codifica un token en un valor de Soundex. |
| refinedSoundex |
Codifica un token en un valor de Refined Soundex. |
| caverphone1 |
Codifica un token en un valor de Caverphone 1.0. |
| caverphone2 |
Codifica un token en un valor de Caverphone 2.0. |
| cologne |
Codifica un token en un valor fonético de Colonia. |
| nysiis |
Codifica un token en un valor NYSIIS. |
| koelnerPhonetik |
Codifica un token mediante el algoritmo Kölner Phonetik. |
| haasePhonetik |
Codifica un token utilizando el refinamiento de Haase del algoritmo Kölner Phonetik. |
| beiderMorse |
Codifica un token en un valor Beider-Morse. |
PhoneticTokenFilter
Cree tokens para coincidencias fonéticas. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| encoder | metaphone |
El codificador fonético que se va a utilizar. El valor predeterminado es "metaphone". |
|
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| replace |
boolean |
True |
Valor que indica si los tokens codificados deben reemplazar a los tokens originales. Si es false, los tokens codificados se agregan como sinónimos. El valor predeterminado es true. |
PrioritizedFields
Describe los campos de título, contenido y palabras clave que se utilizarán para la clasificación semántica, los subtítulos, los resaltados y las respuestas.
| Nombre | Tipo | Description |
|---|---|---|
| prioritizedContentFields |
Define los campos de contenido que se utilizarán para la clasificación semántica, los subtítulos, los resaltados y las respuestas. Para obtener el mejor resultado, los campos seleccionados deben contener texto en forma de lenguaje natural. El orden de los campos de la matriz representa su prioridad. Los campos con menor prioridad pueden truncarse si el contenido es largo. |
|
| prioritizedKeywordsFields |
Define los campos de palabras clave que se utilizarán para la clasificación semántica, los subtítulos, los resaltados y las respuestas. Para obtener el mejor resultado, los campos seleccionados deben contener una lista de palabras clave. El orden de los campos de la matriz representa su prioridad. Los campos con menor prioridad pueden truncarse si el contenido es largo. |
|
| titleField |
Define el campo de título que se utilizará para la clasificación semántica, los subtítulos, los resaltados y las respuestas. Si no tiene un campo de título en el índice, déjelo en blanco. |
RankingOrder
Representa la puntuación que se usará para el criterio de ordenación de los documentos.
| Valor | Description |
|---|---|
| BoostedRerankerScore |
Establece el criterio de ordenación como BoostedRerankerScore |
| RerankerScore |
Establece el orden de clasificación como ReRankerScore |
RegexFlags
Define marcas que se pueden combinar para controlar cómo se usan las expresiones regulares en el analizador de patrones y el tokenizador de patrones.
| Valor | Description |
|---|---|
| CANON_EQ |
Habilita la equivalencia canónica. |
| CASE_INSENSITIVE |
Permite la coincidencia sin distinción entre mayúsculas y minúsculas. |
| COMMENTS |
Permite espacios en blanco y comentarios en el patrón. |
| DOTALL |
Habilita el modo dotall. |
| LITERAL |
Habilita el análisis literal del patrón. |
| MULTILINE |
Habilita el modo multilínea. |
| UNICODE_CASE |
Permite el plegado de mayúsculas y minúsculas compatibles con Unicode. |
| UNIX_LINES |
Habilita el modo de líneas Unix. |
RescoringOptions
Contiene las opciones para volver a puntuar.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| defaultOversampling |
number (double) |
Factor de sobremuestreo predeterminado. El sobremuestreo recupera un mayor conjunto de documentos potenciales para compensar la pérdida de resolución debido a la cuantificación. Esto aumenta el conjunto de resultados que se volverán a calificar en vectores de precisión completa. El valor mínimo es 1, lo que significa que no hay sobremuestreo (1x). Este parámetro solo se puede establecer cuando 'enableRescoring' es true. Los valores más altos mejoran la recuperación a expensas de la latencia. |
|
| enableRescoring |
boolean |
True |
Si se establece en true, después de la búsqueda inicial en los vectores comprimidos, las puntuaciones de similitud se vuelven a calcular utilizando los vectores de precisión total. Esto mejorará la recuperación a expensas de la latencia. |
| rescoreStorageMethod | preserveOriginals |
Controla el método de almacenamiento de los vectores originales. Esta configuración es inmutable. |
ScalarQuantizationParameters
Contiene los parámetros específicos de la cuantificación escalar.
| Nombre | Tipo | Description |
|---|---|---|
| quantizedDataType |
Tipo de datos cuantificados de valores vectoriales comprimidos. |
ScalarQuantizationVectorSearchCompressionConfiguration
Contiene opciones de configuración específicas del método de compresión de cuantificación escalar utilizado durante la indexación y la consulta.
| Nombre | Tipo | Description |
|---|---|---|
| kind |
string:
scalar |
El nombre del tipo de método de compresión que se configura para su uso con la búsqueda vectorial. |
| name |
string |
El nombre que se va a asociar a esta configuración en particular. |
| rescoringOptions |
Contiene las opciones para volver a puntuar. |
|
| scalarQuantizationParameters |
Contiene los parámetros específicos de la cuantificación escalar. |
|
| truncationDimension |
integer (int32) |
El número de dimensiones a las que se van a truncar los vectores. El truncamiento de los vectores reduce el tamaño de los vectores y la cantidad de datos que deben transferirse durante la búsqueda. Esto puede ahorrar costos de almacenamiento y mejorar el rendimiento de la búsqueda a expensas de la recuperación. Solo debe usarse para incrustaciones entrenadas con Matryoshka Representation Learning (MRL), como OpenAI text-embedding-3-large (small). El valor predeterminado es null, lo que significa que no hay truncamiento. |
ScoringFunctionAggregation
Define la función de agregación utilizada para combinar los resultados de todas las funciones de puntuación de un perfil de puntuación.
| Valor | Description |
|---|---|
| sum |
Aumente las puntuaciones mediante la suma de todos los resultados de la función de puntuación. |
| average |
Aumente las puntuaciones por el promedio de todos los resultados de la función de puntuación. |
| minimum |
Aumente las puntuaciones al mínimo de todos los resultados de la función de puntuación. |
| maximum |
Aumente las puntuaciones al máximo de todos los resultados de la función de puntuación. |
| firstMatching |
Aumente las puntuaciones utilizando la primera función de puntuación aplicable en el perfil de puntuación. |
ScoringFunctionInterpolation
Define la función utilizada para interpolar el aumento de puntuación en un rango de documentos.
| Valor | Description |
|---|---|
| linear |
Aumenta las puntuaciones en una cantidad linealmente decreciente. Esta es la interpolación predeterminada para las funciones de puntuación. |
| constant |
Aumenta las puntuaciones en un factor constante. |
| quadratic |
Aumenta las puntuaciones en una cantidad que disminuye cuadráticamente. Los aumentos disminuyen lentamente para puntajes más altos y más rápidamente a medida que disminuyen los puntajes. Esta opción de interpolación no está permitida en las funciones de puntuación de etiquetas. |
| logarithmic |
Aumenta las puntuaciones en una cantidad que disminuye logarítmicamente. Los aumentos disminuyen rápidamente para puntajes más altos y más lentamente a medida que disminuyen los puntajes. Esta opción de interpolación no está permitida en las funciones de puntuación de etiquetas. |
ScoringProfile
Define los parámetros de un índice de búsqueda que influyen en la puntuación en las consultas de búsqueda.
| Nombre | Tipo | Description |
|---|---|---|
| functionAggregation |
Valor que indica cómo deben combinarse los resultados de las funciones de puntuación individuales. El valor predeterminado es "Suma". Se omite si no hay funciones de puntuación. |
|
| functions | ScoringFunction[]: |
El conjunto de funciones que influyen en la puntuación de documentos. |
| name |
string |
El nombre del perfil de puntuación. |
| text |
Parámetros que aumentan la puntuación en función de las coincidencias de texto en determinados campos de índice. |
SearchField
Representa un campo en una definición de índice, que describe el nombre, el tipo de datos y el comportamiento de búsqueda de un campo.
| Nombre | Tipo | Description |
|---|---|---|
| analyzer |
El nombre del analizador que se va a utilizar para el campo. Esta opción solo se puede usar con campos de búsqueda y no se puede establecer junto con searchAnalyzer o indexAnalyzer. Una vez elegido el analizador, no se puede cambiar para el campo. Debe ser null para campos complejos. |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
La dimensionalidad del campo vectorial. |
| facetable |
boolean |
Valor que indica si se debe habilitar la referencia al campo en las consultas de faceta. Suele utilizarse en una presentación de resultados de búsqueda que incluya el número de resultados por categoría (por ejemplo, busque cámaras digitales y consulte los resultados divididos por marca, por megapíxeles, por precio, etc.). Esta propiedad debe ser null para campos complejos. Los campos de tipo Edm.GeographyPoint o Collection(Edm.GeographyPoint) no se pueden facetar. El valor predeterminado es true para todos los demás campos simples. |
| fields |
Una lista de subcampos si se trata de un campo de tipo Edm.ComplexType o Collection(Edm.ComplexType). Debe ser nulo o vacío para los campos simples. |
|
| filterable |
boolean |
Valor que indica si se debe habilitar la referencia al campo en $filter consultas. filterable difiere de searchable en cómo se manejan las cadenas. Los campos de tipo Edm.String o Collection(Edm.String) que se pueden filtrar no se separan por palabra, por lo que las comparaciones son solo para coincidencias exactas. Por ejemplo, si establece un campo f de este tipo en "día soleado", $filter=f eq 'soleado' no encontrará coincidencias, pero $filter=f eq 'día soleado' sí. Esta propiedad debe ser null para campos complejos. El valor predeterminado es true para los campos simples y null para los campos complejos. |
| indexAnalyzer |
El nombre del analizador utilizado en el momento de la indexación para el campo. Esta opción solo se puede utilizar con campos de búsqueda. Debe establecerse junto con searchAnalyzer y no se puede establecer junto con la opción analyzer. Esta propiedad no se puede establecer en el nombre de un analizador de lenguaje; Use la propiedad analyzer en su lugar si necesita un analizador de idioma. Una vez elegido el analizador, no se puede cambiar para el campo. Debe ser null para campos complejos. |
|
| key |
boolean |
Valor que indica si el campo identifica de forma única los documentos del índice. Se debe elegir exactamente un campo de nivel superior de cada índice como campo clave y debe ser de tipo Edm.String. Los campos clave se pueden usar para buscar documentos directamente y actualizar o eliminar documentos específicos. El valor predeterminado es false para los campos simples y null para los campos complejos. |
| name |
string |
El nombre del campo, que debe ser único dentro de la colección fields del índice o campo primario. |
| normalizer |
El nombre del normalizador que se va a usar para el campo. Esta opción solo se puede utilizar con campos con filtrable, ordenable o facetable habilitado. Una vez elegido el normalizador, no se puede cambiar para el campo. Debe ser null para campos complejos. |
|
| retrievable |
boolean |
Valor que indica si el campo se puede devolver en un resultado de búsqueda. Puede deshabilitar esta opción si desea utilizar un campo (por ejemplo, margen) como filtro, ordenación o mecanismo de puntuación, pero no desea que el campo sea visible para el usuario final. Esta propiedad debe ser true para los campos clave y debe ser null para los campos complejos. Esta propiedad se puede cambiar en los campos existentes. La habilitación de esta propiedad no provoca ningún aumento en los requisitos de almacenamiento de índices. El valor predeterminado es true para campos simples, false para campos vectoriales y null para campos complejos. |
| searchAnalyzer |
El nombre del analizador utilizado en el momento de la búsqueda del campo. Esta opción solo se puede utilizar con campos de búsqueda. Debe establecerse junto con indexAnalyzer y no se puede establecer junto con la opción analyzer. Esta propiedad no se puede establecer en el nombre de un analizador de lenguaje; Use la propiedad analyzer en su lugar si necesita un analizador de idioma. Este analizador se puede actualizar en un campo existente. Debe ser null para campos complejos. |
|
| searchable |
boolean |
Valor que indica si el campo se puede buscar en texto completo. Esto significa que se someterá a análisis como la separación de palabras durante la indexación. Si establece un campo de búsqueda en un valor como "día soleado", internamente se dividirá en los tokens individuales "soleado" y "día". Esto permite realizar búsquedas de texto completo de estos términos. Los campos de tipo Edm.String o Collection(Edm.String) se pueden buscar de forma predeterminada. Esta propiedad debe ser false para los campos simples de otros tipos de datos que no sean de cadena y debe ser null para los campos complejos. Nota: Los campos que se pueden buscar consumen espacio adicional en el índice para dar cabida a versiones tokenizadas adicionales del valor del campo para las búsquedas de texto completo. Si desea ahorrar espacio en el índice y no necesita que se incluya un campo en las búsquedas, establezca searchable en false. |
| sortable |
boolean |
Valor que indica si se debe habilitar la referencia al campo en $orderby expresiones. De forma predeterminada, el motor de búsqueda ordena los resultados por puntuación, pero en muchas experiencias los usuarios querrán ordenar por campos en los documentos. Un campo simple solo se puede ordenar si tiene un solo valor (tiene un solo valor en el ámbito del documento primario). Los campos de colección simples no se pueden ordenar, ya que tienen varios valores. Los subcampos simples de colecciones complejas también tienen varios valores y, por lo tanto, no se pueden ordenar. Esto es cierto si es un campo primario inmediato o un campo antecesor, que es la colección compleja. Los campos complejos no se pueden ordenar y la propiedad ordenable debe ser null para dichos campos. El valor predeterminado para ordenar es true para campos simples de un solo valor, false para campos simples de varios valores y null para campos complejos. |
| stored |
boolean |
Un valor inmutable que indica si el campo se conservará por separado en el disco para devolverse en un resultado de búsqueda. Puede deshabilitar esta opción si no planea devolver el contenido del campo en una respuesta de búsqueda para ahorrar en la sobrecarga de almacenamiento. Esto solo se puede establecer durante la creación del índice y solo para campos vectoriales. Esta propiedad no se puede cambiar para los campos existentes ni establecerse como false para los campos nuevos. Si esta propiedad se establece como false, la propiedad 'retrievable' también debe establecerse en false. Esta propiedad debe ser true o unset para los campos clave, para los campos nuevos y para los campos no vectoriales, y debe ser null para los campos complejos. Deshabilitar esta propiedad reducirá los requisitos de almacenamiento de índices. El valor predeterminado es true para los campos vectoriales. |
| synonymMaps |
string[] |
Lista de los nombres de los mapas de sinónimos que se van a asociar a este campo. Esta opción solo se puede utilizar con campos de búsqueda. Actualmente solo se admite un mapa de sinónimos por campo. La asignación de un mapa de sinónimos a un campo garantiza que los términos de consulta dirigidos a ese campo se expandan en el momento de la consulta utilizando las reglas del mapa de sinónimos. Este atributo se puede cambiar en campos existentes. Debe ser null o una colección vacía para campos complejos. |
| type |
El tipo de datos del campo. |
|
| vectorEncoding |
El formato de codificación para interpretar el contenido del campo. |
|
| vectorSearchProfile |
string |
Nombre del perfil de búsqueda vectorial que especifica el algoritmo y el vectorizador que se utilizarán al buscar en el campo vectorial. |
SearchFieldDataType
Define el tipo de datos de un campo en un índice de búsqueda.
| Valor | Description |
|---|---|
| Edm.String |
Indica que un campo contiene una cadena. |
| Edm.Int32 |
Indica que un campo contiene un entero con signo de 32 bits. |
| Edm.Int64 |
Indica que un campo contiene un entero con signo de 64 bits. |
| Edm.Double |
Indica que un campo contiene un número de punto flotante de precisión doble IEEE. |
| Edm.Boolean |
Indica que un campo contiene un valor booleano (verdadero o falso). |
| Edm.DateTimeOffset |
Indica que un campo contiene un valor de fecha y hora, incluida la información de zona horaria. |
| Edm.GeographyPoint |
Indica que un campo contiene una ubicación geográfica en términos de longitud y latitud. |
| Edm.ComplexType |
Indica que un campo contiene uno o varios objetos complejos que, a su vez, tienen subcampos de otros tipos. |
| Edm.Single |
Indica que un campo contiene un número de punto flotante de precisión simple. Esto solo es válido cuando se usa con Collection(Edm.Single). |
| Edm.Half |
Indica que un campo contiene un número de punto flotante de precisión media. Esto solo es válido cuando se usa con Collection(Edm.Half). |
| Edm.Int16 |
Indica que un campo contiene un entero con signo de 16 bits. Esto solo es válido cuando se usa con Collection(Edm.Int16). |
| Edm.SByte |
Indica que un campo contiene un entero con signo de 8 bits. Esto solo es válido cuando se usa con Collection(Edm.SByte). |
| Edm.Byte |
Indica que un campo contiene un entero sin signo de 8 bits. Esto solo es válido cuando se usa con Collection(Edm.Byte). |
SearchIndex
Representa una definición de índice de búsqueda, que describe los campos y el comportamiento de búsqueda de un índice.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.etag |
string |
La ETag del índice. |
| analyzers | LexicalAnalyzer[]: |
Los analizadores del índice. |
| charFilters | CharFilter[]: |
Los filtros de caracteres para el índice. |
| corsOptions |
Opciones para controlar el uso compartido de recursos entre orígenes (CORS) para el índice. |
|
| defaultScoringProfile |
string |
Nombre del perfil de puntuación que se va a usar si no se especifica ninguno en la consulta. Si no se establece esta propiedad y no se especifica ningún perfil de puntuación en la consulta, se usará la puntuación predeterminada (tf-idf). |
| description |
string |
La descripción del índice. |
| encryptionKey |
Descripción de una clave de cifrado que se crea en Azure Key Vault. Esta clave se usa para proporcionar un nivel adicional de cifrado en reposo para sus datos cuando desea una garantía total de que nadie, ni siquiera Microsoft, puede descifrar sus datos. Una vez que haya cifrado sus datos, siempre permanecerán encriptados. El servicio de búsqueda omitirá los intentos de establecer esta propiedad en null. Puede cambiar esta propiedad según sea necesario si desea rotar su clave de cifrado; Sus datos no se verán afectados. El cifrado con claves administradas por el cliente no está disponible para los servicios de búsqueda gratuitos y solo está disponible para los servicios pagos creados a partir del 1 de enero de 2019. |
|
| fields |
Los campos del índice. |
|
| name |
string |
El nombre del índice. |
| normalizers | LexicalNormalizer[]: |
Los normalizadores del índice. |
| scoringProfiles |
Los perfiles de puntuación para el índice. |
|
| semantic |
Define parámetros para un índice de búsqueda que influyen en las capacidades semánticas. |
|
| similarity | Similarity: |
El tipo de algoritmo de similitud que se utilizará al puntuar y clasificar los documentos que coincidan con una consulta de búsqueda. El algoritmo de similitud solo se puede definir en el momento de la creación del índice y no se puede modificar en los índices existentes. Si es null, se usa el algoritmo ClassicSimilarity. |
| suggesters |
Los sugerentes para el índice. |
|
| tokenFilters |
TokenFilter[]:
|
El token filtra el índice. |
| tokenizers | LexicalTokenizer[]: |
Los tokenizadores del índice. |
| vectorSearch |
Contiene opciones de configuración relacionadas con la búsqueda vectorial. |
SearchIndexerDataNoneIdentity
Borra la propiedad de identidad de un origen de datos.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de identidad. |
SearchIndexerDataUserAssignedIdentity
Especifica la identidad de un origen de datos que se va a utilizar.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de identidad. |
| userAssignedIdentity |
string |
Identificador de recurso completo de Azure de una identidad administrada asignada por el usuario, normalmente con el formato "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" que debería haberse asignado al servicio de búsqueda. |
SearchResourceEncryptionKey
Una clave de cifrado administrada por el cliente en Azure Key Vault. Las claves que crea y administra se pueden usar para cifrar o descifrar datos en reposo, como índices y mapas de sinónimos.
| Nombre | Tipo | Description |
|---|---|---|
| accessCredentials |
Credenciales opcionales de Azure Active Directory usadas para acceder a Azure Key Vault. No es necesario si se usa la identidad administrada en su lugar. |
|
| keyVaultKeyName |
string |
Nombre de la clave de Azure Key Vault que se usará para cifrar los datos en reposo. |
| keyVaultKeyVersion |
string |
La versión de la clave de Azure Key Vault que se usará para cifrar los datos en reposo. |
| keyVaultUri |
string |
El URI de Azure Key Vault, también conocido como nombre DNS, que contiene la clave que se usará para cifrar los datos en reposo. Un ejemplo de URI podría ser |
SemanticConfiguration
Define una configuración específica que se utilizará en el contexto de las capacidades semánticas.
| Nombre | Tipo | Description |
|---|---|---|
| name |
string |
Nombre de la configuración semántica. |
| prioritizedFields |
Describe los campos de título, contenido y palabras clave que se utilizarán para la clasificación semántica, los subtítulos, los resaltados y las respuestas. Es necesario establecer al menos una de las tres subpropiedades (titleField, prioritizedKeywordsFields y prioritizedContentFields). |
|
| rankingOrder |
Especifica el tipo de puntuación que se utilizará para el criterio de ordenación de los resultados de la búsqueda. |
SemanticField
Campo que se usa como parte de la configuración semántica.
| Nombre | Tipo | Description |
|---|---|---|
| fieldName |
string |
SemanticSettings
Define parámetros para un índice de búsqueda que influyen en las capacidades semánticas.
| Nombre | Tipo | Description |
|---|---|---|
| configurations |
Las configuraciones semánticas del índice. |
|
| defaultConfiguration |
string |
Le permite establecer el nombre de una configuración semántica predeterminada en el índice, por lo que es opcional pasarlo como parámetro de consulta cada vez. |
ShingleTokenFilter
Crea combinaciones de tokens como un solo token. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| filterToken |
string |
_ |
La cadena que se va a insertar para cada posición en la que no hay token. El valor predeterminado es un carácter de subrayado ("_"). |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
El tamaño máximo de la teja. El valor predeterminado y mínimo es 2. |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
El tamaño mínimo de las tejas. El valor predeterminado y mínimo es 2. Debe ser menor que el valor de maxShingleSize. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| outputUnigrams |
boolean |
True |
Un valor que indica si el flujo de salida contendrá los tokens de entrada (unigramas) y tejas. El valor predeterminado es true. |
| outputUnigramsIfNoShingles |
boolean |
False |
Un valor que indica si se deben generar unigramas para aquellos momentos en que no hay tejas disponibles. Esta propiedad tiene prioridad cuando outputUnigrams se establece en false. El valor predeterminado es False. |
| tokenSeparator |
string |
La cadena que se usará al unir tokens adyacentes para formar una teja. El valor predeterminado es un solo espacio (" "). |
SnowballTokenFilter
Filtro que deriva palabras mediante un lematizador generado por Snowball. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
| language |
El lenguaje a utilizar. |
|
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
SnowballTokenFilterLanguage
El idioma que se va a utilizar para un filtro de tokens de Snowball.
| Valor | Description |
|---|---|
| armenian |
Selecciona el tokenizador de derivación de bola de nieve de Lucene para armenio. |
| basque |
Selecciona el tokenizador de lematización Lucene Snowball para euskera. |
| catalan |
Selecciona el tokenizador de lematización Lucene Snowball para catalán. |
| danish |
Selecciona el tokenizador de lematización Lucene Snowball para danés. |
| dutch |
Selecciona el tokenizador de lematización Lucene Snowball para holandés. |
| english |
Selecciona el tokenizador de lematización Lucene Snowball para inglés. |
| finnish |
Selecciona el tokenizador de lematización de bola de nieve de Lucene para finlandés. |
| french |
Selecciona el tokenizador de lematización de Lucene Snowball para francés. |
| german |
Selecciona el tokenizador de lematización Lucene Snowball para alemán. |
| german2 |
Selecciona el tokenizador de lematización de Lucene Snowball que usa el algoritmo de variante alemán. |
| hungarian |
Selecciona el tokenizador de lematización Lucene Snowball para húngaro. |
| italian |
Selecciona el tokenizador de lematización Lucene Snowball para italiano. |
| kp |
Selecciona el tokenizador de lematización de Lucene Snowball para holandés que usa el algoritmo de lematización Kraaij-Pohlmann. |
| lovins |
Selecciona el tokenizador de lematización de Lucene Snowball para inglés que usa el algoritmo de lematización de Lovins. |
| norwegian |
Selecciona el tokenizador de leal Lucene Snowball para noruego. |
| porter |
Selecciona el tokenizador de lematización de Lucene Snowball para inglés que usa el algoritmo de lematización de Porter. |
| portuguese |
Selecciona el tokenizador de lematización Lucene Snowball para portugués. |
| romanian |
Selecciona el tokenizador de lematización Lucene Snowball para rumano. |
| russian |
Selecciona el tokenizador de lematización Lucene Snowball para ruso. |
| spanish |
Selecciona el tokenizador de lematización Lucene Snowball para español. |
| swedish |
Selecciona el tokenizador de lematización de bola de nieve de Lucene para sueco. |
| turkish |
Selecciona el tokenizador de lematización de bola de nieve de Lucene para turco. |
StemmerOverrideTokenFilter
Proporciona la capacidad de invalidar otros filtros de lematización con lematización personalizada basada en diccionario. Cualquier término derivado del diccionario se marcará como palabras clave para que no se relacione con lematizadores en la cadena. Debe colocarse antes de cualquier filtro de derivación. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
| rules |
string[] |
Una lista de reglas de lematización en el siguiente formato: "word => stem", por ejemplo: "ran => run". |
StemmerTokenFilter
Filtro de lematización específico del idioma. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
| language |
El lenguaje a utilizar. |
|
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
StemmerTokenFilterLanguage
El lenguaje que se va a usar para un filtro de token de lematización.
| Valor | Description |
|---|---|
| arabic |
Selecciona el tokenizador de lematización de Lucene para árabe. |
| armenian |
Selecciona el tokenizador de derivación Lucene para armenio. |
| basque |
Selecciona el tokenizador de derivación de Lucene para euskera. |
| brazilian |
Selecciona el tokenizador de derivación Lucene para portugués (Brasil). |
| bulgarian |
Selecciona el tokenizador de derivación Lucene para búlgaro. |
| catalan |
Selecciona el tokenizador de derivación Lucene para catalán. |
| czech |
Selecciona el tokenizador de derivación Lucene para checo. |
| danish |
Selecciona el tokenizador de lematización Lucene para danés. |
| dutch |
Selecciona el tokenizador de derivación Lucene para holandés. |
| dutchKp |
Selecciona el tokenizador de lematización de Lucene para holandés que usa el algoritmo de lematización Kraaij-Pohlmann. |
| english |
Selecciona el tokenizador de lematización de Lucene para inglés. |
| lightEnglish |
Selecciona el tokenizador de lematización de Lucene para inglés que hace lematización ligera. |
| minimalEnglish |
Selecciona el tokenizador de lematización de Lucene para inglés que realiza una lematización mínima. |
| possessiveEnglish |
Selecciona el tokenizador de raíz de Lucene para inglés que elimina los posesivos finales de las palabras. |
| porter2 |
Selecciona el tokenizador de lematización de Lucene para inglés que usa el algoritmo de lematización Porter2. |
| lovins |
Selecciona el tokenizador de lematización de Lucene para inglés que usa el algoritmo de lematización de Lovins. |
| finnish |
Selecciona el tokenizador de derivación de Lucene para finlandés. |
| lightFinnish |
Selecciona el tokenizador de lematización de Lucene para finlandés que hace lematización ligera. |
| french |
Selecciona el tokenizador de lematización Lucene para francés. |
| lightFrench |
Selecciona el tokenizador de lematización de Lucene para francés que hace lematización ligera. |
| minimalFrench |
Selecciona el tokenizador de lematización de Lucene para francés que hace una lematización mínima. |
| galician |
Selecciona el tokenizador de derivación Lucene para gallego. |
| minimalGalician |
Selecciona el tokenizador de derivación Lucene para gallego que hace una derivación mínima. |
| german |
Selecciona el tokenizador de lematización Lucene para alemán. |
| german2 |
Selecciona el tokenizador de lematización de Lucene que utiliza el algoritmo de variante alemán. |
| lightGerman |
Selecciona el tokenizador de lematización Lucene para alemán que hace lematización ligera. |
| minimalGerman |
Selecciona el tokenizador de lematización de Lucene para alemán que hace una plica mínima. |
| greek |
Selecciona el tokenizador de lematización de Lucene para griego. |
| hindi |
Selecciona el tokenizador de lematización de Lucene para hindi. |
| hungarian |
Selecciona el tokenizador de derivación de Lucene para húngaro. |
| lightHungarian |
Selecciona el tokenizador de lematización de Lucene para húngaro que hace lematización ligera. |
| indonesian |
Selecciona el tokenizador de derivación de Lucene para indonesio. |
| irish |
Selecciona el tokenizador de derivación Lucene para irlandés. |
| italian |
Selecciona el tokenizador de lematización Lucene para italiano. |
| lightItalian |
Selecciona el tokenizador de derivación de Lucene para italiano que hace plica ligera. |
| sorani |
Selecciona el tokenizador de lematización de Lucene para Sorani. |
| latvian |
Selecciona el tokenizador de lematización Lucene para letón. |
| norwegian |
Selecciona el tokenizador de derivación Lucene para noruego (Bokmål). |
| lightNorwegian |
Selecciona el tokenizador de lematización de Lucene para noruego (Bokmål) que realiza lematización ligera. |
| minimalNorwegian |
Selecciona el tokenizador de lematización de Lucene para noruego (Bokmål) que realiza una lematización mínima. |
| lightNynorsk |
Selecciona el tokenizador de lematización de Lucene para noruego (nynorsk) que realiza lematización ligera. |
| minimalNynorsk |
Selecciona el tokenizador de lematización de Lucene para noruego (nynorsk) que realiza una lematización mínima. |
| portuguese |
Selecciona el tokenizador de lematización de Lucene para portugués. |
| lightPortuguese |
Selecciona el tokenizador de lematización de Lucene para portugués que hace lematización ligera. |
| minimalPortuguese |
Selecciona el tokenizador de lematización de Lucene para portugués que hace una lematización mínima. |
| portugueseRslp |
Selecciona el tokenizador de lematización de Lucene para portugués que utiliza el algoritmo de lematización RSLP. |
| romanian |
Selecciona el tokenizador de derivación Lucene para rumano. |
| russian |
Selecciona el tokenizador de lematización de Lucene para ruso. |
| lightRussian |
Selecciona el tokenizador de lematización de Lucene para ruso que hace lematización ligera. |
| spanish |
Selecciona el tokenizador de derivación de Lucene para español. |
| lightSpanish |
Selecciona el tokenizador de lematización de Lucene para español que hace lematización ligera. |
| swedish |
Selecciona el tokenizador de lematización de Lucene para sueco. |
| lightSwedish |
Selecciona el tokenizador de lematización de Lucene para sueco que hace lematización ligera. |
| turkish |
Selecciona el tokenizador de derivación de Lucene para turco. |
StopAnalyzer
Divide el texto en no letras; Aplica los filtros de token de minúsculas y palabras irrelevantes. Este analizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmento de URI que especifica el tipo de analizador. |
| name |
string |
El nombre del analizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
| stopwords |
string[] |
Una lista de palabras vacías. |
StopwordsList
Identifica una lista predefinida de palabras irrelevantes específicas del idioma.
| Valor | Description |
|---|---|
| arabic |
Selecciona la lista de palabras irrelevantes para el árabe. |
| armenian |
Selecciona la lista de palabras irrelevantes para armenio. |
| basque |
Selecciona la lista de palabras irrelevantes para el euskera. |
| brazilian |
Selecciona la lista de palabras irrelevantes para Portugués (Brasil). |
| bulgarian |
Selecciona la lista de palabras irrelevantes para el búlgaro. |
| catalan |
Selecciona la lista de palabras irrelevantes para el catalán. |
| czech |
Selecciona la lista de palabras irrelevantes para el checo. |
| danish |
Selecciona la lista de palabras irrelevantes para danés. |
| dutch |
Selecciona la lista de palabras irrelevantes para holandés. |
| english |
Selecciona la lista de palabras irrelevantes para inglés. |
| finnish |
Selecciona la lista de palabras irrelevantes para finlandés. |
| french |
Selecciona la lista de palabras irrelevantes para francés. |
| galician |
Selecciona la lista de palabras irrelevantes para el gallego. |
| german |
Selecciona la lista de palabras irrelevantes para el alemán. |
| greek |
Selecciona la lista de palabras irrelevantes para el griego. |
| hindi |
Selecciona la lista de palabras irrelevantes para el hindi. |
| hungarian |
Selecciona la lista de palabras irrelevantes para el húngaro. |
| indonesian |
Selecciona la lista de palabras irrelevantes para indonesio. |
| irish |
Selecciona la lista de palabras irrelevantes para irlandés. |
| italian |
Selecciona la lista de palabras irrelevantes para italiano. |
| latvian |
Selecciona la lista de palabras irrelevantes para el letón. |
| norwegian |
Selecciona la lista de palabras irrelevantes para noruego. |
| persian |
Selecciona la lista de palabras irrelevantes para el persa. |
| portuguese |
Selecciona la lista de palabras irrelevantes para el portugués. |
| romanian |
Selecciona la lista de palabras irrelevantes para rumano. |
| russian |
Selecciona la lista de palabras irrelevantes para el ruso. |
| sorani |
Selecciona la lista de palabras irrelevantes para Sorani. |
| spanish |
Selecciona la lista de palabras irrelevantes para español. |
| swedish |
Selecciona la lista de palabras irrelevantes para sueco. |
| thai |
Selecciona la lista de palabras irrelevantes para tailandés. |
| turkish |
Selecciona la lista de palabras irrelevantes para el turco. |
StopwordsTokenFilter
Quita las palabras vacías de una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| ignoreCase |
boolean |
False |
Valor que indica si se deben omitir mayúsculas y minúsculas. Si es true, todas las palabras se convierten primero a minúsculas. El valor predeterminado es False. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| removeTrailing |
boolean |
True |
Valor que indica si se debe omitir el último término de búsqueda si se trata de una palabra irrelevante. El valor predeterminado es true. |
| stopwords |
string[] |
La lista de palabras vacías. Esta propiedad y la propiedad de lista de palabras irrelevantes no se pueden establecer. |
|
| stopwordsList | english |
Una lista predefinida de palabras irrelevantes para usar. Esta propiedad y la propiedad de palabras vacías no se pueden establecer. El valor predeterminado es el inglés. |
Suggester
Define cómo se debe aplicar la API de sugerencias a un grupo de campos del índice.
| Nombre | Tipo | Description |
|---|---|---|
| name |
string |
El nombre del sugestor. |
| searchMode |
Valor que indica las capacidades del sugeridor. |
|
| sourceFields |
string[] |
La lista de nombres de campo a los que se aplica el sugeridor. Cada campo debe poder buscarse. |
SuggesterSearchMode
Valor que indica las capacidades del sugeridor.
| Valor | Description |
|---|---|
| analyzingInfixMatching |
Coincide con términos y prefijos completos consecutivos en un campo. Por ejemplo, para el campo "El zorro marrón más rápido", las consultas "rápido" y "ceja más rápida" coincidirían. |
SynonymTokenFilter
Coincide con sinónimos de una o varias palabras en una secuencia de tokens. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| expand |
boolean |
True |
Valor que indica si todas las palabras de la lista de sinónimos (si no se usa la notación => ) se asignarán entre sí. Si es true, todas las palabras de la lista de sinónimos (si no se usa la notación => ) se asignarán entre sí. La siguiente lista: increíble, increíble, fabuloso, asombroso equivale a: increíble, increíble, fabuloso, asombroso => increíble, increíble, fabuloso, asombroso. Si es falso, la siguiente lista: increíble, increíble, fabuloso, asombroso será equivalente a: increíble, increíble, fabuloso, asombroso => increíble. El valor predeterminado es true. |
| ignoreCase |
boolean |
False |
Valor que indica si se deben plegar mayúsculas y minúsculas para la coincidencia. El valor predeterminado es False. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| synonyms |
string[] |
Una lista de sinónimos en uno de los siguientes dos formatos: 1. increíble, increíble, fabuloso => asombroso - todos los términos en el lado izquierdo del símbolo => serán reemplazados por todos los términos en su lado derecho; 2. Increíble, increíble, fabuloso, asombroso: lista separada por comas de palabras equivalentes. Establezca la opción de expansión para cambiar la forma en que se interpreta esta lista. |
TagScoringFunction
Define una función que aumenta las puntuaciones de los documentos con valores de cadena que coinciden con una lista determinada de etiquetas.
| Nombre | Tipo | Description |
|---|---|---|
| boost |
number (double) |
Un multiplicador para la puntuación bruta. Debe ser un número positivo que no sea igual a 1.0. |
| fieldName |
string |
El nombre del campo utilizado como entrada para la función de puntuación. |
| interpolation |
Un valor que indica cómo se interpolará el aumento en las puntuaciones del documento; El valor predeterminado es "Lineal". |
|
| tag |
Valores de parámetro para la función de puntuación de etiquetas. |
|
| type |
string:
tag |
Indica el tipo de función que se va a utilizar. Los valores válidos incluyen magnitud, actualización, distancia y etiqueta. El tipo de función debe estar en minúsculas. |
TagScoringParameters
Proporciona valores de parámetro a una función de puntuación de etiquetas.
| Nombre | Tipo | Description |
|---|---|---|
| tagsParameter |
string |
El nombre del parámetro pasado en las consultas de búsqueda para especificar la lista de etiquetas que se van a comparar con el campo de destino. |
TextWeights
Define ponderaciones en los campos de índice para las que las coincidencias deben aumentar la puntuación en las consultas de búsqueda.
| Nombre | Tipo | Description |
|---|---|---|
| weights |
object |
El diccionario de pesos por campo para mejorar la puntuación de documentos. Las claves son los nombres de campo y los valores son los pesos de cada campo. |
TokenCharacterKind
Representa clases de caracteres en las que puede operar un filtro de token.
| Valor | Description |
|---|---|
| letter |
Guarda las letras en fichas. |
| digit |
Mantiene los dígitos en fichas. |
| whitespace |
Mantiene los espacios en blanco en los tokens. |
| punctuation |
Mantiene la puntuación en fichas. |
| symbol |
Mantiene los símbolos en fichas. |
TokenFilterName
Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.
TruncateTokenFilter
Trunca los términos a una longitud específica. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| length |
integer (int32) maximum: 300 |
300 |
La longitud a la que se truncarán los términos. El valor predeterminado y máximo es 300. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
UaxUrlEmailTokenizer
Tokeniza las URL y los correos electrónicos como un token. Este tokenizador se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de tokenizador. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
La longitud máxima del token. El valor predeterminado es 255. Los tokens más largos que la longitud máxima se dividen. La longitud máxima del token que se puede utilizar es de 300 caracteres. |
| name |
string |
El nombre del tokenizador. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
UniqueTokenFilter
Filtra los tokens con el mismo texto que el token anterior. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| onlyOnSamePosition |
boolean |
False |
Valor que indica si se deben eliminar los duplicados solo en la misma posición. El valor predeterminado es False. |
VectorEncodingFormat
El formato de codificación para interpretar el contenido de los campos vectoriales.
| Valor | Description |
|---|---|
| packedBit |
Formato de codificación que representa bits empaquetados en un tipo de datos más amplio. |
VectorSearch
Contiene opciones de configuración relacionadas con la búsqueda vectorial.
| Nombre | Tipo | Description |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
Contiene opciones de configuración específicas del algoritmo utilizado durante la indexación o la consulta. |
| compressions | VectorSearchCompressionConfiguration[]: |
Contiene opciones de configuración específicas del método de compresión utilizado durante la indexación o la consulta. |
| profiles |
Define combinaciones de configuraciones para usar con la búsqueda vectorial. |
|
| vectorizers | VectorSearchVectorizer[]: |
Contiene opciones de configuración sobre cómo vectorizar consultas vectoriales de texto. |
VectorSearchAlgorithmKind
El algoritmo utilizado para la indexación y la consulta.
| Valor | Description |
|---|---|
| hnsw |
HNSW (Hierarchical Navigable Small World), un tipo de algoritmo aproximado de vecinos más cercanos. |
| exhaustiveKnn |
Algoritmo KNN exhaustivo que realizará una búsqueda de fuerza bruta. |
VectorSearchAlgorithmMetric
La métrica de similitud que se utilizará para las comparaciones vectoriales. Se recomienda elegir la misma métrica de similitud con la que se entrenó el modelo de incrustación.
| Valor | Description |
|---|---|
| cosine |
Mide el ángulo entre vectores para cuantificar su similitud, sin tener en cuenta la magnitud. Cuanto menor sea el ángulo, más cercana será la similitud. |
| euclidean |
Calcula la distancia en línea recta entre vectores en un espacio multidimensional. Cuanto menor sea la distancia, más cercana será la similitud. |
| dotProduct |
Calcula la suma de los productos por elementos para medir la similitud de alineación y magnitud. Cuanto más grande y positivo, más cercana es la similitud. |
| hamming |
Solo se aplica a tipos de datos binarios empaquetados en bits. Determina la disimilitud contando diferentes posiciones en vectores binarios. Cuantas menos diferencias, más cercana es la similitud. |
VectorSearchCompressionKind
El método de compresión utilizado para la indexación y la consulta.
| Valor | Description |
|---|---|
| scalarQuantization |
Cuantización escalar, un tipo de método de compresión. En la cuantificación escalar, los valores de los vectores originales se comprimen en un tipo más estrecho al discretizar y representar cada componente de un vector utilizando un conjunto reducido de valores cuantificados, lo que reduce el tamaño total de los datos. |
| binaryQuantization |
Cuantificación binaria, un tipo de método de compresión. En la cuantificación binaria, los valores de los vectores originales se comprimen en el tipo binario más estrecho al discretizar y representar cada componente de un vector utilizando valores binarios, lo que reduce el tamaño total de los datos. |
VectorSearchCompressionRescoreStorageMethod
Método de almacenamiento de los vectores de precisión total originales utilizados para las operaciones de repuntuación e índice interno.
| Valor | Description |
|---|---|
| preserveOriginals |
Esta opción conserva los vectores originales de precisión total. Elija esta opción para obtener la máxima flexibilidad y la máxima calidad de los resultados de búsqueda comprimidos. Esto consume más almacenamiento, pero permite volver a puntuar y sobremuestrear. |
| discardOriginals |
Esta opción descarta los vectores originales de precisión total. Elija esta opción para obtener el máximo ahorro de almacenamiento. Dado que esta opción no permite volver a puntuar y sobremuestrear, a menudo causará reducciones leves a moderadas en la calidad. |
VectorSearchCompressionTargetDataType
Tipo de datos cuantificados de valores vectoriales comprimidos.
| Valor | Description |
|---|---|
| int8 |
VectorSearchProfile
Define una combinación de configuraciones para usar con la búsqueda vectorial.
| Nombre | Tipo | Description |
|---|---|---|
| algorithm |
string |
El nombre de la configuración del algoritmo de búsqueda vectorial que especifica el algoritmo y los parámetros opcionales. |
| compression |
string |
Nombre de la configuración del método de compresión que especifica el método de compresión y los parámetros opcionales. |
| name |
string |
El nombre que se va a asociar con este perfil de búsqueda vectorial en particular. |
| vectorizer |
string |
El nombre de la vectorización que se está configurando para su uso con la búsqueda vectorial. |
VectorSearchVectorizerKind
El método de vectorización que se utilizará durante el tiempo de consulta.
| Valor | Description |
|---|---|
| azureOpenAI |
Genere incrustaciones mediante un recurso de Azure OpenAI en el momento de la consulta. |
| customWebApi |
Genere incrustaciones mediante un punto de conexión web personalizado en el momento de la consulta. |
WebApiParameters
Especifica las propiedades para conectarse a un vectorizador definido por el usuario.
| Nombre | Tipo | Description |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
La identidad administrada asignada por el usuario que se usa para las conexiones salientes. Si se proporciona un authResourceId y no se especifica, se usa la identidad administrada asignada por el sistema. En las actualizaciones del indexador, si no se especifica la identidad, el valor permanece sin cambios. Si se establece en "none", se borra el valor de esta propiedad. |
| authResourceId |
string |
Se aplica a los puntos de conexión personalizados que se conectan a código externo en una función de Azure o alguna otra aplicación que proporcione las transformaciones. Este valor debe ser el identificador de aplicación creado para la función o aplicación cuando se registró en Azure Active Directory. Cuando se especifica, la vectorización se conecta a la función o aplicación mediante un identificador administrado (ya sea del sistema o asignado por el usuario) del servicio de búsqueda y el token de acceso de la función o aplicación, utilizando este valor como identificador de recurso para crear el ámbito del token de acceso. |
| httpHeaders |
object |
Los encabezados necesarios para realizar la solicitud HTTP. |
| httpMethod |
string |
El método para la solicitud HTTP. |
| timeout |
string (duration) |
El tiempo de espera deseado para la solicitud. El valor predeterminado es 30 segundos. |
| uri |
string (uri) |
El URI de la API web que proporciona el vectorizador. |
WebApiVectorizer
Especifica un vectorizador definido por el usuario para generar la incrustación vectorial de una cadena de consulta. La integración de un vectorizador externo se logra mediante la interfaz de API web personalizada de un conjunto de aptitudes.
| Nombre | Tipo | Description |
|---|---|---|
| customWebApiParameters |
Especifica las propiedades del vectorizador definido por el usuario. |
|
| kind |
string:
custom |
El nombre del tipo de método de vectorización que se configura para su uso con la búsqueda vectorial. |
| name |
string |
El nombre que se va a asociar con este método de vectorización en particular. |
WordDelimiterTokenFilter
Divide las palabras en subpalabras y realiza transformaciones opcionales en grupos de subpalabras. Este filtro de token se implementa mediante Apache Lucene.
| Nombre | Tipo | Valor predeterminado | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Un fragmento de URI que especifica el tipo de filtro de token. |
|
| catenateAll |
boolean |
False |
Un valor que indica si todas las partes de la subpalabra serán catenadas. Por ejemplo, si se establece en true, "Azure-Search-1" se convierte en "AzureSearch1". El valor predeterminado es False. |
| catenateNumbers |
boolean |
False |
Valor que indica si se catenarán las ejecuciones máximas de partes numéricas. Por ejemplo, si se establece en true, "1-2" se convierte en "12". El valor predeterminado es False. |
| catenateWords |
boolean |
False |
Un valor que indica si se catenarán las ejecuciones máximas de partes de palabras. Por ejemplo, si se establece en true, "Azure-Search" se convierte en "AzureSearch". El valor predeterminado es False. |
| generateNumberParts |
boolean |
True |
Valor que indica si se deben generar subpalabras numéricas. El valor predeterminado es true. |
| generateWordParts |
boolean |
True |
Valor que indica si se deben generar palabras de parte. Si se establece, hace que se generen partes de palabras; por ejemplo, "AzureSearch" se convierte en "Azure" "Search". El valor predeterminado es true. |
| name |
string |
El nombre del filtro de tokens. Solo debe contener letras, dígitos, espacios, guiones o guiones bajos, solo puede comenzar y terminar con caracteres alfanuméricos y está limitado a 128 caracteres. |
|
| preserveOriginal |
boolean |
False |
Valor que indica si las palabras originales se conservarán y se agregarán a la lista de subpalabras. El valor predeterminado es False. |
| protectedWords |
string[] |
Una lista de tokens para evitar ser delimitados. |
|
| splitOnCaseChange |
boolean |
True |
Valor que indica si se deben dividir palabras en caseChange. Por ejemplo, si se establece en true, "AzureSearch" se convierte en "Azure" "Search". El valor predeterminado es true. |
| splitOnNumerics |
boolean |
True |
Un valor que indica si se debe dividir en números. Por ejemplo, si se establece en true, "Azure1Search" se convierte en "Azure" "1" "Search". El valor predeterminado es true. |
| stemEnglishPossessive |
boolean |
True |
Valor que indica si se deben quitar las "'s" finales de cada subpalabra. El valor predeterminado es true. |