Indexes - Create
Tworzy nowy indeks wyszukiwania.
POST {endpoint}/indexes?api-version=2025-09-01
Parametry identyfikatora URI
| Nazwa | W | Wymagane | Typ | Opis |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
Adres URL punktu końcowego usługi wyszukiwania. |
|
api-version
|
query | True |
string |
Wersja interfejsu API klienta. |
Nagłówek żądania
| Nazwa | Wymagane | Typ | Opis |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
Identyfikator śledzenia wysłany z żądaniem, aby pomóc w debugowaniu. |
Treść żądania
| Nazwa | Wymagane | Typ | Opis |
|---|---|---|---|
| fields | True |
Pola indeksu. |
|
| name | True |
string |
Nazwa indeksu. |
| @odata.etag |
string |
Element ETag indeksu. |
|
| analyzers | LexicalAnalyzer[]: |
Analizatory indeksu. |
|
| charFilters | CharFilter[]: |
Znak jest filtrowany pod kątem indeksu. |
|
| corsOptions |
Opcje sterowania współużytkowaniem zasobów między źródłami (CORS) dla indeksu. |
||
| defaultScoringProfile |
string |
Nazwa profilu oceniania, który ma być używany, jeśli nie zostanie określony w zapytaniu. Jeśli ta właściwość nie jest ustawiona i w zapytaniu nie określono profilu oceniania, zostanie użyte domyślne ocenianie (tf-idf). |
|
| description |
string |
Opis indeksu. |
|
| encryptionKey |
Opis klucza szyfrowania utworzonego w usłudze Azure Key Vault. Ten klucz jest używany w celu zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować Twoich danych. Po zaszyfrowaniu danych na zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Możesz zmienić tę właściwość zgodnie z potrzebami, jeśli chcesz obrócić klucz szyfrowania; Twoje dane pozostaną nienaruszone. Szyfrowanie za pomocą kluczy zarządzanych przez klienta nie jest dostępne w przypadku bezpłatnych usług wyszukiwania i jest dostępne tylko w przypadku płatnych usług utworzonych 1 stycznia 2019 r. lub później. |
||
| normalizers | LexicalNormalizer[]: |
Normalizatory indeksu. |
|
| scoringProfiles |
Profile oceniania dla indeksu. |
||
| semantic |
Definiuje parametry indeksu wyszukiwania, które mają wpływ na możliwości semantyczne. |
||
| similarity | Similarity: |
Typ algorytmu podobieństwa, który ma być używany podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w momencie tworzenia indeksu i nie można go modyfikować na istniejących indeksach. W przypadku wartości null używany jest algorytm ClassicSimilarity. |
|
| suggesters |
Sugesty dotyczące indeksu. |
||
| tokenFilters |
TokenFilter[]:
|
Token filtruje indeks. |
|
| tokenizers | LexicalTokenizer[]: |
Tokenizatory indeksu. |
|
| vectorSearch |
Zawiera opcje konfiguracyjne związane z wyszukiwaniem wektorowym. |
Odpowiedzi
| Nazwa | Typ | Opis |
|---|---|---|
| 201 Created | ||
| Other Status Codes |
Odpowiedź na błąd. |
Przykłady
SearchServiceCreateIndex
Przykładowe żądanie
POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
Przykładowa odpowiedź
{
"@odata.etag": "0x1234568AE7E58A1",
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
Definicje
| Nazwa | Opis |
|---|---|
|
Ascii |
Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Azure |
Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania, używanej do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault. |
|
Azure |
Umożliwia wygenerowanie osadzania wektora dla danego tekstu wejściowego przy użyciu zasobu usługi Azure OpenAI. |
|
Azure |
Nazwa modelu Azure Open AI, który zostanie wywołany. |
|
Azure |
Określa parametry nawiązywania połączenia z zasobem usługi Azure OpenAI. |
|
Azure |
Określa zasób usługi Azure OpenAI używany do wektoryzacji ciągu zapytania. |
|
Binary |
Zawiera opcje konfiguracyjne specyficzne dla binarnej metody kompresji kwantyzacji używanej podczas indeksowania i wykonywania zapytań. |
| BM25Similarity |
Funkcja rankingowa oparta na algorytmie podobieństwa Okapi BM25. BM25 to algorytm podobny do TF-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie częstotliwości terminów (kontrolowane przez parametr "k1"). |
|
Char |
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę. |
|
Cjk |
Tworzy bigramy terminów CJK, które są generowane ze standardowego tokenizatora. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Cjk |
Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter. |
|
Classic |
Starszy algorytm podobieństwa, który wykorzystuje implementację Lucene TFIDFSimilarity TF-IDF. Ta odmiana TF-IDF wprowadza statyczną normalizację długości dokumentów, a także czynniki koordynujące, które karzą dokumenty, które tylko częściowo pasują do wyszukiwanych zapytań. |
|
Classic |
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizator jest implementowany przy użyciu Apache Lucene. |
|
Common |
Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są nadal indeksowane, z nałożonymi bigramami. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Cors |
Definiuje opcje sterowania współużytkowaniem zasobów między źródłami (CORS) dla indeksu. |
|
Custom |
Pozwala przejąć kontrolę nad procesem konwersji tekstu na tokeny indeksowalne/przeszukiwalne. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizatora i co najmniej jednego filtru. Tokenizator jest odpowiedzialny za dzielenie tekstu na tokeny i filtry do modyfikowania tokenów emitowanych przez tokenizator. |
|
Custom |
Umożliwia skonfigurowanie normalizacji dla pól z możliwością filtrowania, sortowania i aspektów , które domyślnie działają ze ścisłym dopasowaniem. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z co najmniej jednego filtru, który modyfikuje przechowywany token. |
|
Dictionary |
Dekompozycja wyrazów złożonych występujących w wielu językach germańskich. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Distance |
Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej. |
|
Distance |
Dostarcza wartości parametrów do funkcji oceniania odległości. |
|
Edge |
Generuje n-gramy o podanych rozmiarach, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Edge |
Określa, z której strony danych wejściowych ma zostać wygenerowany n-gram. |
|
Edge |
Generuje n-gramy o podanych rozmiarach, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Edge |
Tokenizuje dane wejściowe z krawędzi na n-gramy o podanych rozmiarach. Ten tokenizator jest implementowany przy użyciu Apache Lucene. |
|
Elision |
Usuwa elisje. Na przykład "l'avion" (samolot) zostanie przekształcony w "avion" (samolot). Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Error |
Dodatkowe informacje o błędzie zarządzania zasobami. |
|
Error |
Szczegóły błędu. |
|
Error |
Odpowiedź na błąd |
|
Exhaustive |
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN. |
|
Exhaustive |
Zawiera opcje konfiguracyjne specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, który będzie przeprowadzał wyszukiwanie siłowe w całym indeksie wektorowym. |
|
Freshness |
Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny. |
|
Freshness |
Udostępnia wartości parametrów do funkcji oceniania świeżości. |
|
Hnsw |
Zawiera parametry specyficzne dla algorytmu HNSW. |
|
Hnsw |
Zawiera opcje konfiguracyjne specyficzne dla algorytmu HNSW przybliżonych najbliższych sąsiadów używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje regulowany kompromis między szybkością wyszukiwania a dokładnością. |
|
Input |
Mapowanie pól wejściowych dla umiejętności. |
|
Keep |
Filtr tokenów, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Keyword |
Oznacza terminy jako słowa kluczowe. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Keyword |
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizator jest implementowany przy użyciu Apache Lucene. |
|
Keyword |
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizator jest implementowany przy użyciu Apache Lucene. |
|
Length |
Usuwa słowa, które są za długie lub za krótkie. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Lexical |
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę. |
|
Lexical |
Definiuje nazwy wszystkich normalizatorów tekstu obsługiwanych przez wyszukiwarkę. |
|
Lexical |
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę. |
|
Limit |
Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Lucene |
Standardowy analizator Apache Lucene; Składa się ze standardowego tokenizatora, filtru małych liter i filtru zatrzymania. |
|
Lucene |
Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizator jest implementowany przy użyciu Apache Lucene. |
|
Lucene |
Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizator jest implementowany przy użyciu Apache Lucene. |
|
Magnitude |
Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego. |
|
Magnitude |
Dostarcza wartości parametrów do funkcji oceniania wielkości. |
|
Mapping |
Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mappings. Dopasowanie jest zachłanne (wygrywa najdłuższe dopasowanie wzoru w danym punkcie). Zamiana może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu Apache Lucene. |
|
Microsoft |
Dzieli tekst za pomocą reguł specyficznych dla języka i redukuje słowa do ich podstawowych form. |
|
Microsoft |
Tekst jest dzielony przy użyciu reguł specyficznych dla języka. |
|
Microsoft |
Wyświetla listę języków obsługiwanych przez tokenizator pochodzenia języka firmy Microsoft. |
|
Microsoft |
Wyświetla listę języków obsługiwanych przez tokenizator języka firmy Microsoft. |
|
NGram |
Generuje n-gramy o podanych rozmiarach. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
NGram |
Generuje n-gramy o podanych rozmiarach. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
NGram |
Tokenizuje dane wejściowe na n-gramy o podanych rozmiarach. Ten tokenizator jest implementowany przy użyciu Apache Lucene. |
|
Output |
Mapowanie pola wyjściowego dla umiejętności. |
|
Path |
Tokenizator dla hierarchii przypominających ścieżki. Ten tokenizator jest implementowany przy użyciu Apache Lucene. |
|
Pattern |
Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu Apache Lucene. |
|
Pattern |
Używa wyrażeń regularnych języka Java do emitowania wielu tokenów — po jednym dla każdej grupy przechwytywania w co najmniej jednym wzorcu. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Pattern |
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków do zachowania i wzorca zastępczego do identyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zamianę "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu Apache Lucene. |
|
Pattern |
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków do zachowania i wzorca zastępczego do identyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zamianę "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Pattern |
Tokenizator, który używa dopasowania wzorca wyrażeń regularnych do konstruowania odrębnych tokenów. Ten tokenizator jest implementowany przy użyciu Apache Lucene. |
|
Phonetic |
Identyfikuje typ kodera fonetycznego, który ma być używany z filtrem PhoneticTokenFilter. |
|
Phonetic |
Utwórz tokeny dla dopasowań fonetycznych. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Prioritized |
Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi. |
|
Ranking |
Reprezentuje wynik, który ma być używany do sortowania dokumentów. |
|
Regex |
Definiuje flagi, które można łączyć w celu kontrolowania sposobu używania wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorców. |
|
Rescoring |
Zawiera opcje ponownego odtwarzania. |
|
Scalar |
Zawiera parametry specyficzne dla kwantyzacji skalarnej. |
|
Scalar |
Zawiera opcje konfiguracyjne specyficzne dla metody kompresji kwantyzacji skalarnej używanej podczas indeksowania i wykonywania zapytań. |
|
Scoring |
Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania. |
|
Scoring |
Definiuje funkcję używaną do interpolacji zwiększania wyników w zakresie dokumentów. |
|
Scoring |
Definiuje parametry indeksu wyszukiwania, które wpływają na ocenianie w zapytaniach wyszukiwania. |
|
Search |
Reprezentuje pole w definicji indeksu, która opisuje nazwę, typ danych i zachowanie wyszukiwania pola. |
|
Search |
Definiuje typ danych pola w indeksie wyszukiwania. |
|
Search |
Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu. |
|
Search |
Czyści właściwość tożsamości źródła danych. |
|
Search |
Określa tożsamość źródła danych, które ma być używane. |
|
Search |
Klucz szyfrowania zarządzany przez klienta w usłudze Azure Key Vault. Klucze, które tworzysz i którymi zarządzasz, mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych, takich jak indeksy i mapy synonimów. |
|
Semantic |
Definiuje określoną konfigurację, która ma być używana w kontekście możliwości semantycznych. |
|
Semantic |
Pole, które jest używane jako część konfiguracji semantycznej. |
|
Semantic |
Definiuje parametry indeksu wyszukiwania, które mają wpływ na możliwości semantyczne. |
|
Shingle |
Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Snowball |
Filtr, który wyprowadza słowa za pomocą stemmera generowanego przez Snowball. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Snowball |
Język, który ma być używany dla filtru tokenów Snowball. |
|
Stemmer |
Zapewnia możliwość zastępowania innych filtrów macierzystych za pomocą niestandardowego stemmingu opartego na słowniku. Wszystkie terminy ze słownika będą oznaczone jako słowa kluczowe, aby nie były poprzedzane stemmerami w dół łańcucha. Musi być umieszczony przed jakimikolwiek filtrami trzpieniowymi. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Stemmer |
Filtr macierzysty specyficzny dla języka. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Stemmer |
Język, który ma być używany dla filtru tokenu stemmer. |
|
Stop |
Dzieli tekst na miejsca niebędące literami; Stosuje filtry tokenów małych liter i stopword. Ten analizator jest implementowany przy użyciu Apache Lucene. |
|
Stopwords |
Identyfikuje wstępnie zdefiniowaną listę słów zatrzymania specyficznych dla danego języka. |
|
Stopwords |
Usuwa wyrazy zatrzymania ze strumienia tokenów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
| Suggester |
Definiuje sposób, w jaki interfejs API sugestii powinien być stosowany do grupy pól w indeksie. |
|
Suggester |
Wartość wskazująca możliwości sugestu. |
|
Synonym |
Dopasowuje synonimy jedno- lub wielowyrazowe w strumieniu tokenów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Tag |
Definiuje funkcję, która zwiększa wyniki dokumentów z wartościami ciągów pasującymi do danej listy tagów. |
|
Tag |
Udostępnia wartości parametrów do funkcji oceniania tagów. |
|
Text |
Definiuje wagi w polach indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania. |
|
Token |
Reprezentuje klasy znaków, na których może działać filtr tokenów. |
|
Token |
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę. |
|
Truncate |
Obcina terminy do określonej długości. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Uax |
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizator jest implementowany przy użyciu Apache Lucene. |
|
Unique |
Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
|
Vector |
Format kodowania służący do interpretowania zawartości pola wektorowego. |
|
Vector |
Zawiera opcje konfiguracyjne związane z wyszukiwaniem wektorowym. |
|
Vector |
Algorytm używany do indeksowania i wykonywania zapytań. |
|
Vector |
Metryka podobieństwa, która ma być używana do porównań wektorowych. Zaleca się wybranie tej samej metryki podobieństwa, na której został wytrenowany model osadzania. |
|
Vector |
Metoda kompresji używana do indeksowania i wykonywania zapytań. |
|
Vector |
Metoda przechowywania oryginalnych wektorów o pełnej precyzji używanych do ponownego oceniania i operacji indeksu wewnętrznego. |
|
Vector |
Skwantyzowany typ danych skompresowanych wartości wektorowych. |
|
Vector |
Definiuje kombinację konfiguracji, która ma być używana z wyszukiwaniem wektorowym. |
|
Vector |
Metoda wektoryzacji, która ma być używana w czasie wykonywania zapytania. |
|
Web |
Określa właściwości nawiązywania połączenia z wektoryzatorem zdefiniowanym przez użytkownika. |
|
Web |
Określa wektoryzator zdefiniowany przez użytkownika do generowania osadzania wektora ciągu zapytania. Integracja zewnętrznego wektoryzatora jest osiągana przy użyciu niestandardowego interfejsu internetowego interfejsu API zestawu umiejętności. |
|
Word |
Dzieli wyrazy na podwyrazy i wykonuje opcjonalne przekształcenia w grupach podsłów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene. |
AsciiFoldingTokenFilter
Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| preserveOriginal |
boolean |
False |
Wartość wskazująca, czy oryginalny token zostanie zachowany. Wartość domyślna to „false”. |
AzureActiveDirectoryApplicationCredentials
Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania, używanej do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault.
| Nazwa | Typ | Opis |
|---|---|---|
| applicationId |
string |
Identyfikator aplikacji usługi AAD, któremu udzielono wymaganych uprawnień dostępu do usługi Azure Key Vault, który ma być używany podczas szyfrowania danych magazynowanych. Identyfikatora aplikacji nie należy mylić z identyfikatorem obiektu aplikacji usługi AAD. |
| applicationSecret |
string |
Klucz uwierzytelniania określonej aplikacji usługi AAD. |
AzureOpenAIEmbeddingSkill
Umożliwia wygenerowanie osadzania wektora dla danego tekstu wejściowego przy użyciu zasobu usługi Azure OpenAI.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ umiejętności. |
| apiKey |
string |
Klucz interfejsu API wyznaczonego zasobu usługi Azure OpenAI. |
| authIdentity | SearchIndexerDataIdentity: |
Tożsamość zarządzana przypisana przez użytkownika używana dla połączeń wychodzących. |
| context |
string |
Reprezentuje poziom, na którym są wykonywane operacje, na przykład katalog główny dokumentu lub zawartość dokumentu (na przykład /document lub /document/content). Wartość domyślna to /document. |
| deploymentId |
string |
Identyfikator wdrożenia modelu usługi Azure OpenAI w wyznaczonym zasobie. |
| description |
string |
Opis umiejętności, który opisuje dane wejściowe, wyjściowe i użycie umiejętności. |
| dimensions |
integer (int32) |
Liczba wymiarów, które powinny mieć wynikowe osadzanie danych wyjściowych. Obsługiwane tylko w modelach text-embedding-3 i nowszych. |
| inputs |
Dane wejściowe umiejętności mogą być kolumną w źródłowym zestawie danych lub danymi wyjściowymi umiejętności nadrzędnej. |
|
| modelName |
Nazwa modelu osadzania, który jest wdrażany w podanej ścieżce deploymentId. |
|
| name |
string |
Nazwa umiejętności, która jednoznacznie identyfikuje ją w zestawie umiejętności. Umiejętność, która nie ma zdefiniowanej nazwy, otrzyma domyślną nazwę indeksu opartego na liczbie 1 w tablicy umiejętności, poprzedzoną znakiem "#". |
| outputs |
Dane wyjściowe umiejętności są albo polem w indeksie wyszukiwania, albo wartością, która może być używana jako dane wejściowe przez inną umiejętność. |
|
| resourceUri |
string (uri) |
Identyfikator URI zasobu usługi Azure OpenAI. |
AzureOpenAIModelName
Nazwa modelu Azure Open AI, który zostanie wywołany.
| Wartość | Opis |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
Określa parametry nawiązywania połączenia z zasobem usługi Azure OpenAI.
| Nazwa | Typ | Opis |
|---|---|---|
| apiKey |
string |
Klucz interfejsu API wyznaczonego zasobu usługi Azure OpenAI. |
| authIdentity | SearchIndexerDataIdentity: |
Tożsamość zarządzana przypisana przez użytkownika używana dla połączeń wychodzących. |
| deploymentId |
string |
Identyfikator wdrożenia modelu usługi Azure OpenAI w wyznaczonym zasobie. |
| modelName |
Nazwa modelu osadzania, który jest wdrażany w podanej ścieżce deploymentId. |
|
| resourceUri |
string (uri) |
Identyfikator URI zasobu usługi Azure OpenAI. |
AzureOpenAIVectorizer
Określa zasób usługi Azure OpenAI używany do wektoryzacji ciągu zapytania.
| Nazwa | Typ | Opis |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
Zawiera parametry specyficzne dla wektoryzacji osadzania usługi Azure OpenAI. |
| kind |
string:
azure |
Nazwa rodzaju metody wektoryzacji konfigurowanej do użycia z wyszukiwaniem wektorowym. |
| name |
string |
Nazwa, którą należy skojarzyć z tą konkretną metodą wektoryzacji. |
BinaryQuantizationVectorSearchCompressionConfiguration
Zawiera opcje konfiguracyjne specyficzne dla binarnej metody kompresji kwantyzacji używanej podczas indeksowania i wykonywania zapytań.
| Nazwa | Typ | Opis |
|---|---|---|
| kind |
string:
binary |
Nazwa rodzaju metody kompresji konfigurowanej do użycia z wyszukiwaniem wektorowym. |
| name |
string |
Nazwa, która ma być skojarzona z tą konkretną konfiguracją. |
| rescoringOptions |
Zawiera opcje ponownego odtwarzania. |
|
| truncationDimension |
integer (int32) |
Liczba wymiarów, do których mają zostać obcięte wektory. Obcinanie wektorów zmniejsza ich rozmiar i ilość danych, które muszą zostać przesłane podczas wyszukiwania. Może to zaoszczędzić na kosztach pamięci masowej i poprawić wydajność wyszukiwania kosztem zapamiętywania. Powinien być używany tylko do osadzania wytrenowanego za pomocą Matryoshka Representation Learning (MRL), takiego jak OpenAI text-embedding-3-large (small). Wartość domyślna to null, co oznacza brak obcinania. |
BM25Similarity
Funkcja rankingowa oparta na algorytmie podobieństwa Okapi BM25. BM25 to algorytm podobny do TF-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie częstotliwości terminów (kontrolowane przez parametr "k1").
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
Ta właściwość określa, w jaki sposób długość dokumentu wpływa na ocenę istotności. Domyślnie używana jest wartość 0,75. Wartość 0,0 oznacza, że nie jest stosowana normalizacja długości, natomiast wartość 1,0 oznacza, że wynik jest w pełni znormalizowany przez długość dokumentu. |
| k1 |
number (double) |
Ta właściwość steruje funkcją skalowania między częstotliwością terminów każdego pasującego terminu a końcowym wynikiem istotności pary dokument-zapytanie. Domyślnie używana jest wartość 1,2. Wartość 0,0 oznacza, że wynik nie skaluje się wraz ze wzrostem częstotliwości terminów. |
CharFilterName
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.
| Wartość | Opis |
|---|---|
| html_strip |
Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Tworzy bigramy terminów CJK, które są generowane ze standardowego tokenizatora. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| ignoreScripts |
Skrypty do zignorowania. |
||
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| outputUnigrams |
boolean |
False |
Wartość wskazująca, czy mają być wyprowadzane zarówno unigramy, jak i bigramy (jeśli prawda), czy tylko bigramy (jeśli wartość false). Wartość domyślna to „false”. |
CjkBigramTokenFilterScripts
Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter.
| Wartość | Opis |
|---|---|
| han |
Ignoruj pismo Han podczas tworzenia bigramów terminów CJK. |
| hiragana |
Ignoruj pismo Hiragana podczas tworzenia bigramów terminów CJK. |
| katakana |
Ignoruj skrypt Katakana podczas tworzenia bigramów terminów CJK. |
| hangul |
Ignoruj pismo Hangul podczas tworzenia bigramów terminów CJK. |
ClassicSimilarity
Starszy algorytm podobieństwa, który wykorzystuje implementację Lucene TFIDFSimilarity TF-IDF. Ta odmiana TF-IDF wprowadza statyczną normalizację długości dokumentów, a także czynniki koordynujące, które karzą dokumenty, które tylko częściowo pasują do wyszukiwanych zapytań.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maksymalna długość tokena. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
CommonGramTokenFilter
Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są nadal indeksowane, z nałożonymi bigramami. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| commonWords |
string[] |
Zestaw popularnych słów. |
|
| ignoreCase |
boolean |
False |
Wartość wskazująca, czy w pasowaniu typowych wyrazów nie będzie rozróżniana wielkość liter. Wartość domyślna to „false”. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| queryMode |
boolean |
False |
Wartość wskazująca, czy filtr tokenu jest w trybie zapytania. W trybie zapytania filtr tokenu generuje bigramy, a następnie usuwa typowe wyrazy i pojedyncze terminy, po których następuje wspólny wyraz. Wartość domyślna to „false”. |
CorsOptions
Definiuje opcje sterowania współużytkowaniem zasobów między źródłami (CORS) dla indeksu.
| Nazwa | Typ | Opis |
|---|---|---|
| allowedOrigins |
string[] |
Lista źródeł, z których kod JavaScript będzie miał dostęp do indeksu. Może zawierać listę hostów w postaci {protocol}://{fully-qualified-domain-name}[:{port#}] lub pojedynczy znak "*", aby zezwolić na wszystkie źródła (niezalecane). |
| maxAgeInSeconds |
integer (int64) |
Czas, przez jaki przeglądarki powinny buforować odpowiedzi inspekcji wstępnej CORS. Wartość domyślna to 5 minut. |
CustomAnalyzer
Pozwala przejąć kontrolę nad procesem konwersji tekstu na tokeny indeksowalne/przeszukiwalne. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizatora i co najmniej jednego filtru. Tokenizator jest odpowiedzialny za dzielenie tekstu na tokeny i filtry do modyfikowania tokenów emitowanych przez tokenizator.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
| charFilters |
Lista filtrów znaków używanych do przygotowywania tekstu wejściowego przed jego przetworzeniem przez tokenizator. Na przykład mogą zastąpić niektóre znaki lub symbole. Filtry są uruchamiane w kolejności, w jakiej są wymienione. |
|
| name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
| tokenFilters |
Lista filtrów tokenów używanych do filtrowania lub modyfikowania tokenów generowanych przez tokenizator. Na przykład można określić filtr małych liter, który konwertuje wszystkie znaki na małe litery. Filtry są uruchamiane w kolejności, w jakiej są wymienione. |
|
| tokenizer |
Nazwa tokenizera, która ma być używana do dzielenia ciągłego tekstu na sekwencję tokenów, takich jak dzielenie zdania na wyrazy. |
CustomNormalizer
Umożliwia skonfigurowanie normalizacji dla pól z możliwością filtrowania, sortowania i aspektów , które domyślnie działają ze ścisłym dopasowaniem. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z co najmniej jednego filtru, który modyfikuje przechowywany token.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ normalizatora. |
| charFilters |
Lista filtrów znaków używanych do przygotowywania tekstu wejściowego przed jego przetworzeniem. Na przykład mogą zastąpić niektóre znaki lub symbole. Filtry są uruchamiane w kolejności, w jakiej są wymienione. |
|
| name |
string |
Nazwa normalizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. Nie może kończyć się na ".microsoft" ani ".lucene", ani nie może być nazwany "asciifolding", "standard", "małe litery", "wielkie litery" lub "elision". |
| tokenFilters |
Lista filtrów tokenów używanych do odfiltrowywania lub modyfikowania tokenu wejściowego. Na przykład można określić filtr małych liter, który konwertuje wszystkie znaki na małe litery. Filtry są uruchamiane w kolejności, w jakiej są wymienione. |
DictionaryDecompounderTokenFilter
Dekompozycja wyrazów złożonych występujących w wielu językach germańskich. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
Maksymalny rozmiar podwyrazu. Wyprowadzane są tylko podsłowa krótsze niż ten. Wartość domyślna to 15. Maksymalnie 300. |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
Minimalny rozmiar podsłowa. Wyprowadzane są tylko podsłowa dłuższe niż ten. Wartość domyślna to 2. Maksymalnie 300. |
| minWordSize |
integer (int32) maximum: 300 |
5 |
Minimalny rozmiar wyrazu. Przetwarzane są tylko słowa dłuższe niż ten. Wartość domyślna to 5. Maksymalnie 300. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| onlyLongestMatch |
boolean |
False |
Wartość wskazująca, czy do danych wyjściowych dodać tylko najdłuższe pasujące słowo podrzędne. Wartość domyślna to „false”. |
| wordList |
string[] |
Lista słów, do których należy dopasować. |
DistanceScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej.
| Nazwa | Typ | Opis |
|---|---|---|
| boost |
number (double) |
Mnożnik dla surowego wyniku. Musi być liczbą dodatnią nierówną 1,0. |
| distance |
Wartości parametrów dla funkcji oceniania odległości. |
|
| fieldName |
string |
Nazwa pola używanego jako dane wejściowe dla funkcji oceniania. |
| interpolation |
Wartość wskazująca, w jaki sposób zwiększanie będzie interpolowane między wynikami dokumentu; Domyślnie jest to "Liniowy". |
|
| type |
string:
distance |
Wskazuje typ funkcji, która ma być używana. Prawidłowe wartości to wielkość, świeżość, odległość i tag. Typ funkcji musi być pisany małymi literami. |
DistanceScoringParameters
Dostarcza wartości parametrów do funkcji oceniania odległości.
| Nazwa | Typ | Opis |
|---|---|---|
| boostingDistance |
number (double) |
Odległość w kilometrach od lokalizacji referencyjnej, w której kończy się zasięg doładowania. |
| referencePointParameter |
string |
Nazwa parametru przekazywanego w zapytaniach wyszukiwania w celu określenia lokalizacji odwołania. |
EdgeNGramTokenFilter
Generuje n-gramy o podanych rozmiarach, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| maxGram |
integer (int32) |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. |
| minGram |
integer (int32) |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Musi być mniejsza niż wartość maxGram. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| side | front |
Określa, z której strony danych wejściowych powinien zostać wygenerowany n-gram. Wartość domyślna to "front". |
EdgeNGramTokenFilterSide
Określa, z której strony danych wejściowych ma zostać wygenerowany n-gram.
| Wartość | Opis |
|---|---|
| front |
Określa, że n-gram powinien być generowany z przodu danych wejściowych. |
| back |
Określa, że n-gram powinien być generowany z tyłu danych wejściowych. |
EdgeNGramTokenFilterV2
Generuje n-gramy o podanych rozmiarach, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalnie 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Maksymalnie 300. Musi być mniejsza niż wartość maxGram. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| side | front |
Określa, z której strony danych wejściowych powinien zostać wygenerowany n-gram. Wartość domyślna to "front". |
EdgeNGramTokenizer
Tokenizuje dane wejściowe z krawędzi na n-gramy o podanych rozmiarach. Ten tokenizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalnie 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Maksymalnie 300. Musi być mniejsza niż wartość maxGram. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| tokenChars |
Klasy postaci, które należy zachować w tokenach. |
ElisionTokenFilter
Usuwa elisje. Na przykład "l'avion" (samolot) zostanie przekształcony w "avion" (samolot). Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
| articles |
string[] |
Zestaw artykułów do usunięcia. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
ErrorAdditionalInfo
Dodatkowe informacje o błędzie zarządzania zasobami.
| Nazwa | Typ | Opis |
|---|---|---|
| info |
object |
Dodatkowe informacje. |
| type |
string |
Dodatkowy typ informacji. |
ErrorDetail
Szczegóły błędu.
| Nazwa | Typ | Opis |
|---|---|---|
| additionalInfo |
Dodatkowe informacje o błędzie. |
|
| code |
string |
Kod błędu. |
| details |
Szczegóły błędu. |
|
| message |
string |
Komunikat o błędzie. |
| target |
string |
Element docelowy błędu. |
ErrorResponse
Odpowiedź na błąd
| Nazwa | Typ | Opis |
|---|---|---|
| error |
Obiekt błędu. |
ExhaustiveKnnParameters
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN.
| Nazwa | Typ | Opis |
|---|---|---|
| metric |
Metryka podobieństwa, która ma być używana do porównań wektorowych. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Zawiera opcje konfiguracyjne specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, który będzie przeprowadzał wyszukiwanie siłowe w całym indeksie wektorowym.
| Nazwa | Typ | Opis |
|---|---|---|
| exhaustiveKnnParameters |
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN. |
|
| kind |
string:
exhaustive |
Nazwa rodzaju algorytmu konfigurowanego do użycia z wyszukiwaniem wektorowym. |
| name |
string |
Nazwa, która ma być skojarzona z tą konkretną konfiguracją. |
FreshnessScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny.
| Nazwa | Typ | Opis |
|---|---|---|
| boost |
number (double) |
Mnożnik dla surowego wyniku. Musi być liczbą dodatnią nierówną 1,0. |
| fieldName |
string |
Nazwa pola używanego jako dane wejściowe dla funkcji oceniania. |
| freshness |
Wartości parametrów funkcji oceny świeżości. |
|
| interpolation |
Wartość wskazująca, w jaki sposób zwiększanie będzie interpolowane między wynikami dokumentu; Domyślnie jest to "Liniowy". |
|
| type |
string:
freshness |
Wskazuje typ funkcji, która ma być używana. Prawidłowe wartości to wielkość, świeżość, odległość i tag. Typ funkcji musi być pisany małymi literami. |
FreshnessScoringParameters
Udostępnia wartości parametrów do funkcji oceniania świeżości.
| Nazwa | Typ | Opis |
|---|---|---|
| boostingDuration |
string (duration) |
Okres wygaśnięcia, po upływie którego zwiększanie zostanie zatrzymane dla określonego dokumentu. |
HnswParameters
Zawiera parametry specyficzne dla algorytmu HNSW.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie indeksowania. Zwiększenie tego parametru może poprawić jakość indeksu, kosztem wydłużenia czasu indeksowania. W pewnym momencie zwiększenie tego parametru prowadzi do malejących zwrotów. |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie wyszukiwania. Zwiększenie tego parametru może poprawić wyniki wyszukiwania, kosztem wolniejszego wyszukiwania. W pewnym momencie zwiększenie tego parametru prowadzi do malejących zwrotów. |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
Liczba dwukierunkowych połączeń tworzonych dla każdego nowego elementu podczas budowy. Zwiększenie tej wartości parametru może poprawić przywoływanie i skrócić czas pobierania zestawów danych o wysokiej wymiarowości wewnętrznej kosztem zwiększonego zużycia pamięci i dłuższego czasu indeksowania. |
| metric |
Metryka podobieństwa, która ma być używana do porównań wektorowych. |
HnswVectorSearchAlgorithmConfiguration
Zawiera opcje konfiguracyjne specyficzne dla algorytmu HNSW przybliżonych najbliższych sąsiadów używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje regulowany kompromis między szybkością wyszukiwania a dokładnością.
| Nazwa | Typ | Opis |
|---|---|---|
| hnswParameters |
Zawiera parametry specyficzne dla algorytmu HNSW. |
|
| kind |
string:
hnsw |
Nazwa rodzaju algorytmu konfigurowanego do użycia z wyszukiwaniem wektorowym. |
| name |
string |
Nazwa, która ma być skojarzona z tą konkretną konfiguracją. |
InputFieldMappingEntry
Mapowanie pól wejściowych dla umiejętności.
| Nazwa | Typ | Opis |
|---|---|---|
| inputs |
Rekurencyjne dane wejściowe używane podczas tworzenia typu złożonego. |
|
| name |
string |
Nazwa danych wejściowych. |
| source |
string |
Źródło danych wejściowych. |
| sourceContext |
string |
Kontekst źródłowy używany do wybierania rekurencyjnych danych wejściowych. |
KeepTokenFilter
Filtr tokenów, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| keepWords |
string[] |
Lista słów, które należy zachować. |
|
| keepWordsCase |
boolean |
False |
Wartość wskazująca, czy wszystkie wyrazy mają być najpierw pisane małymi literami. Wartość domyślna to „false”. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
KeywordMarkerTokenFilter
Oznacza terminy jako słowa kluczowe. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| ignoreCase |
boolean |
False |
Wartość wskazująca, czy wielkość liter ma być ignorowana. Jeśli to prawda, wszystkie słowa są najpierw konwertowane na małe litery. Wartość domyślna to „false”. |
| keywords |
string[] |
Lista słów, które mają być oznaczane jako słowa kluczowe. |
|
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
KeywordTokenizer
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| bufferSize |
integer (int32) |
256 |
Rozmiar bufora odczytu w bajtach. Wartość domyślna to 256. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
KeywordTokenizerV2
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
Maksymalna długość tokena. Wartość domyślna to 256. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
LengthTokenFilter
Usuwa słowa, które są za długie lub za krótkie. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| max |
integer (int32) maximum: 300 |
300 |
Maksymalna długość w znakach. Wartość domyślna i maksymalna to 300. |
| min |
integer (int32) maximum: 300 |
0 |
Minimalna długość w znakach. Wartość domyślna to 0. Maksymalnie 300. Musi być mniejsza niż wartość max. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
LexicalAnalyzerName
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.
| Wartość | Opis |
|---|---|
| ar.microsoft |
Microsoft Analyzer dla języka arabskiego. |
| ar.lucene |
Analizator Lucene dla języka arabskiego. |
| hy.lucene |
Analizator Lucene dla języka ormiańskiego. |
| bn.microsoft |
Microsoft Analyzer dla języka Bangla. |
| eu.lucene |
Analizator Lucene dla języka baskijskiego. |
| bg.microsoft |
Microsoft Analyzer dla języka bułgarskiego. |
| bg.lucene |
Analizator Lucene dla języka bułgarskiego. |
| ca.microsoft |
Microsoft analyzer dla języka katalońskiego. |
| ca.lucene |
Analizator Lucene dla języka katalońskiego. |
| zh-Hans.microsoft |
Microsoft Analyzer dla języka chińskiego (uproszczonego). |
| zh-Hans.lucene |
Analizator Lucene dla języka chińskiego (uproszczony). |
| zh-Hant.microsoft |
Microsoft Analyzer dla języka chińskiego (tradycyjnego). |
| zh-Hant.lucene |
Analizator Lucene dla języka chińskiego (tradycyjnego). |
| hr.microsoft |
Microsoft Analyzer dla języka chorwackiego. |
| cs.microsoft |
Microsoft Analyzer dla języka czeskiego. |
| cs.lucene |
Analizator Lucene dla Czech. |
| da.microsoft |
Microsoft Analyzer dla języka duńskiego. |
| da.lucene |
Analizator Lucene dla języka duńskiego. |
| nl.microsoft |
Microsoft Analyzer dla języka niderlandzkiego. |
| nl.lucene |
Analizator Lucene dla języka niderlandzkiego. |
| en.microsoft |
Microsoft Analyzer dla języka angielskiego. |
| en.lucene |
Analizator Lucene dla języka angielskiego. |
| et.microsoft |
Microsoft Analyzer dla języka estońskiego. |
| fi.microsoft |
Microsoft Analyzer dla języka fińskiego. |
| fi.lucene |
Analizator Lucene dla języka fińskiego. |
| fr.microsoft |
Microsoft Analyzer dla języka francuskiego. |
| fr.lucene |
Analizator Lucene dla języka francuskiego. |
| gl.lucene |
Analizator Lucene dla języka galicyjskiego. |
| de.microsoft |
Microsoft Analyzer dla języka niemieckiego. |
| de.lucene |
Analizator Lucene dla języka niemieckiego. |
| el.microsoft |
Microsoft Analyzer dla języka greckiego. |
| el.lucene |
Analizator Lucene dla języka greckiego. |
| gu.microsoft |
Microsoft Analyzer dla języka gudżarati. |
| he.microsoft |
Microsoft Analyzer dla języka hebrajskiego. |
| hi.microsoft |
Microsoft Analyzer dla języka hindi. |
| hi.lucene |
Lucene analyzer dla języka hindi. |
| hu.microsoft |
Microsoft Analyzer dla języka węgierskiego. |
| hu.lucene |
Analizator Lucene dla języka węgierskiego. |
| is.microsoft |
Microsoft Analyzer dla języka islandzkiego. |
| id.microsoft |
Microsoft Analyzer dla języka indonezyjskiego (Bahasa). |
| id.lucene |
Analizator Lucene dla języka indonezyjskiego. |
| ga.lucene |
Analizator Lucene dla języka irlandzkiego. |
| it.microsoft |
Microsoft Analyzer dla języka włoskiego. |
| it.lucene |
Analizator Lucene dla języka włoskiego. |
| ja.microsoft |
Microsoft Analyzer dla języka japońskiego. |
| ja.lucene |
Analizator Lucene dla języka japońskiego. |
| kn.microsoft |
Microsoft Analyzer dla Kannada. |
| ko.microsoft |
Microsoft Analyzer dla języka koreańskiego. |
| ko.lucene |
Analizator Lucene dla języka koreańskiego. |
| lv.microsoft |
Microsoft Analyzer dla języka łotewskiego. |
| lv.lucene |
Lucene analyzer dla języka łotewskiego. |
| lt.microsoft |
Microsoft Analyzer dla języka litewskiego. |
| ml.microsoft |
Microsoft Analyzer dla języka malayalam. |
| ms.microsoft |
Microsoft Analyzer dla języka malajskiego (łacińskiego). |
| mr.microsoft |
Microsoft Analyzer dla Marathi. |
| nb.microsoft |
Microsoft Analyzer dla języka norweskiego (Bokmål). |
| no.lucene |
Analizator Lucene dla języka norweskiego. |
| fa.lucene |
Analizator Lucene dla języka perskiego. |
| pl.microsoft |
Microsoft analyzer dla języka polskiego. |
| pl.lucene |
Analizator Lucene dla języka polskiego. |
| pt-BR.microsoft |
Microsoft Analyzer dla języka portugalskiego (Brazylia). |
| pt-BR.lucene |
Analizator Lucene dla języka portugalskiego (Brazylia). |
| pt-PT.microsoft |
Microsoft Analyzer dla języka portugalskiego (Portugalia). |
| pt-PT.lucene |
Analizator Lucene dla języka portugalskiego (Portugalia). |
| pa.microsoft |
Microsoft Analyzer dla języka pendżabskiego. |
| ro.microsoft |
Microsoft Analyzer dla języka rumuńskiego. |
| ro.lucene |
Analizator Lucene dla języka rumuńskiego. |
| ru.microsoft |
Microsoft Analyzer dla języka rosyjskiego. |
| ru.lucene |
Analizator Lucene dla języka rosyjskiego. |
| sr-cyrillic.microsoft |
Microsoft Analyzer dla języka serbskiego (cyrylica). |
| sr-latin.microsoft |
Microsoft Analyzer dla języka serbskiego (łacińskiego). |
| sk.microsoft |
Microsoft Analyzer dla języka słowackiego. |
| sl.microsoft |
Microsoft Analyzer dla języka słoweńskiego. |
| es.microsoft |
Microsoft Analyzer dla języka hiszpańskiego. |
| es.lucene |
Analizator Lucene dla języka hiszpańskiego. |
| sv.microsoft |
Microsoft Analyzer dla języka szwedzkiego. |
| sv.lucene |
Analizator Lucene dla języka szwedzkiego. |
| ta.microsoft |
Microsoft Analyzer dla języka tamilskiego. |
| te.microsoft |
Microsoft Analyzer dla języka telugu. |
| th.microsoft |
Microsoft Analyzer dla języka tajskiego. |
| th.lucene |
Analizator Lucene dla języka tajskiego. |
| tr.microsoft |
Microsoft Analyzer dla języka tureckiego. |
| tr.lucene |
Analizator Lucene dla języka tureckiego. |
| uk.microsoft |
Microsoft Analyzer dla języka ukraińskiego. |
| ur.microsoft |
Microsoft Analyzer dla języka urdu. |
| vi.microsoft |
Microsoft Analyzer dla wietnamskiego. |
| standard.lucene |
Standardowy analizator Lucene. |
| standardasciifolding.lucene |
Standardowy analizator składany ASCII Lucene. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
Dzieli tekst na miejsca niebędące literami; Stosuje filtry tokenów małych liter i stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
Analizator korzystający z tokenizatora białych znaków. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
Definiuje nazwy wszystkich normalizatorów tekstu obsługiwanych przez wyszukiwarkę.
| Wartość | Opis |
|---|---|
| asciifolding |
Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
Usuwa elisje. Na przykład "l'avion" (samolot) zostanie przekształcony w "avion" (samolot). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
Normalizuje tekst tokenu na małe litery. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
Standardowy normalizator, który składa się z małych liter i asciifoldingu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
Normalizuje tekst tokenu do wielkich liter. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.
LimitTokenFilter
Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| consumeAllTokens |
boolean |
False |
Wartość wskazująca, czy wszystkie tokeny z danych wejściowych muszą być używane, nawet jeśli maxTokenCount zostanie osiągnięty. Wartość domyślna to „false”. |
| maxTokenCount |
integer (int32) |
1 |
Maksymalna liczba tokenów do wyprodukowania. Wartość domyślna to 1. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
LuceneStandardAnalyzer
Standardowy analizator Apache Lucene; Składa się ze standardowego tokenizatora, filtru małych liter i filtru zatrzymania.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maksymalna długość tokena. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków. |
| name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| stopwords |
string[] |
Lista słów zatrzymanych. |
LuceneStandardTokenizer
Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| maxTokenLength |
integer (int32) |
255 |
Maksymalna długość tokena. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
LuceneStandardTokenizerV2
Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maksymalna długość tokena. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
MagnitudeScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego.
| Nazwa | Typ | Opis |
|---|---|---|
| boost |
number (double) |
Mnożnik dla surowego wyniku. Musi być liczbą dodatnią nierówną 1,0. |
| fieldName |
string |
Nazwa pola używanego jako dane wejściowe dla funkcji oceniania. |
| interpolation |
Wartość wskazująca, w jaki sposób zwiększanie będzie interpolowane między wynikami dokumentu; Domyślnie jest to "Liniowy". |
|
| magnitude |
Wartości parametrów funkcji oceniania wielkości. |
|
| type |
string:
magnitude |
Wskazuje typ funkcji, która ma być używana. Prawidłowe wartości to wielkość, świeżość, odległość i tag. Typ funkcji musi być pisany małymi literami. |
MagnitudeScoringParameters
Dostarcza wartości parametrów do funkcji oceniania wielkości.
| Nazwa | Typ | Opis |
|---|---|---|
| boostingRangeEnd |
number (double) |
Wartość pola, na której kończy się boosting. |
| boostingRangeStart |
number (double) |
Wartość pola, od której rozpoczyna się boosting. |
| constantBoostBeyondRange |
boolean |
wartość wskazująca, czy należy zastosować stałe zwiększenie dla wartości pola wykraczających poza wartość końcową zakresu; Wartość domyślna to false. |
MappingCharFilter
Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mappings. Dopasowanie jest zachłanne (wygrywa najdłuższe dopasowanie wzoru w danym punkcie). Zamiana może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru char. |
| mappings |
string[] |
Wykaz odwzorowań w następującym formacie: "a=>b" (wszystkie wystąpienia znaku "a" zostaną zastąpione znakiem "b"). |
| name |
string |
Nazwa filtru znaków. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
MicrosoftLanguageStemmingTokenizer
Dzieli tekst za pomocą reguł specyficznych dla języka i redukuje słowa do ich podstawowych form.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| isSearchTokenizer |
boolean |
False |
Wartość wskazująca, w jaki sposób tokenizator jest używany. Ustaw wartość true, jeśli jest używany jako tokenizator wyszukiwania, ustaw wartość false, jeśli jest używany jako tokenizator indeksowania. Wartość domyślna to „false”. |
| language |
Język, którego należy używać. Wartość domyślna to język angielski. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maksymalna długość tokena. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw dzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest dzielony na podstawie ustawionej maksymalnej długości tokena. Wartość domyślna to 255. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
MicrosoftLanguageTokenizer
Tekst jest dzielony przy użyciu reguł specyficznych dla języka.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| isSearchTokenizer |
boolean |
False |
Wartość wskazująca, w jaki sposób tokenizator jest używany. Ustaw wartość true, jeśli jest używany jako tokenizator wyszukiwania, ustaw wartość false, jeśli jest używany jako tokenizator indeksowania. Wartość domyślna to „false”. |
| language |
Język, którego należy używać. Wartość domyślna to język angielski. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maksymalna długość tokena. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw dzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest dzielony na podstawie ustawionej maksymalnej długości tokena. Wartość domyślna to 255. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
MicrosoftStemmingTokenizerLanguage
Wyświetla listę języków obsługiwanych przez tokenizator pochodzenia języka firmy Microsoft.
| Wartość | Opis |
|---|---|
| arabic |
Wybiera tokenizator macierzysty firmy Microsoft dla języka arabskiego. |
| bangla |
Wybiera tokenizator macierzysty firmy Microsoft dla języka Bangla. |
| bulgarian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka bułgarskiego. |
| catalan |
Wybiera tokenizator macierzysty firmy Microsoft dla języka katalońskiego. |
| croatian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka chorwackiego. |
| czech |
Wybiera tokenizator macierzysty firmy Microsoft dla języka czeskiego. |
| danish |
Wybiera tokenizator macierzysty firmy Microsoft dla języka duńskiego. |
| dutch |
Wybiera tokenizator macierzysty firmy Microsoft dla języka niderlandzkiego. |
| english |
Wybiera tokenizator macierzysty firmy Microsoft dla języka angielskiego. |
| estonian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka estońskiego. |
| finnish |
Wybiera tokenizator macierzysty firmy Microsoft dla języka fińskiego. |
| french |
Wybiera tokenizator macierzysty firmy Microsoft dla języka francuskiego. |
| german |
Wybiera tokenizator macierzysty firmy Microsoft dla języka niemieckiego. |
| greek |
Wybiera tokenizator macierzysty firmy Microsoft dla języka greckiego. |
| gujarati |
Wybiera tokenizator macierzysty firmy Microsoft dla języka gudżarati. |
| hebrew |
Wybiera tokenizator macierzysty firmy Microsoft dla języka hebrajskiego. |
| hindi |
Wybiera tokenizator macierzysty firmy Microsoft dla języka hindi. |
| hungarian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka węgierskiego. |
| icelandic |
Wybiera tokenizator macierzysty firmy Microsoft dla języka islandzkiego. |
| indonesian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka indonezyjskiego. |
| italian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka włoskiego. |
| kannada |
Wybiera tokenizator macierzysty firmy Microsoft dla Kannada. |
| latvian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka łotewskiego. |
| lithuanian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka litewskiego. |
| malay |
Wybiera tokenizator macierzysty firmy Microsoft dla języka malajskiego. |
| malayalam |
Wybiera tokenizator macierzysty firmy Microsoft dla języka malajalam. |
| marathi |
Wybiera tokenizator macierzysty firmy Microsoft dla języka Marathi. |
| norwegianBokmaal |
Wybiera tokenizator macierzysty firmy Microsoft dla języka norweskiego (Bokmål). |
| polish |
Wybiera tokenizator macierzysty Microsoft dla języka polskiego. |
| portuguese |
Wybiera tokenizator macierzysty firmy Microsoft dla języka portugalskiego. |
| portugueseBrazilian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka portugalskiego (Brazylia). |
| punjabi |
Wybiera tokenizator macierzysty firmy Microsoft dla języka pendżabskiego. |
| romanian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka rumuńskiego. |
| russian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka rosyjskiego. |
| serbianCyrillic |
Wybiera tokenizator macierzysty firmy Microsoft dla języka serbskiego (cyrylica). |
| serbianLatin |
Wybiera tokenizator macierzysty firmy Microsoft dla języka serbskiego (łacińskiego). |
| slovak |
Wybiera tokenizator macierzysty firmy Microsoft dla języka słowackiego. |
| slovenian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka słoweńskiego. |
| spanish |
Wybiera tokenizator macierzysty firmy Microsoft dla języka hiszpańskiego. |
| swedish |
Wybiera tokenizator macierzysty firmy Microsoft dla języka szwedzkiego. |
| tamil |
Wybiera tokenizator macierzysty firmy Microsoft dla języka tamilskiego. |
| telugu |
Wybiera tokenizator macierzysty firmy Microsoft dla języka telugu. |
| turkish |
Wybiera tokenizator macierzysty firmy Microsoft dla języka tureckiego. |
| ukrainian |
Wybiera tokenizator macierzysty firmy Microsoft dla języka ukraińskiego. |
| urdu |
Wybiera tokenizator macierzysty firmy Microsoft dla języka urdu. |
MicrosoftTokenizerLanguage
Wyświetla listę języków obsługiwanych przez tokenizator języka firmy Microsoft.
| Wartość | Opis |
|---|---|
| bangla |
Wybiera tokenizator firmy Microsoft dla języka Bangla. |
| bulgarian |
Wybiera tokenizator firmy Microsoft dla języka bułgarskiego. |
| catalan |
Wybiera tokenizator firmy Microsoft dla języka katalońskiego. |
| chineseSimplified |
Wybiera tokenizator firmy Microsoft dla języka chińskiego (uproszczonego). |
| chineseTraditional |
Wybiera tokenizator firmy Microsoft dla języka chińskiego (tradycyjnego). |
| croatian |
Wybiera tokenizator firmy Microsoft dla języka chorwackiego. |
| czech |
Wybiera tokenizator firmy Microsoft dla języka czeskiego. |
| danish |
Wybiera tokenizator firmy Microsoft dla języka duńskiego. |
| dutch |
Wybiera tokenizator firmy Microsoft dla języka niderlandzkiego. |
| english |
Wybiera tokenizator firmy Microsoft dla języka angielskiego. |
| french |
Wybiera tokenizator firmy Microsoft dla języka francuskiego. |
| german |
Wybiera tokenizator firmy Microsoft dla języka niemieckiego. |
| greek |
Wybiera tokenizator firmy Microsoft dla języka greckiego. |
| gujarati |
Wybiera tokenizator firmy Microsoft dla języka gudżarati. |
| hindi |
Wybiera tokenizator firmy Microsoft dla języka hindi. |
| icelandic |
Wybiera tokenizator firmy Microsoft dla języka islandzkiego. |
| indonesian |
Wybiera tokenizator firmy Microsoft dla języka indonezyjskiego. |
| italian |
Wybiera tokenizator firmy Microsoft dla języka włoskiego. |
| japanese |
Wybiera tokenizator firmy Microsoft dla języka japońskiego. |
| kannada |
Wybiera tokenizator firmy Microsoft dla platformy Kannada. |
| korean |
Wybiera tokenizator firmy Microsoft dla języka koreańskiego. |
| malay |
Wybiera tokenizator firmy Microsoft dla języka malajskiego. |
| malayalam |
Wybiera tokenizator firmy Microsoft dla języka malajalam. |
| marathi |
Wybiera tokenizator firmy Microsoft dla języka Marathi. |
| norwegianBokmaal |
Wybiera tokenizator firmy Microsoft dla języka norweskiego (Bokmål). |
| polish |
Wybiera tokenizator Microsoft dla języka polskiego. |
| portuguese |
Wybiera tokenizator firmy Microsoft dla języka portugalskiego. |
| portugueseBrazilian |
Wybiera tokenizator firmy Microsoft dla języka portugalskiego (Brazylia). |
| punjabi |
Wybiera tokenizator firmy Microsoft dla języka pendżabskiego. |
| romanian |
Wybiera tokenizator firmy Microsoft dla języka rumuńskiego. |
| russian |
Wybiera tokenizator firmy Microsoft dla języka rosyjskiego. |
| serbianCyrillic |
Wybiera tokenizator firmy Microsoft dla języka serbskiego (cyrylica). |
| serbianLatin |
Wybiera tokenizator firmy Microsoft dla języka serbskiego (łacińskiego). |
| slovenian |
Wybiera tokenizator firmy Microsoft dla języka słoweńskiego. |
| spanish |
Wybiera tokenizator firmy Microsoft dla języka hiszpańskiego. |
| swedish |
Wybiera tokenizator firmy Microsoft dla języka szwedzkiego. |
| tamil |
Wybiera tokenizator firmy Microsoft dla języka tamilskiego. |
| telugu |
Wybiera tokenizator firmy Microsoft dla języka telugu. |
| thai |
Wybiera tokenizator firmy Microsoft dla języka tajskiego. |
| ukrainian |
Wybiera tokenizator firmy Microsoft dla języka ukraińskiego. |
| urdu |
Wybiera tokenizator firmy Microsoft dla języka urdu. |
| vietnamese |
Wybiera tokenizator firmy Microsoft dla języka wietnamskiego. |
NGramTokenFilter
Generuje n-gramy o podanych rozmiarach. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| maxGram |
integer (int32) |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. |
| minGram |
integer (int32) |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Musi być mniejsza niż wartość maxGram. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
NGramTokenFilterV2
Generuje n-gramy o podanych rozmiarach. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalnie 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Maksymalnie 300. Musi być mniejsza niż wartość maxGram. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
NGramTokenizer
Tokenizuje dane wejściowe na n-gramy o podanych rozmiarach. Ten tokenizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalnie 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Maksymalnie 300. Musi być mniejsza niż wartość maxGram. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| tokenChars |
Klasy postaci, które należy zachować w tokenach. |
OutputFieldMappingEntry
Mapowanie pola wyjściowego dla umiejętności.
| Nazwa | Typ | Opis |
|---|---|---|
| name |
string |
Nazwa danych wyjściowych zdefiniowanych przez umiejętność. |
| targetName |
string |
Docelowa nazwa danych wyjściowych. Jest to opcjonalne i domyślnie ma nazwę użytkownika. |
PathHierarchyTokenizerV2
Tokenizator dla hierarchii przypominających ścieżki. Ten tokenizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| delimiter |
string (char) |
/ |
Znak ogranicznika, który ma być używany. Wartość domyślna to "/". |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
Maksymalna długość tokena. Wartość domyślna i maksymalna to 300. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| replacement |
string (char) |
/ |
Wartość, która, jeśli jest ustawiona, zastępuje znak ogranicznika. Wartość domyślna to "/". |
| reverse |
boolean |
False |
Wartość wskazująca, czy tokeny mają być generowane w odwrotnej kolejności. Wartość domyślna to „false”. |
| skip |
integer (int32) |
0 |
Liczba początkowych tokenów do pominięcia. Wartość domyślna to 0. |
PatternAnalyzer
Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
|
| flags |
Flagi wyrażeń regularnych. |
||
| lowercase |
boolean |
True |
Wartość wskazująca, czy terminy powinny być pisane małymi literami. Wartość domyślna to true. |
| name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| pattern |
string |
\W+ |
Wzorzec wyrażenia regularnego pasujący do separatorów tokenów. Wartość domyślna to wyrażenie, które pasuje do co najmniej jednego znaku innego niż słowo. |
| stopwords |
string[] |
Lista słów zatrzymanych. |
PatternCaptureTokenFilter
Używa wyrażeń regularnych języka Java do emitowania wielu tokenów — po jednym dla każdej grupy przechwytywania w co najmniej jednym wzorcu. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| patterns |
string[] |
Lista wzorców do dopasowania do każdego tokenu. |
|
| preserveOriginal |
boolean |
True |
Wartość wskazująca, czy zwrócić oryginalny token, nawet jeśli jeden z wzorców jest zgodny. Wartość domyślna to true. |
PatternReplaceCharFilter
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków do zachowania i wzorca zastępczego do identyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zamianę "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru char. |
| name |
string |
Nazwa filtru znaków. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
| pattern |
string |
Wzorzec wyrażenia regularnego. |
| replacement |
string |
Tekst zastępczy. |
PatternReplaceTokenFilter
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków do zachowania i wzorca zastępczego do identyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zamianę "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
| pattern |
string |
Wzorzec wyrażenia regularnego. |
| replacement |
string |
Tekst zastępczy. |
PatternTokenizer
Tokenizator, który używa dopasowania wzorca wyrażeń regularnych do konstruowania odrębnych tokenów. Ten tokenizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| flags |
Flagi wyrażeń regularnych. |
||
| group |
integer (int32) |
-1 |
Liczba porządkowa liczona od zera pasującej grupy we wzorcu wyrażenia regularnego do wyodrębnienia do tokenów. Użyj -1, jeśli chcesz użyć całego wzorca, aby podzielić dane wejściowe na tokeny, niezależnie od pasujących grup. Wartość domyślna to -1. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| pattern |
string |
\W+ |
Wzorzec wyrażenia regularnego pasujący do separatorów tokenów. Wartość domyślna to wyrażenie, które pasuje do co najmniej jednego znaku innego niż słowo. |
PhoneticEncoder
Identyfikuje typ kodera fonetycznego, który ma być używany z filtrem PhoneticTokenFilter.
| Wartość | Opis |
|---|---|
| metaphone |
Koduje token na wartość Metaphone. |
| doubleMetaphone |
Koduje token na podwójną wartość metaphone. |
| soundex |
Koduje token na wartość Soundex. |
| refinedSoundex |
Koduje token na wartość Refined Soundex. |
| caverphone1 |
Koduje token na wartość Caverphone 1.0. |
| caverphone2 |
Koduje token do wartości Caverphone 2.0. |
| cologne |
Koduje token na wartość fonetyczną kolońską. |
| nysiis |
Koduje token na wartość NYSIIS. |
| koelnerPhonetik |
Koduje token przy użyciu algorytmu Kölner Phonetik. |
| haasePhonetik |
Koduje token przy użyciu udoskonalenia algorytmu Kölner Phonetik przez Haase. |
| beiderMorse |
Koduje token na wartość Beider-Morse. |
PhoneticTokenFilter
Utwórz tokeny dla dopasowań fonetycznych. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| encoder | metaphone |
Koder fonetyczny, który ma być używany. Wartość domyślna to "metaphone". |
|
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| replace |
boolean |
True |
Wartość wskazująca, czy zakodowane tokeny powinny zastąpić oryginalne tokeny. W przypadku wartości false zakodowane tokeny są dodawane jako synonimy. Wartość domyślna to true. |
PrioritizedFields
Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi.
| Nazwa | Typ | Opis |
|---|---|---|
| prioritizedContentFields |
Definiuje pola zawartości, które mają być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać tekst w formie języka naturalnego. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa. |
|
| prioritizedKeywordsFields |
Definiuje pola słów kluczowych, które mają być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać listę słów kluczowych. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa. |
|
| titleField |
Definiuje pole tytułu, które ma być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi. Jeśli w indeksie nie ma pola tytułu, pozostaw to pole puste. |
RankingOrder
Reprezentuje wynik, który ma być używany do sortowania dokumentów.
| Wartość | Opis |
|---|---|
| BoostedRerankerScore |
Ustawia porządek sortowania jako BoostedRerankerScore |
| RerankerScore |
Ustawia porządek sortowania jako ReRankerScore |
RegexFlags
Definiuje flagi, które można łączyć w celu kontrolowania sposobu używania wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorców.
| Wartość | Opis |
|---|---|
| CANON_EQ |
Umożliwia równoważność kanoniczną. |
| CASE_INSENSITIVE |
Włącza dopasowywanie bez uwzględniania wielkości liter. |
| COMMENTS |
Zezwala na białe znaki i komentarze we wzorcu. |
| DOTALL |
Włącza tryb kropki. |
| LITERAL |
Umożliwia dosłowne analizowanie wzorca. |
| MULTILINE |
Włącza tryb wielowierszowy. |
| UNICODE_CASE |
Umożliwia składanie kopert z uwzględnieniem standardu Unicode. |
| UNIX_LINES |
Włącza tryb linii uniksowych. |
RescoringOptions
Zawiera opcje ponownego odtwarzania.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| defaultOversampling |
number (double) |
Domyślny współczynnik nadpróbkowania. Nadmierne próbkowanie pobiera większy zestaw potencjalnych dokumentów, aby zrekompensować utratę rozdzielczości spowodowaną kwantyzacją. Zwiększa to zestaw wyników, które zostaną ponownie ocenione na wektorach o pełnej precyzji. Minimalna wartość to 1, co oznacza brak nadpróbkowania (1x). Ten parametr można ustawić tylko wtedy, gdy wartość "enableRescoring" ma wartość true. Wyższe wartości poprawiają przywoływanie kosztem opóźnienia. |
|
| enableRescoring |
boolean |
True |
Jeśli ustawiona jest wartość true, po początkowym wyszukiwaniu w skompresowanych wektorach wyniki podobieństwa są ponownie obliczane przy użyciu wektorów o pełnej precyzji. Poprawi to przywoływanie kosztem opóźnień. |
| rescoreStorageMethod | preserveOriginals |
Steruje metodą przechowywania oryginalnych wektorów. To ustawienie jest niezmienne. |
ScalarQuantizationParameters
Zawiera parametry specyficzne dla kwantyzacji skalarnej.
| Nazwa | Typ | Opis |
|---|---|---|
| quantizedDataType |
Skwantyzowany typ danych skompresowanych wartości wektorowych. |
ScalarQuantizationVectorSearchCompressionConfiguration
Zawiera opcje konfiguracyjne specyficzne dla metody kompresji kwantyzacji skalarnej używanej podczas indeksowania i wykonywania zapytań.
| Nazwa | Typ | Opis |
|---|---|---|
| kind |
string:
scalar |
Nazwa rodzaju metody kompresji konfigurowanej do użycia z wyszukiwaniem wektorowym. |
| name |
string |
Nazwa, która ma być skojarzona z tą konkretną konfiguracją. |
| rescoringOptions |
Zawiera opcje ponownego odtwarzania. |
|
| scalarQuantizationParameters |
Zawiera parametry specyficzne dla kwantyzacji skalarnej. |
|
| truncationDimension |
integer (int32) |
Liczba wymiarów, do których mają zostać obcięte wektory. Obcinanie wektorów zmniejsza ich rozmiar i ilość danych, które muszą zostać przesłane podczas wyszukiwania. Może to zaoszczędzić na kosztach pamięci masowej i poprawić wydajność wyszukiwania kosztem zapamiętywania. Powinien być używany tylko do osadzania wytrenowanego za pomocą Matryoshka Representation Learning (MRL), takiego jak OpenAI text-embedding-3-large (small). Wartość domyślna to null, co oznacza brak obcinania. |
ScoringFunctionAggregation
Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania.
| Wartość | Opis |
|---|---|
| sum |
Zwiększ wyniki o sumę wszystkich wyników funkcji oceniania. |
| average |
Zwiększ wyniki o średnią wszystkich wyników funkcji oceniania. |
| minimum |
Zwiększ wyniki o minimum wszystkich wyników funkcji oceniania. |
| maximum |
Zwiększ wyniki o maksymalną liczbę wszystkich wyników funkcji oceniania. |
| firstMatching |
Zwiększ wyniki, korzystając z pierwszej odpowiedniej funkcji punktacji w profilu oceniania. |
ScoringFunctionInterpolation
Definiuje funkcję używaną do interpolacji zwiększania wyników w zakresie dokumentów.
| Wartość | Opis |
|---|---|
| linear |
Zwiększa wyniki o wartość malejącą liniowo. Jest to domyślna interpolacja dla funkcji oceniania. |
| constant |
Zwiększa wyniki o stały czynnik. |
| quadratic |
Zwiększa wyniki o wartość, która zmniejsza się kwadratowo. Wzmocnienia zmniejszają się powoli w przypadku wyższych wyników i szybciej w miarę zmniejszania się wyników. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów. |
| logarithmic |
Zwiększa wyniki o wartość, która maleje logarytmicznie. Wzmocnienia zmniejszają się szybko w przypadku wyższych wyników i wolniej w miarę zmniejszania się wyników. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów. |
ScoringProfile
Definiuje parametry indeksu wyszukiwania, które wpływają na ocenianie w zapytaniach wyszukiwania.
| Nazwa | Typ | Opis |
|---|---|---|
| functionAggregation |
Wartość wskazująca, w jaki sposób powinny być łączone wyniki poszczególnych funkcji oceniania. Wartość domyślna to "Suma". Ignorowane, jeśli nie ma funkcji oceniania. |
|
| functions | ScoringFunction[]: |
Zbiór funkcji, które wpływają na punktację dokumentów. |
| name |
string |
Nazwa profilu oceniania. |
| text |
Parametry, które zwiększają ocenianie na podstawie dopasowań tekstu w niektórych polach indeksu. |
SearchField
Reprezentuje pole w definicji indeksu, która opisuje nazwę, typ danych i zachowanie wyszukiwania pola.
| Nazwa | Typ | Opis |
|---|---|---|
| analyzer |
Nazwa analizatora, który ma być używany dla pola. Ta opcja może być używana tylko z polami z możliwością wyszukiwania i nie można jej ustawić razem z searchAnalyzer lub indexAnalyzer. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych. |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
Wymiarowość pola wektorowego. |
| facetable |
boolean |
Wartość wskazująca, czy włączyć odwoływanie się do pola w zapytaniach aspektowych. Zazwyczaj używane w prezentacji wyników wyszukiwania, które obejmują liczbę trafień według kategorii (na przykład wyszukiwanie aparatów cyfrowych i wyświetlanie trafień według marki, megapikseli, ceny itd.). Ta właściwość musi mieć wartość null dla pól złożonych. Pola typu Edm.GeographyPoint lub Collection(Edm.GeographyPoint) nie mogą być aspektowalne. Wartość domyślna to true dla wszystkich innych pól prostych. |
| fields |
Lista pól podrzędnych, jeśli jest to pole typu Edm.ComplexType lub Collection(Edm.ComplexType). Musi mieć wartość null lub pustą w przypadku pól prostych. |
|
| filterable |
boolean |
Wartość wskazująca, czy włączyć odwoływanie się do pola w $filter kwerendach. Filterable różni się od searchable sposobem obsługi ciągów. Pola typu Edm.String lub Collection(Edm.String), które można filtrować, nie są dzielone na wyrazy, więc porównania dotyczą tylko dokładnych dopasowań. Na przykład, jeśli ustawisz takie pole f na "słoneczny dzień", $filter=f eq 'słoneczny' nie znajdzie żadnych dopasowań, ale $filter=f eq 'słoneczny dzień' będzie. Ta właściwość musi mieć wartość null dla pól złożonych. Wartość domyślna to true dla pól prostych i null dla pól złożonych. |
| indexAnalyzer |
Nazwa analizatora używanego w czasie indeksowania dla pola. Tej opcji można używać tylko w przypadku pól, które można przeszukiwać. Musi być ustawiony razem z searchAnalyzer i nie może być ustawiony razem z opcją analyzer. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego użyj właściwości Analyzer, jeśli potrzebujesz analizatora języka. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych. |
|
| key |
boolean |
Wartość wskazująca, czy pole jednoznacznie identyfikuje dokumenty w indeksie. Dokładnie jedno pole najwyższego poziomu w każdym indeksie musi być wybrane jako pole kluczowe i musi być typu Edm.String. Pola klucza mogą służyć do bezpośredniego wyszukiwania dokumentów i aktualizowania lub usuwania określonych dokumentów. Wartość domyślna to false dla pól prostych i null dla pól złożonych. |
| name |
string |
Nazwa pola, która musi być unikatowa w kolekcji pól indeksu lub pola nadrzędnego. |
| normalizer |
Nazwa normalizatora, który ma być używany dla pola. Tej opcji można używać tylko w przypadku pól z włączoną możliwością filtrowania, sortowania lub aspektowania. Po wybraniu normalizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych. |
|
| retrievable |
boolean |
Wartość wskazująca, czy pole może zostać zwrócone w wyniku wyszukiwania. Tę opcję można wyłączyć, jeśli pole (na przykład margines) ma być używane jako mechanizm filtrowania, sortowania lub oceniania, ale nie chce, aby pole było widoczne dla użytkownika końcowego. Ta właściwość musi być prawdziwa dla pól kluczowych i musi mieć wartość null dla pól złożonych. Tę właściwość można zmienić w istniejących polach. Włączenie tej właściwości nie powoduje żadnego wzrostu wymagań dotyczących magazynu indeksów. Wartość domyślna to true dla pól prostych, false dla pól wektorowych i null dla pól złożonych. |
| searchAnalyzer |
Nazwa analizatora używanego w czasie wyszukiwania pola. Tej opcji można używać tylko w przypadku pól, które można przeszukiwać. Musi być ustawiony razem z indexAnalyzer i nie może być ustawiony razem z opcją analyzer. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego użyj właściwości Analyzer, jeśli potrzebujesz analizatora języka. Ten analizator można zaktualizować na istniejącym polu. Musi mieć wartość null dla pól złożonych. |
|
| searchable |
boolean |
Wartość wskazująca, czy pole można przeszukiwać w trybie pełnotekstowym. Oznacza to, że podczas indeksowania zostanie poddany analizie, takiej jak dzielenie słów. Jeśli ustawisz pole z możliwością wyszukiwania na wartość taką jak "słoneczny dzień", wewnętrznie zostanie ono podzielone na poszczególne tokeny "słoneczny" i "dzień". Umożliwia to wyszukiwanie pełnotekstowe dla tych terminów. Pola typu Edm.String lub Collection(Edm.String) można przeszukiwać domyślnie. Ta właściwość musi mieć wartość false dla prostych pól innych typów danych innych niż ciągi i musi mieć wartość null dla pól złożonych. Uwaga: pola z możliwością wyszukiwania zużywają dodatkowe miejsce w indeksie, aby pomieścić dodatkowe tokenizowane wersje wartości pola na potrzeby wyszukiwania pełnotekstowego. Jeśli chcesz zaoszczędzić miejsce w indeksie i nie potrzebujesz pola, które ma być uwzględniane w wyszukiwaniach, ustaw wartość z możliwością wyszukiwania na wartość false. |
| sortable |
boolean |
Wartość wskazująca, czy włączyć odwoływanie się do pola w wyrażeniach $orderby. Domyślnie wyszukiwarka sortuje wyniki według wyniku, ale w wielu przypadkach użytkownicy będą chcieli sortować według pól w dokumentach. Proste pole można sortować tylko wtedy, gdy jest jednowartościowe (ma pojedynczą wartość w zakresie dokumentu nadrzędnego). Nie można sortować prostych pól kolekcji, ponieważ są one wielowartościowe. Proste pola podrzędne złożonych kolekcji są również wielowartościowe i dlatego nie można ich sortować. Dotyczy to zarówno natychmiastowego pola nadrzędnego, jak i pola przodka, czyli kolekcji złożonej. Pól złożonych nie można sortować, a właściwość sortable musi mieć wartość null dla takich pól. Wartość domyślna sortowalnych to true dla prostych pól jednowartościowych, false dla prostych pól wielowartościowych i null dla pól złożonych. |
| stored |
boolean |
Niezmienna wartość wskazująca, czy pole zostanie utrwalone oddzielnie na dysku, aby zostało zwrócone w wyniku wyszukiwania. Możesz wyłączyć tę opcję, jeśli nie planujesz zwracać zawartości pola w odpowiedzi wyszukiwania, aby zaoszczędzić na narzutach magazynu. Można to ustawić tylko podczas tworzenia indeksu i tylko dla pól wektorowych. Tej właściwości nie można zmienić dla istniejących pól ani ustawić jako false dla nowych pól. Jeśli ta właściwość jest ustawiona na false, właściwość "retrievable" musi być również ustawiona na false. Ta właściwość musi mieć wartość true lub unset dla pól kluczowych, dla nowych pól i dla pól niebędących wektorami, a także musi mieć wartość null dla pól złożonych. Wyłączenie tej właściwości zmniejszy wymagania dotyczące magazynu indeksu. Wartość domyślna to prawda dla pól wektorowych. |
| synonymMaps |
string[] |
Lista nazw map synonimów do skojarzenia z tym polem. Tej opcji można używać tylko w przypadku pól, które można przeszukiwać. Obecnie obsługiwana jest tylko jedna mapa synonimów na pole. Przypisanie mapy synonimów do pola zapewnia, że terminy zapytania przeznaczone dla tego pola są rozszerzane w czasie wykonywania zapytań przy użyciu reguł w mapie synonimów. Ten atrybut można zmienić w istniejących polach. Musi mieć wartość null lub być pustą kolekcją dla pól złożonych. |
| type |
Typ danych pola. |
|
| vectorEncoding |
Format kodowania służący do interpretowania zawartości pola. |
|
| vectorSearchProfile |
string |
Nazwa profilu wyszukiwania wektorowego, który określa algorytm i wektoryzator, które mają być używane podczas przeszukiwania pola wektorowego. |
SearchFieldDataType
Definiuje typ danych pola w indeksie wyszukiwania.
| Wartość | Opis |
|---|---|
| Edm.String |
Wskazuje, że pole zawiera ciąg znaków. |
| Edm.Int32 |
Wskazuje, że pole zawiera 32-bitową liczbę całkowitą ze znakiem. |
| Edm.Int64 |
Wskazuje, że pole zawiera 64-bitową liczbę całkowitą ze znakiem. |
| Edm.Double |
Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o podwójnej precyzji IEEE. |
| Edm.Boolean |
Wskazuje, że pole zawiera wartość logiczną (prawda lub fałsz). |
| Edm.DateTimeOffset |
Wskazuje, że pole zawiera wartość daty/godziny, w tym informacje o strefie czasowej. |
| Edm.GeographyPoint |
Wskazuje, że pole zawiera lokalizację geograficzną pod względem długości i szerokości geograficznej. |
| Edm.ComplexType |
Wskazuje, że pole zawiera co najmniej jeden obiekt złożony, który z kolei ma pola podrzędne innych typów. |
| Edm.Single |
Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o pojedynczej precyzji. Jest to prawidłowe tylko wtedy, gdy jest używane z Collection(Edm.Single). |
| Edm.Half |
Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o połowie precyzji. Jest to prawidłowe tylko wtedy, gdy jest używane z Collection(Edm.Half). |
| Edm.Int16 |
Wskazuje, że pole zawiera 16-bitową liczbę całkowitą ze znakiem. Jest to prawidłowe tylko wtedy, gdy jest używane z Collection(Edm.Int16). |
| Edm.SByte |
Wskazuje, że pole zawiera 8-bitową liczbę całkowitą ze znakiem. Jest to prawidłowe tylko wtedy, gdy jest używane z Collection(Edm.SByte). |
| Edm.Byte |
Wskazuje, że pole zawiera 8-bitową liczbę całkowitą bez znaku. Jest to ważne tylko wtedy, gdy jest używane z Collection(Edm.Byte). |
SearchIndex
Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.etag |
string |
Element ETag indeksu. |
| analyzers | LexicalAnalyzer[]: |
Analizatory indeksu. |
| charFilters | CharFilter[]: |
Znak jest filtrowany pod kątem indeksu. |
| corsOptions |
Opcje sterowania współużytkowaniem zasobów między źródłami (CORS) dla indeksu. |
|
| defaultScoringProfile |
string |
Nazwa profilu oceniania, który ma być używany, jeśli nie zostanie określony w zapytaniu. Jeśli ta właściwość nie jest ustawiona i w zapytaniu nie określono profilu oceniania, zostanie użyte domyślne ocenianie (tf-idf). |
| description |
string |
Opis indeksu. |
| encryptionKey |
Opis klucza szyfrowania utworzonego w usłudze Azure Key Vault. Ten klucz jest używany w celu zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować Twoich danych. Po zaszyfrowaniu danych na zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Możesz zmienić tę właściwość zgodnie z potrzebami, jeśli chcesz obrócić klucz szyfrowania; Twoje dane pozostaną nienaruszone. Szyfrowanie za pomocą kluczy zarządzanych przez klienta nie jest dostępne w przypadku bezpłatnych usług wyszukiwania i jest dostępne tylko w przypadku płatnych usług utworzonych 1 stycznia 2019 r. lub później. |
|
| fields |
Pola indeksu. |
|
| name |
string |
Nazwa indeksu. |
| normalizers | LexicalNormalizer[]: |
Normalizatory indeksu. |
| scoringProfiles |
Profile oceniania dla indeksu. |
|
| semantic |
Definiuje parametry indeksu wyszukiwania, które mają wpływ na możliwości semantyczne. |
|
| similarity | Similarity: |
Typ algorytmu podobieństwa, który ma być używany podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w momencie tworzenia indeksu i nie można go modyfikować na istniejących indeksach. W przypadku wartości null używany jest algorytm ClassicSimilarity. |
| suggesters |
Sugesty dotyczące indeksu. |
|
| tokenFilters |
TokenFilter[]:
|
Token filtruje indeks. |
| tokenizers | LexicalTokenizer[]: |
Tokenizatory indeksu. |
| vectorSearch |
Zawiera opcje konfiguracyjne związane z wyszukiwaniem wektorowym. |
SearchIndexerDataNoneIdentity
Czyści właściwość tożsamości źródła danych.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tożsamości. |
SearchIndexerDataUserAssignedIdentity
Określa tożsamość źródła danych, które ma być używane.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tożsamości. |
| userAssignedIdentity |
string |
W pełni kwalifikowany identyfikator zasobu platformy Azure tożsamości zarządzanej przypisanej przez użytkownika zwykle w postaci "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", który powinien zostać przypisany do usługi wyszukiwania. |
SearchResourceEncryptionKey
Klucz szyfrowania zarządzany przez klienta w usłudze Azure Key Vault. Klucze, które tworzysz i którymi zarządzasz, mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych, takich jak indeksy i mapy synonimów.
| Nazwa | Typ | Opis |
|---|---|---|
| accessCredentials |
Opcjonalne poświadczenia usługi Azure Active Directory używane do uzyskiwania dostępu do usługi Azure Key Vault. Nie jest to wymagane, jeśli zamiast tego używasz tożsamości zarządzanej. |
|
| keyVaultKeyName |
string |
Nazwa klucza usługi Azure Key Vault, który ma być używany do szyfrowania danych magazynowanych. |
| keyVaultKeyVersion |
string |
Wersja klucza usługi Azure Key Vault, która ma być używana do szyfrowania danych magazynowanych. |
| keyVaultUri |
string |
Identyfikator URI usługi Azure Key Vault, nazywany również nazwą DNS, który zawiera klucz, który ma być używany do szyfrowania danych magazynowanych. Przykładowym identyfikatorem URI może być |
SemanticConfiguration
Definiuje określoną konfigurację, która ma być używana w kontekście możliwości semantycznych.
| Nazwa | Typ | Opis |
|---|---|---|
| name |
string |
Nazwa konfiguracji semantycznej. |
| prioritizedFields |
Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi. Należy ustawić co najmniej jedną z trzech właściwości podrzędnych (titleField, prioritydKeywordsFields i prioritydContentFields). |
|
| rankingOrder |
Określa typ punktacji, który ma być używany w kolejności sortowania wyników wyszukiwania. |
SemanticField
Pole, które jest używane jako część konfiguracji semantycznej.
| Nazwa | Typ | Opis |
|---|---|---|
| fieldName |
string |
SemanticSettings
Definiuje parametry indeksu wyszukiwania, które mają wpływ na możliwości semantyczne.
| Nazwa | Typ | Opis |
|---|---|---|
| configurations |
Konfiguracje semantyczne indeksu. |
|
| defaultConfiguration |
string |
Umożliwia ustawienie nazwy domyślnej konfiguracji semantycznej w indeksie, dzięki czemu przekazywanie jej jako parametru zapytania za każdym razem jest opcjonalne. |
ShingleTokenFilter
Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| filterToken |
string |
_ |
Ciąg do wstawienia dla każdej pozycji, w której nie ma tokenu. Wartość domyślna to podkreślenie ("_"). |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
Maksymalny rozmiar gontów. Wartość domyślna i minimalna to 2. |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
Minimalny rozmiar gontu. Wartość domyślna i minimalna to 2. Musi być mniejsza niż wartość maxShingleSize. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| outputUnigrams |
boolean |
True |
Wartość wskazująca, czy strumień wyjściowy będzie zawierał tokeny wejściowe (unigramy), a także gonty. Wartość domyślna to true. |
| outputUnigramsIfNoShingles |
boolean |
False |
Wartość wskazująca, czy należy wyprowadzać unigramy dla tych czasów, gdy nie są dostępne żadne gonty. Ta właściwość ma pierwszeństwo, gdy outputUnigrams jest ustawiona na false. Wartość domyślna to „false”. |
| tokenSeparator |
string |
Ciąg znaków do użycia podczas łączenia sąsiednich żetonów w celu utworzenia gontu. Domyślnie jest to pojedyncza spacja (" "). |
SnowballTokenFilter
Filtr, który wyprowadza słowa za pomocą stemmera generowanego przez Snowball. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
| language |
Język, którego należy używać. |
|
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
SnowballTokenFilterLanguage
Język, który ma być używany dla filtru tokenów Snowball.
| Wartość | Opis |
|---|---|
| armenian |
Wybiera tokenizator macierzysty Lucene Snowball dla języka ormiańskiego. |
| basque |
Wybiera tokenizator macierzysty Lucene Snowball dla języka baskijskiego. |
| catalan |
Wybiera tokenizator macierzysty Lucene Snowball dla języka katalońskiego. |
| danish |
Wybiera tokenizator macierzysty Lucene Snowball dla języka duńskiego. |
| dutch |
Wybiera tokenizator macierzysty Lucene Snowball dla języka niderlandzkiego. |
| english |
Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego. |
| finnish |
Wybiera tokenizator macierzysty Lucene Snowball dla języka fińskiego. |
| french |
Wybiera tokenizator macierzysty Lucene Snowball dla języka francuskiego. |
| german |
Wybiera tokenizator macierzysty Lucene Snowball dla języka niemieckiego. |
| german2 |
Wybiera tokenizator stemmujący Lucene Snowball, który wykorzystuje algorytm wariantu niemieckiego. |
| hungarian |
Wybiera tokenizator macierzysty Lucene Snowball dla języka węgierskiego. |
| italian |
Wybiera tokenizator macierzysty Lucene Snowball dla języka włoskiego. |
| kp |
Wybiera tokenizator macierzysty Lucene Snowball dla języka niderlandzkiego, który wykorzystuje algorytm Kraaij-Pohlmann stemming. |
| lovins |
Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego, który korzysta z algorytmu stemowania Lovins. |
| norwegian |
Wybiera tokenizator macierzysty Lucene Snowball dla języka norweskiego. |
| porter |
Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego, który korzysta z algorytmu macierzystego Portera. |
| portuguese |
Wybiera tokenizator macierzysty Lucene Snowball dla języka portugalskiego. |
| romanian |
Wybiera tokenizator macierzysty Lucene Snowball dla języka rumuńskiego. |
| russian |
Wybiera tokenizator macierzysty Lucene Snowball dla języka rosyjskiego. |
| spanish |
Wybiera tokenizator macierzysty Lucene Snowball dla języka hiszpańskiego. |
| swedish |
Wybiera tokenizator macierzysty Lucene Snowball dla języka szwedzkiego. |
| turkish |
Wybiera tokenizator macierzysty Lucene Snowball dla języka tureckiego. |
StemmerOverrideTokenFilter
Zapewnia możliwość zastępowania innych filtrów macierzystych za pomocą niestandardowego stemmingu opartego na słowniku. Wszystkie terminy ze słownika będą oznaczone jako słowa kluczowe, aby nie były poprzedzane stemmerami w dół łańcucha. Musi być umieszczony przed jakimikolwiek filtrami trzpieniowymi. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
| rules |
string[] |
Lista reguł macierzystych w następującym formacie: "słowo => rdzeń", na przykład: "ran => run". |
StemmerTokenFilter
Filtr macierzysty specyficzny dla języka. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
| language |
Język, którego należy używać. |
|
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
StemmerTokenFilterLanguage
Język, który ma być używany dla filtru tokenu stemmer.
| Wartość | Opis |
|---|---|
| arabic |
Wybiera tokenizator macierzysty Lucene dla języka arabskiego. |
| armenian |
Wybiera tokenizator wywodzący Lucene dla języka ormiańskiego. |
| basque |
Wybiera tokenizator wywodzący Lucene dla języka baskijskiego. |
| brazilian |
Wybiera tokenizator macierzysty Lucene dla języka portugalskiego (Brazylia). |
| bulgarian |
Wybiera tokenizator macierzysty Lucene dla języka bułgarskiego. |
| catalan |
Wybiera tokenizator wywodzący Lucene dla języka katalońskiego. |
| czech |
Wybiera tokenizator macierzysty Lucene dla języka czeskiego. |
| danish |
Wybiera tokenizator macierzysty Lucene dla języka duńskiego. |
| dutch |
Wybiera tokenizator macierzysty Lucene dla języka niderlandzkiego. |
| dutchKp |
Wybiera tokenizator macierzysty Lucene dla języka niderlandzkiego, który korzysta z algorytmu stemowania Kraaij-Pohlmann. |
| english |
Wybiera tokenizator macierzysty Lucene dla języka angielskiego. |
| lightEnglish |
Wybiera tokenizator macierzysty Lucene dla języka angielskiego, który wykonuje lekkie pniunie. |
| minimalEnglish |
Wybiera tokenizator macierzysty Lucene dla języka angielskiego, który wykonuje minimalne pniu. |
| possessiveEnglish |
Wybiera tokenizator macierzysty Lucene dla języka angielskiego, który usuwa końcowe zaimki dzierżawcze ze słów. |
| porter2 |
Wybiera tokenizator macierzysty Lucene dla języka angielskiego, który używa algorytmu macierzystego Porter2. |
| lovins |
Wybiera tokenizator macierzysty Lucene dla języka angielskiego, który korzysta z algorytmu stemowania Lovins. |
| finnish |
Wybiera tokenizator macierzysty Lucene dla języka fińskiego. |
| lightFinnish |
Wybiera tokenizator macierzysty Lucene dla języka fińskiego, który wykonuje lekkie stemming. |
| french |
Wybiera tokenizator macierzysty Lucene dla języka francuskiego. |
| lightFrench |
Wybiera tokenizator macierzysty Lucene dla języka francuskiego, który wykonuje lekkie stemming. |
| minimalFrench |
Wybiera tokenizator macierzysty Lucene dla języka francuskiego, który wykonuje minimalne stemming. |
| galician |
Wybiera tokenizator macierzysty Lucene dla języka galicyjskiego. |
| minimalGalician |
Wybiera tokenizator trzonowy Lucene dla galicyjskiego, który wykonuje minimalne stemming. |
| german |
Wybiera tokenizator macierzysty Lucene dla języka niemieckiego. |
| german2 |
Wybiera tokenizator macierzysty Lucene, który używa algorytmu wariantu niemieckiego. |
| lightGerman |
Wybiera tokenizator macierzysty Lucene dla języka niemieckiego, który wykonuje lekkie stemming. |
| minimalGerman |
Wybiera tokenizator macierzysty Lucene dla języka niemieckiego, który wykonuje minimalne stemming. |
| greek |
Wybiera tokenizator macierzysty Lucene dla języka greckiego. |
| hindi |
Wybiera tokenizator macierzysty Lucene dla języka hindi. |
| hungarian |
Wybiera tokenizator macierzysty Lucene dla języka węgierskiego. |
| lightHungarian |
Wybiera tokenizator macierzysty Lucene dla języka węgierskiego, który wykonuje lekkie stemming. |
| indonesian |
Wybiera tokenizator macierzysty Lucene dla języka indonezyjskiego. |
| irish |
Wybiera tokenizator macierzysty Lucene dla języka irlandzkiego. |
| italian |
Wybiera tokenizator macierzysty Lucene dla języka włoskiego. |
| lightItalian |
Wybiera tokenizator trzonowy Lucene dla języka włoskiego, który wykonuje lekkie stemming. |
| sorani |
Wybiera tokenizator wywodzący Lucene dla Sorani. |
| latvian |
Wybiera tokenizator macierzysty Lucene dla języka łotewskiego. |
| norwegian |
Wybiera tokenizator macierzysty Lucene dla języka norweskiego (Bokmål). |
| lightNorwegian |
Wybiera tokenizator macierzysty Lucene dla języka norweskiego (Bokmål), który wykonuje lekkie stemming. |
| minimalNorwegian |
Wybiera tokenizator macierzysty Lucene dla języka norweskiego (Bokmål), który wykonuje minimalne macierzyństwo. |
| lightNynorsk |
Wybiera tokenizator macierzysty Lucene dla języka norweskiego (Nynorsk), który wykonuje lekkie stemming. |
| minimalNynorsk |
Wybiera tokenizator macierzysty Lucene dla języka norweskiego (Nynorsk), który wykonuje minimalne stemming. |
| portuguese |
Wybiera tokenizator macierzysty Lucene dla języka portugalskiego. |
| lightPortuguese |
Wybiera tokenizator macierzysty Lucene dla języka portugalskiego, który wykonuje lekkie stemming. |
| minimalPortuguese |
Wybiera tokenizator macierzysty Lucene dla języka portugalskiego, który wykonuje minimalne stemming. |
| portugueseRslp |
Wybiera tokenizator macierzysty Lucene dla języka portugalskiego, który korzysta z algorytmu stemmingu RSLP. |
| romanian |
Wybiera tokenizator macierzysty Lucene dla języka rumuńskiego. |
| russian |
Wybiera tokenizator wywodzący Lucene dla języka rosyjskiego. |
| lightRussian |
Wybiera tokenizator macierzysty Lucene dla języka rosyjskiego, który wykonuje lekkie stemming. |
| spanish |
Wybiera tokenizator macierzysty Lucene dla języka hiszpańskiego. |
| lightSpanish |
Wybiera tokenizator trzonowy Lucene dla języka hiszpańskiego, który wykonuje lekkie stemming. |
| swedish |
Wybiera tokenizator macierzysty Lucene dla języka szwedzkiego. |
| lightSwedish |
Wybiera tokenizator macierzysty Lucene dla języka szwedzkiego, który wykonuje lekkie stemming. |
| turkish |
Wybiera tokenizator macierzysty Lucene dla języka tureckiego. |
StopAnalyzer
Dzieli tekst na miejsca niebędące literami; Stosuje filtry tokenów małych liter i stopword. Ten analizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Opis |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
| name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
| stopwords |
string[] |
Lista słów zatrzymanych. |
StopwordsList
Identyfikuje wstępnie zdefiniowaną listę słów zatrzymania specyficznych dla danego języka.
| Wartość | Opis |
|---|---|
| arabic |
Wybiera listę słów zatrzymanych dla języka arabskiego. |
| armenian |
Wybiera listę słów zatrzymanych dla języka ormiańskiego. |
| basque |
Wybiera listę słów zatrzymanych dla języka baskijskiego. |
| brazilian |
Wybiera listę słów zatrzymanych dla języka portugalskiego (Brazylia). |
| bulgarian |
Wybiera listę słów zatrzymanych dla języka bułgarskiego. |
| catalan |
Wybiera listę słów zatrzymanych dla języka katalońskiego. |
| czech |
Wybiera listę słów zatrzymanych dla języka czeskiego. |
| danish |
Wybiera listę słów zatrzymania dla języka duńskiego. |
| dutch |
Wybiera listę słów zatrzymanych dla języka niderlandzkiego. |
| english |
Wybiera listę słów zatrzymanych dla języka angielskiego. |
| finnish |
Wybiera listę słów zatrzymanych dla języka fińskiego. |
| french |
Wybiera listę słów zatrzymanych dla języka francuskiego. |
| galician |
Wybiera listę słów zatrzymanych dla języka galicyjskiego. |
| german |
Wybiera listę słów zatrzymanych dla języka niemieckiego. |
| greek |
Wybiera listę słów zatrzymanych dla języka greckiego. |
| hindi |
Wybiera listę słów zatrzymanych dla języka hindi. |
| hungarian |
Wybiera listę słów zatrzymanych dla języka węgierskiego. |
| indonesian |
Wybiera listę słów zatrzymanych dla języka indonezyjskiego. |
| irish |
Wybiera listę słów zatrzymanych dla języka irlandzkiego. |
| italian |
Wybiera listę słów zatrzymanych dla języka włoskiego. |
| latvian |
Wybiera listę słów zatrzymanych dla języka łotewskiego. |
| norwegian |
Wybiera listę słów zatrzymanych dla języka norweskiego. |
| persian |
Wybiera listę słów zatrzymanych dla języka perskiego. |
| portuguese |
Wybiera listę słów zatrzymania dla języka portugalskiego. |
| romanian |
Wybiera listę słów zatrzymanych dla języka rumuńskiego. |
| russian |
Wybiera listę słów zatrzymanych dla języka rosyjskiego. |
| sorani |
Wybiera listę słów zatrzymania dla Sorani. |
| spanish |
Wybiera listę słów zatrzymanych dla języka hiszpańskiego. |
| swedish |
Wybiera listę słów zatrzymanych dla języka szwedzkiego. |
| thai |
Wybiera listę słów zatrzymanych dla języka tajskiego. |
| turkish |
Wybiera listę słów zatrzymanych dla języka tureckiego. |
StopwordsTokenFilter
Usuwa wyrazy zatrzymania ze strumienia tokenów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| ignoreCase |
boolean |
False |
Wartość wskazująca, czy wielkość liter ma być ignorowana. Jeśli to prawda, wszystkie słowa są najpierw konwertowane na małe litery. Wartość domyślna to „false”. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| removeTrailing |
boolean |
True |
Wartość wskazująca, czy zignorować ostatni wyszukiwany termin, jeśli jest to słowo zatrzymania. Wartość domyślna to true. |
| stopwords |
string[] |
Lista słów stop. Nie można zarówno tej właściwości, jak i właściwości listy słów zatrzymujących. |
|
| stopwordsList | english |
Predefiniowana lista słów zatrzymania do użycia. Nie można zarówno tej właściwości, jak i właściwości stopwords. Domyślnie jest to język angielski. |
Suggester
Definiuje sposób, w jaki interfejs API sugestii powinien być stosowany do grupy pól w indeksie.
| Nazwa | Typ | Opis |
|---|---|---|
| name |
string |
Nazwa osoby sugerującej. |
| searchMode |
Wartość wskazująca możliwości sugestu. |
|
| sourceFields |
string[] |
Lista nazw pól, do których ma zastosowanie sugestia. Każde pole musi być możliwe do przeszukiwania. |
SuggesterSearchMode
Wartość wskazująca możliwości sugestu.
| Wartość | Opis |
|---|---|
| analyzingInfixMatching |
Dopasowuje kolejne całe terminy i prefiksy w polu. Na przykład w przypadku pola "Najszybszy lis brunatny" zapytania "szybki" i "najszybsze brwi" będą zgodne. |
SynonymTokenFilter
Dopasowuje synonimy jedno- lub wielowyrazowe w strumieniu tokenów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| expand |
boolean |
True |
Wartość wskazująca, czy wszystkie wyrazy na liście synonimów (jeśli nie jest używana notacja => ) będą mapowane na siebie. Jeśli wartość jest prawdziwa, wszystkie wyrazy na liście synonimów (jeśli => notacja nie jest używana) zostaną odwzorowane na siebie. Poniższa lista: niesamowite, niewiarygodne, fantastyczne, niesamowite jest równoważne: niesamowite, niewiarygodne, fantastyczne, niesamowite => niesamowite, niewiarygodne, fantastyczne, niesamowite. Jeśli jest fałszywa, poniższa lista: niesamowite, niewiarygodne, fantastyczne, niesamowite będzie równoważne: niesamowite, niewiarygodne, fantastyczne, niesamowite => niesamowite. Wartość domyślna to true. |
| ignoreCase |
boolean |
False |
Wartość wskazująca, czy dane wejściowe mają być składane wielkością liter w celu dopasowania. Wartość domyślna to „false”. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| synonyms |
string[] |
Lista synonimów w jednym z dwóch formatów: 1. niesamowity, niewiarygodny, fantastyczny => niesamowity - wszystkie terminy po lewej stronie => symbol zostaną zastąpione wszystkimi terminami po jego prawej stronie; 2. Niesamowite, niewiarygodne, fantastyczne, niesamowite - oddzielona przecinkami lista równoważnych słów. Ustaw opcję rozwijania, aby zmienić sposób interpretowania tej listy. |
TagScoringFunction
Definiuje funkcję, która zwiększa wyniki dokumentów z wartościami ciągów pasującymi do danej listy tagów.
| Nazwa | Typ | Opis |
|---|---|---|
| boost |
number (double) |
Mnożnik dla surowego wyniku. Musi być liczbą dodatnią nierówną 1,0. |
| fieldName |
string |
Nazwa pola używanego jako dane wejściowe dla funkcji oceniania. |
| interpolation |
Wartość wskazująca, w jaki sposób zwiększanie będzie interpolowane między wynikami dokumentu; Domyślnie jest to "Liniowy". |
|
| tag |
Wartości parametrów funkcji oceniania tagów. |
|
| type |
string:
tag |
Wskazuje typ funkcji, która ma być używana. Prawidłowe wartości to wielkość, świeżość, odległość i tag. Typ funkcji musi być pisany małymi literami. |
TagScoringParameters
Udostępnia wartości parametrów do funkcji oceniania tagów.
| Nazwa | Typ | Opis |
|---|---|---|
| tagsParameter |
string |
Nazwa parametru przekazywanego w zapytaniach wyszukiwania w celu określenia listy tagów do porównania z polem docelowym. |
TextWeights
Definiuje wagi w polach indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania.
| Nazwa | Typ | Opis |
|---|---|---|
| weights |
object |
Słownik wag dla poszczególnych pól w celu zwiększenia oceniania dokumentów. Klucze to nazwy pól, a wartości to wagi dla każdego pola. |
TokenCharacterKind
Reprezentuje klasy znaków, na których może działać filtr tokenów.
| Wartość | Opis |
|---|---|
| letter |
Przechowuje litery w tokenach. |
| digit |
Przechowuje cyfry w tokenach. |
| whitespace |
Zachowuje białe znaki w tokenach. |
| punctuation |
Zachowuje znaki interpunkcyjne w tokenach. |
| symbol |
Przechowuje symbole w tokenach. |
TokenFilterName
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.
TruncateTokenFilter
Obcina terminy do określonej długości. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| length |
integer (int32) maximum: 300 |
300 |
Długość, o jaką terminy zostaną obcięte. Wartość domyślna i maksymalna to 300. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
UaxUrlEmailTokenizer
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizator jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maksymalna długość tokena. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków. |
| name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
UniqueTokenFilter
Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| onlyOnSamePosition |
boolean |
False |
Wartość wskazująca, czy usunąć duplikaty tylko w tym samym położeniu. Wartość domyślna to „false”. |
VectorEncodingFormat
Format kodowania służący do interpretowania zawartości pola wektorowego.
| Wartość | Opis |
|---|---|
| packedBit |
Format kodowania reprezentujący bity spakowane w szerszy typ danych. |
VectorSearch
Zawiera opcje konfiguracyjne związane z wyszukiwaniem wektorowym.
| Nazwa | Typ | Opis |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
Zawiera opcje konfiguracyjne specyficzne dla algorytmu używanego podczas indeksowania lub wykonywania zapytań. |
| compressions | VectorSearchCompressionConfiguration[]: |
Zawiera opcje konfiguracyjne specyficzne dla metody kompresji używanej podczas indeksowania lub wykonywania zapytań. |
| profiles |
Definiuje kombinacje konfiguracji, które mają być używane z wyszukiwaniem wektorowym. |
|
| vectorizers | VectorSearchVectorizer[]: |
Zawiera opcje konfiguracyjne dotyczące wektoryzacji tekstowych zapytań wektorowych. |
VectorSearchAlgorithmKind
Algorytm używany do indeksowania i wykonywania zapytań.
| Wartość | Opis |
|---|---|
| hnsw |
HNSW (Hierarchical Navigable Small World), rodzaj algorytmu przybliżonych najbliższych sąsiadów. |
| exhaustiveKnn |
Wyczerpujący algorytm KNN, który przeprowadzi wyszukiwanie siłowe. |
VectorSearchAlgorithmMetric
Metryka podobieństwa, która ma być używana do porównań wektorowych. Zaleca się wybranie tej samej metryki podobieństwa, na której został wytrenowany model osadzania.
| Wartość | Opis |
|---|---|
| cosine |
Mierzy kąt między wektorami w celu ilościowego określenia ich podobieństwa, bez względu na wielkość. Im mniejszy kąt, tym większe podobieństwo. |
| euclidean |
Oblicza odległość w linii prostej między wektorami w przestrzeni wielowymiarowej. Im mniejsza odległość, tym większe podobieństwo. |
| dotProduct |
Oblicza sumę iloczynów przypadających na elementy, aby ocenić wyrównanie i podobieństwo wielkości. Im większe i bardziej pozytywne, tym bliższe podobieństwo. |
| hamming |
Ma zastosowanie tylko do binarnych typów danych spakowanych bitowo. Określa odmienność, zliczając różne pozycje w wektorach binarnych. Im mniej różnic, tym większe podobieństwo. |
VectorSearchCompressionKind
Metoda kompresji używana do indeksowania i wykonywania zapytań.
| Wartość | Opis |
|---|---|
| scalarQuantization |
Kwantyzacja skalarna, rodzaj metody kompresji. W kwantyzacji skalarnej oryginalne wartości wektorów są kompresowane do węższego typu poprzez dyskretyzację i reprezentowanie każdego składnika wektora przy użyciu zredukowanego zestawu wartości skwantowanych, zmniejszając w ten sposób ogólny rozmiar danych. |
| binaryQuantization |
Kwantyzacja binarna, rodzaj metody kompresji. W kwantyzacji binarnej oryginalne wartości wektorów są kompresowane do węższego typu binarnego przez dyskretyzację i reprezentowanie każdego składnika wektora przy użyciu wartości binarnych, zmniejszając w ten sposób ogólny rozmiar danych. |
VectorSearchCompressionRescoreStorageMethod
Metoda przechowywania oryginalnych wektorów o pełnej precyzji używanych do ponownego oceniania i operacji indeksu wewnętrznego.
| Wartość | Opis |
|---|---|
| preserveOriginals |
Ta opcja powoduje zachowanie oryginalnych wektorów o pełnej precyzji. Wybierz tę opcję, aby uzyskać maksymalną elastyczność i najwyższą jakość skompresowanych wyników wyszukiwania. Zużywa to więcej miejsca na dane, ale pozwala na ponowne ocenianie i nadpróbkowanie. |
| discardOriginals |
Ta opcja powoduje odrzucenie oryginalnych wektorów o pełnej precyzji. Wybierz tę opcję, aby uzyskać maksymalną oszczędność miejsca na dysku. Ponieważ ta opcja nie pozwala na ponowną punktację i nadpróbkowanie, często spowoduje to niewielkie lub umiarkowane obniżenie jakości. |
VectorSearchCompressionTargetDataType
Skwantyzowany typ danych skompresowanych wartości wektorowych.
| Wartość | Opis |
|---|---|
| int8 |
VectorSearchProfile
Definiuje kombinację konfiguracji, która ma być używana z wyszukiwaniem wektorowym.
| Nazwa | Typ | Opis |
|---|---|---|
| algorithm |
string |
Nazwa konfiguracji algorytmu wyszukiwania wektorowego, która określa algorytm i parametry opcjonalne. |
| compression |
string |
Nazwa konfiguracji metody kompresji, która określa metodę kompresji i parametry opcjonalne. |
| name |
string |
Nazwa, która ma być skojarzona z tym konkretnym profilem wyszukiwania wektorowego. |
| vectorizer |
string |
Nazwa wektoryzacji konfigurowanej do użycia z wyszukiwaniem wektorowym. |
VectorSearchVectorizerKind
Metoda wektoryzacji, która ma być używana w czasie wykonywania zapytania.
| Wartość | Opis |
|---|---|
| azureOpenAI |
Generowanie osadzania przy użyciu zasobu usługi Azure OpenAI w czasie wykonywania zapytania. |
| customWebApi |
Generuj osadzanie przy użyciu niestandardowego internetowego punktu końcowego w czasie wykonywania zapytania. |
WebApiParameters
Określa właściwości nawiązywania połączenia z wektoryzatorem zdefiniowanym przez użytkownika.
| Nazwa | Typ | Opis |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
Tożsamość zarządzana przypisana przez użytkownika używana dla połączeń wychodzących. Jeśli zostanie podany identyfikator authResourceId i nie zostanie on określony, zostanie użyta tożsamość zarządzana przypisana przez system. W przypadku aktualizacji indeksatora, jeśli tożsamość jest nieokreślona, wartość pozostaje niezmieniona. Jeśli jest ustawiona na "none", wartość tej właściwości jest czyszczona. |
| authResourceId |
string |
Dotyczy niestandardowych punktów końcowych, które łączą się z kodem zewnętrznym w funkcji platformy Azure lub innej aplikacji, która zapewnia przekształcenia. Ta wartość powinna być identyfikatorem aplikacji utworzonym dla funkcji lub aplikacji podczas jej zarejestrowania w usłudze Azure Active Directory. Po określeniu wektoryzacja łączy się z funkcją lub aplikacją przy użyciu identyfikatora zarządzanego (systemowego lub przypisanego przez użytkownika) usługi wyszukiwania i tokenu dostępu funkcji lub aplikacji, używając tej wartości jako identyfikatora zasobu do tworzenia zakresu tokenu dostępu. |
| httpHeaders |
object |
Nagłówki wymagane do wysłania żądania HTTP. |
| httpMethod |
string |
Metoda żądania HTTP. |
| timeout |
string (duration) |
Żądany limit czasu żądania. Wartość domyślna to 30 sekund. |
| uri |
string (uri) |
Identyfikator URI internetowego interfejsu API udostępniającego wektoryzator. |
WebApiVectorizer
Określa wektoryzator zdefiniowany przez użytkownika do generowania osadzania wektora ciągu zapytania. Integracja zewnętrznego wektoryzatora jest osiągana przy użyciu niestandardowego interfejsu internetowego interfejsu API zestawu umiejętności.
| Nazwa | Typ | Opis |
|---|---|---|
| customWebApiParameters |
Określa właściwości wektoryzatora zdefiniowanego przez użytkownika. |
|
| kind |
string:
custom |
Nazwa rodzaju metody wektoryzacji konfigurowanej do użycia z wyszukiwaniem wektorowym. |
| name |
string |
Nazwa, którą należy skojarzyć z tą konkretną metodą wektoryzacji. |
WordDelimiterTokenFilter
Dzieli wyrazy na podwyrazy i wykonuje opcjonalne przekształcenia w grupach podsłów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.
| Nazwa | Typ | Domyślna wartość | Opis |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenów. |
|
| catenateAll |
boolean |
False |
Wartość wskazująca, czy wszystkie części podsłów zostaną katenowane. Jeśli na przykład jest to ustawione na wartość true, wartość "Azure-Search-1" staje się wartością "AzureSearch1". Wartość domyślna to „false”. |
| catenateNumbers |
boolean |
False |
Wartość wskazująca, czy zostaną katenowane maksymalne przebiegi liczby części. Na przykład, jeśli ta wartość jest ustawiona na true, liczba "1-2" staje się liczbą "12". Wartość domyślna to „false”. |
| catenateWords |
boolean |
False |
Wartość wskazująca, czy zostaną katenowane maksymalne serie części wyrazów. Jeśli na przykład jest to ustawiona wartość true, wartość "Azure-Search" staje się wartością "AzureSearch". Wartość domyślna to „false”. |
| generateNumberParts |
boolean |
True |
Wartość wskazująca, czy mają zostać wygenerowane liczbowe podwyrazy. Wartość domyślna to true. |
| generateWordParts |
boolean |
True |
Wartość wskazująca, czy mają zostać wygenerowane słowa części. Jeśli jest ustawiona, powoduje generowanie części słów; na przykład "AzureSearch" staje się "Azure", "Search". Wartość domyślna to true. |
| name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. |
|
| preserveOriginal |
boolean |
False |
Wartość wskazująca, czy oryginalne wyrazy zostaną zachowane i dodane do listy podsłów. Wartość domyślna to „false”. |
| protectedWords |
string[] |
Lista tokenów, które mają być chronione przed rozgraniczeniem. |
|
| splitOnCaseChange |
boolean |
True |
Wartość wskazująca, czy podzielić wyrazy w caseChange. Jeśli na przykład ta wartość ma wartość true, wartość "AzureSearch" staje się wartością "Azure" "Search". Wartość domyślna to true. |
| splitOnNumerics |
boolean |
True |
Wartość wskazująca, czy dzielić liczby. Jeśli na przykład ta wartość ma wartość true, wartość "Azure1Search" staje się wartością "Azure" "1" "Search". Wartość domyślna to true. |
| stemEnglishPossessive |
boolean |
True |
Wartość wskazująca, czy usunąć końcowe znaki "s" dla każdego podwyrazu. Wartość domyślna to true. |