Udostępnij przez


Indexes - Create

Tworzy nowy indeks wyszukiwania.

POST {endpoint}/indexes?api-version=2025-09-01

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
endpoint
path True

string

Adres URL punktu końcowego usługi wyszukiwania.

api-version
query True

string

Wersja interfejsu API klienta.

Nagłówek żądania

Nazwa Wymagane Typ Opis
x-ms-client-request-id

string (uuid)

Identyfikator śledzenia wysłany z żądaniem, aby pomóc w debugowaniu.

Treść żądania

Nazwa Wymagane Typ Opis
fields True

SearchField[]

Pola indeksu.

name True

string

Nazwa indeksu.

@odata.etag

string

Element ETag indeksu.

analyzers LexicalAnalyzer[]:

Analizatory indeksu.

charFilters CharFilter[]:

Znak jest filtrowany pod kątem indeksu.

corsOptions

CorsOptions

Opcje sterowania współużytkowaniem zasobów między źródłami (CORS) dla indeksu.

defaultScoringProfile

string

Nazwa profilu oceniania, który ma być używany, jeśli nie zostanie określony w zapytaniu. Jeśli ta właściwość nie jest ustawiona i w zapytaniu nie określono profilu oceniania, zostanie użyte domyślne ocenianie (tf-idf).

description

string

Opis indeksu.

encryptionKey

SearchResourceEncryptionKey

Opis klucza szyfrowania utworzonego w usłudze Azure Key Vault. Ten klucz jest używany w celu zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować Twoich danych. Po zaszyfrowaniu danych na zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Możesz zmienić tę właściwość zgodnie z potrzebami, jeśli chcesz obrócić klucz szyfrowania; Twoje dane pozostaną nienaruszone. Szyfrowanie za pomocą kluczy zarządzanych przez klienta nie jest dostępne w przypadku bezpłatnych usług wyszukiwania i jest dostępne tylko w przypadku płatnych usług utworzonych 1 stycznia 2019 r. lub później.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Normalizatory indeksu.

scoringProfiles

ScoringProfile[]

Profile oceniania dla indeksu.

semantic

SemanticSettings

Definiuje parametry indeksu wyszukiwania, które mają wpływ na możliwości semantyczne.

similarity Similarity:

Typ algorytmu podobieństwa, który ma być używany podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w momencie tworzenia indeksu i nie można go modyfikować na istniejących indeksach. W przypadku wartości null używany jest algorytm ClassicSimilarity.

suggesters

Suggester[]

Sugesty dotyczące indeksu.

tokenFilters TokenFilter[]:

Token filtruje indeks.

tokenizers LexicalTokenizer[]:

Tokenizatory indeksu.

vectorSearch

VectorSearch

Zawiera opcje konfiguracyjne związane z wyszukiwaniem wektorowym.

Odpowiedzi

Nazwa Typ Opis
201 Created

SearchIndex

Other Status Codes

ErrorResponse

Odpowiedź na błąd.

Przykłady

SearchServiceCreateIndex

Przykładowe żądanie

POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01


{
  "name": "temp-stable-test",
  "description": "description",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene",
      "normalizer": "standard"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "defaultScoringProfile": "stringFieldBoost",
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [
    {
      "maxTokenLength": 100,
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer"
    }
  ],
  "tokenFilters": [
    {
      "preserveOriginal": false,
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter"
    }
  ],
  "charFilters": [
    {
      "mappings": [
        ".=>,",
        "_=>-"
      ],
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping"
    }
  ],
  "normalizers": [
    {
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer"
    }
  ],
  "similarity": {
    "k1": 10,
    "b": 0.1,
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        },
        "rankingOrder": "BoostedRerankerScore"
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2
      }
    ]
  },
  "@odata.etag": "0x1234568AE7E58A1"
}

Przykładowa odpowiedź

{
  "@odata.etag": "0x1234568AE7E58A1",
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}

Definicje

Nazwa Opis
AsciiFoldingTokenFilter

Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania, używanej do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault.

AzureOpenAIEmbeddingSkill

Umożliwia wygenerowanie osadzania wektora dla danego tekstu wejściowego przy użyciu zasobu usługi Azure OpenAI.

AzureOpenAIModelName

Nazwa modelu Azure Open AI, który zostanie wywołany.

AzureOpenAIParameters

Określa parametry nawiązywania połączenia z zasobem usługi Azure OpenAI.

AzureOpenAIVectorizer

Określa zasób usługi Azure OpenAI używany do wektoryzacji ciągu zapytania.

BinaryQuantizationVectorSearchCompressionConfiguration

Zawiera opcje konfiguracyjne specyficzne dla binarnej metody kompresji kwantyzacji używanej podczas indeksowania i wykonywania zapytań.

BM25Similarity

Funkcja rankingowa oparta na algorytmie podobieństwa Okapi BM25. BM25 to algorytm podobny do TF-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie częstotliwości terminów (kontrolowane przez parametr "k1").

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

CjkBigramTokenFilter

Tworzy bigramy terminów CJK, które są generowane ze standardowego tokenizatora. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

CjkBigramTokenFilterScripts

Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter.

ClassicSimilarity

Starszy algorytm podobieństwa, który wykorzystuje implementację Lucene TFIDFSimilarity TF-IDF. Ta odmiana TF-IDF wprowadza statyczną normalizację długości dokumentów, a także czynniki koordynujące, które karzą dokumenty, które tylko częściowo pasują do wyszukiwanych zapytań.

ClassicTokenizer

Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

CommonGramTokenFilter

Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są nadal indeksowane, z nałożonymi bigramami. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

CorsOptions

Definiuje opcje sterowania współużytkowaniem zasobów między źródłami (CORS) dla indeksu.

CustomAnalyzer

Pozwala przejąć kontrolę nad procesem konwersji tekstu na tokeny indeksowalne/przeszukiwalne. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizatora i co najmniej jednego filtru. Tokenizator jest odpowiedzialny za dzielenie tekstu na tokeny i filtry do modyfikowania tokenów emitowanych przez tokenizator.

CustomNormalizer

Umożliwia skonfigurowanie normalizacji dla pól z możliwością filtrowania, sortowania i aspektów , które domyślnie działają ze ścisłym dopasowaniem. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z co najmniej jednego filtru, który modyfikuje przechowywany token.

DictionaryDecompounderTokenFilter

Dekompozycja wyrazów złożonych występujących w wielu językach germańskich. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

DistanceScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej.

DistanceScoringParameters

Dostarcza wartości parametrów do funkcji oceniania odległości.

EdgeNGramTokenFilter

Generuje n-gramy o podanych rozmiarach, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

EdgeNGramTokenFilterSide

Określa, z której strony danych wejściowych ma zostać wygenerowany n-gram.

EdgeNGramTokenFilterV2

Generuje n-gramy o podanych rozmiarach, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

EdgeNGramTokenizer

Tokenizuje dane wejściowe z krawędzi na n-gramy o podanych rozmiarach. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

ElisionTokenFilter

Usuwa elisje. Na przykład "l'avion" (samolot) zostanie przekształcony w "avion" (samolot). Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

ErrorAdditionalInfo

Dodatkowe informacje o błędzie zarządzania zasobami.

ErrorDetail

Szczegóły błędu.

ErrorResponse

Odpowiedź na błąd

ExhaustiveKnnParameters

Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Zawiera opcje konfiguracyjne specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, który będzie przeprowadzał wyszukiwanie siłowe w całym indeksie wektorowym.

FreshnessScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny.

FreshnessScoringParameters

Udostępnia wartości parametrów do funkcji oceniania świeżości.

HnswParameters

Zawiera parametry specyficzne dla algorytmu HNSW.

HnswVectorSearchAlgorithmConfiguration

Zawiera opcje konfiguracyjne specyficzne dla algorytmu HNSW przybliżonych najbliższych sąsiadów używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje regulowany kompromis między szybkością wyszukiwania a dokładnością.

InputFieldMappingEntry

Mapowanie pól wejściowych dla umiejętności.

KeepTokenFilter

Filtr tokenów, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

KeywordMarkerTokenFilter

Oznacza terminy jako słowa kluczowe. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

KeywordTokenizer

Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

KeywordTokenizerV2

Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

LengthTokenFilter

Usuwa słowa, które są za długie lub za krótkie. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

LexicalNormalizerName

Definiuje nazwy wszystkich normalizatorów tekstu obsługiwanych przez wyszukiwarkę.

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

LimitTokenFilter

Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

LuceneStandardAnalyzer

Standardowy analizator Apache Lucene; Składa się ze standardowego tokenizatora, filtru małych liter i filtru zatrzymania.

LuceneStandardTokenizer

Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

LuceneStandardTokenizerV2

Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

MagnitudeScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego.

MagnitudeScoringParameters

Dostarcza wartości parametrów do funkcji oceniania wielkości.

MappingCharFilter

Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mappings. Dopasowanie jest zachłanne (wygrywa najdłuższe dopasowanie wzoru w danym punkcie). Zamiana może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Dzieli tekst za pomocą reguł specyficznych dla języka i redukuje słowa do ich podstawowych form.

MicrosoftLanguageTokenizer

Tekst jest dzielony przy użyciu reguł specyficznych dla języka.

MicrosoftStemmingTokenizerLanguage

Wyświetla listę języków obsługiwanych przez tokenizator pochodzenia języka firmy Microsoft.

MicrosoftTokenizerLanguage

Wyświetla listę języków obsługiwanych przez tokenizator języka firmy Microsoft.

NGramTokenFilter

Generuje n-gramy o podanych rozmiarach. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

NGramTokenFilterV2

Generuje n-gramy o podanych rozmiarach. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

NGramTokenizer

Tokenizuje dane wejściowe na n-gramy o podanych rozmiarach. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

OutputFieldMappingEntry

Mapowanie pola wyjściowego dla umiejętności.

PathHierarchyTokenizerV2

Tokenizator dla hierarchii przypominających ścieżki. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

PatternAnalyzer

Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu Apache Lucene.

PatternCaptureTokenFilter

Używa wyrażeń regularnych języka Java do emitowania wielu tokenów — po jednym dla każdej grupy przechwytywania w co najmniej jednym wzorcu. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

PatternReplaceCharFilter

Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków do zachowania i wzorca zastępczego do identyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zamianę "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu Apache Lucene.

PatternReplaceTokenFilter

Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków do zachowania i wzorca zastępczego do identyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zamianę "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

PatternTokenizer

Tokenizator, który używa dopasowania wzorca wyrażeń regularnych do konstruowania odrębnych tokenów. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

PhoneticEncoder

Identyfikuje typ kodera fonetycznego, który ma być używany z filtrem PhoneticTokenFilter.

PhoneticTokenFilter

Utwórz tokeny dla dopasowań fonetycznych. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

PrioritizedFields

Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi.

RankingOrder

Reprezentuje wynik, który ma być używany do sortowania dokumentów.

RegexFlags

Definiuje flagi, które można łączyć w celu kontrolowania sposobu używania wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorców.

RescoringOptions

Zawiera opcje ponownego odtwarzania.

ScalarQuantizationParameters

Zawiera parametry specyficzne dla kwantyzacji skalarnej.

ScalarQuantizationVectorSearchCompressionConfiguration

Zawiera opcje konfiguracyjne specyficzne dla metody kompresji kwantyzacji skalarnej używanej podczas indeksowania i wykonywania zapytań.

ScoringFunctionAggregation

Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania.

ScoringFunctionInterpolation

Definiuje funkcję używaną do interpolacji zwiększania wyników w zakresie dokumentów.

ScoringProfile

Definiuje parametry indeksu wyszukiwania, które wpływają na ocenianie w zapytaniach wyszukiwania.

SearchField

Reprezentuje pole w definicji indeksu, która opisuje nazwę, typ danych i zachowanie wyszukiwania pola.

SearchFieldDataType

Definiuje typ danych pola w indeksie wyszukiwania.

SearchIndex

Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu.

SearchIndexerDataNoneIdentity

Czyści właściwość tożsamości źródła danych.

SearchIndexerDataUserAssignedIdentity

Określa tożsamość źródła danych, które ma być używane.

SearchResourceEncryptionKey

Klucz szyfrowania zarządzany przez klienta w usłudze Azure Key Vault. Klucze, które tworzysz i którymi zarządzasz, mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych, takich jak indeksy i mapy synonimów.

SemanticConfiguration

Definiuje określoną konfigurację, która ma być używana w kontekście możliwości semantycznych.

SemanticField

Pole, które jest używane jako część konfiguracji semantycznej.

SemanticSettings

Definiuje parametry indeksu wyszukiwania, które mają wpływ na możliwości semantyczne.

ShingleTokenFilter

Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

SnowballTokenFilter

Filtr, który wyprowadza słowa za pomocą stemmera generowanego przez Snowball. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

SnowballTokenFilterLanguage

Język, który ma być używany dla filtru tokenów Snowball.

StemmerOverrideTokenFilter

Zapewnia możliwość zastępowania innych filtrów macierzystych za pomocą niestandardowego stemmingu opartego na słowniku. Wszystkie terminy ze słownika będą oznaczone jako słowa kluczowe, aby nie były poprzedzane stemmerami w dół łańcucha. Musi być umieszczony przed jakimikolwiek filtrami trzpieniowymi. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

StemmerTokenFilter

Filtr macierzysty specyficzny dla języka. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

StemmerTokenFilterLanguage

Język, który ma być używany dla filtru tokenu stemmer.

StopAnalyzer

Dzieli tekst na miejsca niebędące literami; Stosuje filtry tokenów małych liter i stopword. Ten analizator jest implementowany przy użyciu Apache Lucene.

StopwordsList

Identyfikuje wstępnie zdefiniowaną listę słów zatrzymania specyficznych dla danego języka.

StopwordsTokenFilter

Usuwa wyrazy zatrzymania ze strumienia tokenów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Suggester

Definiuje sposób, w jaki interfejs API sugestii powinien być stosowany do grupy pól w indeksie.

SuggesterSearchMode

Wartość wskazująca możliwości sugestu.

SynonymTokenFilter

Dopasowuje synonimy jedno- lub wielowyrazowe w strumieniu tokenów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

TagScoringFunction

Definiuje funkcję, która zwiększa wyniki dokumentów z wartościami ciągów pasującymi do danej listy tagów.

TagScoringParameters

Udostępnia wartości parametrów do funkcji oceniania tagów.

TextWeights

Definiuje wagi w polach indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania.

TokenCharacterKind

Reprezentuje klasy znaków, na których może działać filtr tokenów.

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

TruncateTokenFilter

Obcina terminy do określonej długości. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

UaxUrlEmailTokenizer

Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

UniqueTokenFilter

Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

VectorEncodingFormat

Format kodowania służący do interpretowania zawartości pola wektorowego.

VectorSearch

Zawiera opcje konfiguracyjne związane z wyszukiwaniem wektorowym.

VectorSearchAlgorithmKind

Algorytm używany do indeksowania i wykonywania zapytań.

VectorSearchAlgorithmMetric

Metryka podobieństwa, która ma być używana do porównań wektorowych. Zaleca się wybranie tej samej metryki podobieństwa, na której został wytrenowany model osadzania.

VectorSearchCompressionKind

Metoda kompresji używana do indeksowania i wykonywania zapytań.

VectorSearchCompressionRescoreStorageMethod

Metoda przechowywania oryginalnych wektorów o pełnej precyzji używanych do ponownego oceniania i operacji indeksu wewnętrznego.

VectorSearchCompressionTargetDataType

Skwantyzowany typ danych skompresowanych wartości wektorowych.

VectorSearchProfile

Definiuje kombinację konfiguracji, która ma być używana z wyszukiwaniem wektorowym.

VectorSearchVectorizerKind

Metoda wektoryzacji, która ma być używana w czasie wykonywania zapytania.

WebApiParameters

Określa właściwości nawiązywania połączenia z wektoryzatorem zdefiniowanym przez użytkownika.

WebApiVectorizer

Określa wektoryzator zdefiniowany przez użytkownika do generowania osadzania wektora ciągu zapytania. Integracja zewnętrznego wektoryzatora jest osiągana przy użyciu niestandardowego interfejsu internetowego interfejsu API zestawu umiejętności.

WordDelimiterTokenFilter

Dzieli wyrazy na podwyrazy i wykonuje opcjonalne przekształcenia w grupach podsłów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

AsciiFoldingTokenFilter

Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

preserveOriginal

boolean

False

Wartość wskazująca, czy oryginalny token zostanie zachowany. Wartość domyślna to „false”.

AzureActiveDirectoryApplicationCredentials

Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania, używanej do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault.

Nazwa Typ Opis
applicationId

string

Identyfikator aplikacji usługi AAD, któremu udzielono wymaganych uprawnień dostępu do usługi Azure Key Vault, który ma być używany podczas szyfrowania danych magazynowanych. Identyfikatora aplikacji nie należy mylić z identyfikatorem obiektu aplikacji usługi AAD.

applicationSecret

string

Klucz uwierzytelniania określonej aplikacji usługi AAD.

AzureOpenAIEmbeddingSkill

Umożliwia wygenerowanie osadzania wektora dla danego tekstu wejściowego przy użyciu zasobu usługi Azure OpenAI.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Fragment identyfikatora URI określający typ umiejętności.

apiKey

string

Klucz interfejsu API wyznaczonego zasobu usługi Azure OpenAI.

authIdentity SearchIndexerDataIdentity:

Tożsamość zarządzana przypisana przez użytkownika używana dla połączeń wychodzących.

context

string

Reprezentuje poziom, na którym są wykonywane operacje, na przykład katalog główny dokumentu lub zawartość dokumentu (na przykład /document lub /document/content). Wartość domyślna to /document.

deploymentId

string

Identyfikator wdrożenia modelu usługi Azure OpenAI w wyznaczonym zasobie.

description

string

Opis umiejętności, który opisuje dane wejściowe, wyjściowe i użycie umiejętności.

dimensions

integer (int32)

Liczba wymiarów, które powinny mieć wynikowe osadzanie danych wyjściowych. Obsługiwane tylko w modelach text-embedding-3 i nowszych.

inputs

InputFieldMappingEntry[]

Dane wejściowe umiejętności mogą być kolumną w źródłowym zestawie danych lub danymi wyjściowymi umiejętności nadrzędnej.

modelName

AzureOpenAIModelName

Nazwa modelu osadzania, który jest wdrażany w podanej ścieżce deploymentId.

name

string

Nazwa umiejętności, która jednoznacznie identyfikuje ją w zestawie umiejętności. Umiejętność, która nie ma zdefiniowanej nazwy, otrzyma domyślną nazwę indeksu opartego na liczbie 1 w tablicy umiejętności, poprzedzoną znakiem "#".

outputs

OutputFieldMappingEntry[]

Dane wyjściowe umiejętności są albo polem w indeksie wyszukiwania, albo wartością, która może być używana jako dane wejściowe przez inną umiejętność.

resourceUri

string (uri)

Identyfikator URI zasobu usługi Azure OpenAI.

AzureOpenAIModelName

Nazwa modelu Azure Open AI, który zostanie wywołany.

Wartość Opis
text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small

AzureOpenAIParameters

Określa parametry nawiązywania połączenia z zasobem usługi Azure OpenAI.

Nazwa Typ Opis
apiKey

string

Klucz interfejsu API wyznaczonego zasobu usługi Azure OpenAI.

authIdentity SearchIndexerDataIdentity:

Tożsamość zarządzana przypisana przez użytkownika używana dla połączeń wychodzących.

deploymentId

string

Identyfikator wdrożenia modelu usługi Azure OpenAI w wyznaczonym zasobie.

modelName

AzureOpenAIModelName

Nazwa modelu osadzania, który jest wdrażany w podanej ścieżce deploymentId.

resourceUri

string (uri)

Identyfikator URI zasobu usługi Azure OpenAI.

AzureOpenAIVectorizer

Określa zasób usługi Azure OpenAI używany do wektoryzacji ciągu zapytania.

Nazwa Typ Opis
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

Zawiera parametry specyficzne dla wektoryzacji osadzania usługi Azure OpenAI.

kind string:

azureOpenAI

Nazwa rodzaju metody wektoryzacji konfigurowanej do użycia z wyszukiwaniem wektorowym.

name

string

Nazwa, którą należy skojarzyć z tą konkretną metodą wektoryzacji.

BinaryQuantizationVectorSearchCompressionConfiguration

Zawiera opcje konfiguracyjne specyficzne dla binarnej metody kompresji kwantyzacji używanej podczas indeksowania i wykonywania zapytań.

Nazwa Typ Opis
kind string:

binaryQuantization

Nazwa rodzaju metody kompresji konfigurowanej do użycia z wyszukiwaniem wektorowym.

name

string

Nazwa, która ma być skojarzona z tą konkretną konfiguracją.

rescoringOptions

RescoringOptions

Zawiera opcje ponownego odtwarzania.

truncationDimension

integer (int32)

Liczba wymiarów, do których mają zostać obcięte wektory. Obcinanie wektorów zmniejsza ich rozmiar i ilość danych, które muszą zostać przesłane podczas wyszukiwania. Może to zaoszczędzić na kosztach pamięci masowej i poprawić wydajność wyszukiwania kosztem zapamiętywania. Powinien być używany tylko do osadzania wytrenowanego za pomocą Matryoshka Representation Learning (MRL), takiego jak OpenAI text-embedding-3-large (small). Wartość domyślna to null, co oznacza brak obcinania.

BM25Similarity

Funkcja rankingowa oparta na algorytmie podobieństwa Okapi BM25. BM25 to algorytm podobny do TF-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie częstotliwości terminów (kontrolowane przez parametr "k1").

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number (double)

Ta właściwość określa, w jaki sposób długość dokumentu wpływa na ocenę istotności. Domyślnie używana jest wartość 0,75. Wartość 0,0 oznacza, że nie jest stosowana normalizacja długości, natomiast wartość 1,0 oznacza, że wynik jest w pełni znormalizowany przez długość dokumentu.

k1

number (double)

Ta właściwość steruje funkcją skalowania między częstotliwością terminów każdego pasującego terminu a końcowym wynikiem istotności pary dokument-zapytanie. Domyślnie używana jest wartość 1,2. Wartość 0,0 oznacza, że wynik nie skaluje się wraz ze wzrostem częstotliwości terminów.

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

Wartość Opis
html_strip

Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Tworzy bigramy terminów CJK, które są generowane ze standardowego tokenizatora. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

ignoreScripts

CjkBigramTokenFilterScripts[]

Skrypty do zignorowania.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

outputUnigrams

boolean

False

Wartość wskazująca, czy mają być wyprowadzane zarówno unigramy, jak i bigramy (jeśli prawda), czy tylko bigramy (jeśli wartość false). Wartość domyślna to „false”.

CjkBigramTokenFilterScripts

Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter.

Wartość Opis
han

Ignoruj pismo Han podczas tworzenia bigramów terminów CJK.

hiragana

Ignoruj pismo Hiragana podczas tworzenia bigramów terminów CJK.

katakana

Ignoruj skrypt Katakana podczas tworzenia bigramów terminów CJK.

hangul

Ignoruj pismo Hangul podczas tworzenia bigramów terminów CJK.

ClassicSimilarity

Starszy algorytm podobieństwa, który wykorzystuje implementację Lucene TFIDFSimilarity TF-IDF. Ta odmiana TF-IDF wprowadza statyczną normalizację długości dokumentów, a także czynniki koordynujące, które karzą dokumenty, które tylko częściowo pasują do wyszukiwanych zapytań.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

maxTokenLength

integer (int32)

maximum: 300
255

Maksymalna długość tokena. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

CommonGramTokenFilter

Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są nadal indeksowane, z nałożonymi bigramami. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

commonWords

string[]

Zestaw popularnych słów.

ignoreCase

boolean

False

Wartość wskazująca, czy w pasowaniu typowych wyrazów nie będzie rozróżniana wielkość liter. Wartość domyślna to „false”.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

queryMode

boolean

False

Wartość wskazująca, czy filtr tokenu jest w trybie zapytania. W trybie zapytania filtr tokenu generuje bigramy, a następnie usuwa typowe wyrazy i pojedyncze terminy, po których następuje wspólny wyraz. Wartość domyślna to „false”.

CorsOptions

Definiuje opcje sterowania współużytkowaniem zasobów między źródłami (CORS) dla indeksu.

Nazwa Typ Opis
allowedOrigins

string[]

Lista źródeł, z których kod JavaScript będzie miał dostęp do indeksu. Może zawierać listę hostów w postaci {protocol}://{fully-qualified-domain-name}[:{port#}] lub pojedynczy znak "*", aby zezwolić na wszystkie źródła (niezalecane).

maxAgeInSeconds

integer (int64)

Czas, przez jaki przeglądarki powinny buforować odpowiedzi inspekcji wstępnej CORS. Wartość domyślna to 5 minut.

CustomAnalyzer

Pozwala przejąć kontrolę nad procesem konwersji tekstu na tokeny indeksowalne/przeszukiwalne. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizatora i co najmniej jednego filtru. Tokenizator jest odpowiedzialny za dzielenie tekstu na tokeny i filtry do modyfikowania tokenów emitowanych przez tokenizator.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Fragment identyfikatora URI określający typ analizatora.

charFilters

CharFilterName[]

Lista filtrów znaków używanych do przygotowywania tekstu wejściowego przed jego przetworzeniem przez tokenizator. Na przykład mogą zastąpić niektóre znaki lub symbole. Filtry są uruchamiane w kolejności, w jakiej są wymienione.

name

string

Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

tokenFilters

TokenFilterName[]

Lista filtrów tokenów używanych do filtrowania lub modyfikowania tokenów generowanych przez tokenizator. Na przykład można określić filtr małych liter, który konwertuje wszystkie znaki na małe litery. Filtry są uruchamiane w kolejności, w jakiej są wymienione.

tokenizer

LexicalTokenizerName

Nazwa tokenizera, która ma być używana do dzielenia ciągłego tekstu na sekwencję tokenów, takich jak dzielenie zdania na wyrazy.

CustomNormalizer

Umożliwia skonfigurowanie normalizacji dla pól z możliwością filtrowania, sortowania i aspektów , które domyślnie działają ze ścisłym dopasowaniem. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z co najmniej jednego filtru, który modyfikuje przechowywany token.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

Fragment identyfikatora URI określający typ normalizatora.

charFilters

CharFilterName[]

Lista filtrów znaków używanych do przygotowywania tekstu wejściowego przed jego przetworzeniem. Na przykład mogą zastąpić niektóre znaki lub symbole. Filtry są uruchamiane w kolejności, w jakiej są wymienione.

name

string

Nazwa normalizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków. Nie może kończyć się na ".microsoft" ani ".lucene", ani nie może być nazwany "asciifolding", "standard", "małe litery", "wielkie litery" lub "elision".

tokenFilters

TokenFilterName[]

Lista filtrów tokenów używanych do odfiltrowywania lub modyfikowania tokenu wejściowego. Na przykład można określić filtr małych liter, który konwertuje wszystkie znaki na małe litery. Filtry są uruchamiane w kolejności, w jakiej są wymienione.

DictionaryDecompounderTokenFilter

Dekompozycja wyrazów złożonych występujących w wielu językach germańskich. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

maxSubwordSize

integer (int32)

maximum: 300
15

Maksymalny rozmiar podwyrazu. Wyprowadzane są tylko podsłowa krótsze niż ten. Wartość domyślna to 15. Maksymalnie 300.

minSubwordSize

integer (int32)

maximum: 300
2

Minimalny rozmiar podsłowa. Wyprowadzane są tylko podsłowa dłuższe niż ten. Wartość domyślna to 2. Maksymalnie 300.

minWordSize

integer (int32)

maximum: 300
5

Minimalny rozmiar wyrazu. Przetwarzane są tylko słowa dłuższe niż ten. Wartość domyślna to 5. Maksymalnie 300.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

onlyLongestMatch

boolean

False

Wartość wskazująca, czy do danych wyjściowych dodać tylko najdłuższe pasujące słowo podrzędne. Wartość domyślna to „false”.

wordList

string[]

Lista słów, do których należy dopasować.

DistanceScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej.

Nazwa Typ Opis
boost

number (double)

Mnożnik dla surowego wyniku. Musi być liczbą dodatnią nierówną 1,0.

distance

DistanceScoringParameters

Wartości parametrów dla funkcji oceniania odległości.

fieldName

string

Nazwa pola używanego jako dane wejściowe dla funkcji oceniania.

interpolation

ScoringFunctionInterpolation

Wartość wskazująca, w jaki sposób zwiększanie będzie interpolowane między wynikami dokumentu; Domyślnie jest to "Liniowy".

type string:

distance

Wskazuje typ funkcji, która ma być używana. Prawidłowe wartości to wielkość, świeżość, odległość i tag. Typ funkcji musi być pisany małymi literami.

DistanceScoringParameters

Dostarcza wartości parametrów do funkcji oceniania odległości.

Nazwa Typ Opis
boostingDistance

number (double)

Odległość w kilometrach od lokalizacji referencyjnej, w której kończy się zasięg doładowania.

referencePointParameter

string

Nazwa parametru przekazywanego w zapytaniach wyszukiwania w celu określenia lokalizacji odwołania.

EdgeNGramTokenFilter

Generuje n-gramy o podanych rozmiarach, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

maxGram

integer (int32)

2

Maksymalna długość n-grama. Wartość domyślna to 2.

minGram

integer (int32)

1

Minimalna długość n-grama. Wartość domyślna to 1. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

side

EdgeNGramTokenFilterSide

front

Określa, z której strony danych wejściowych powinien zostać wygenerowany n-gram. Wartość domyślna to "front".

EdgeNGramTokenFilterSide

Określa, z której strony danych wejściowych ma zostać wygenerowany n-gram.

Wartość Opis
front

Określa, że n-gram powinien być generowany z przodu danych wejściowych.

back

Określa, że n-gram powinien być generowany z tyłu danych wejściowych.

EdgeNGramTokenFilterV2

Generuje n-gramy o podanych rozmiarach, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Fragment identyfikatora URI określający typ filtru tokenów.

maxGram

integer (int32)

maximum: 300
2

Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalnie 300.

minGram

integer (int32)

maximum: 300
1

Minimalna długość n-grama. Wartość domyślna to 1. Maksymalnie 300. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

side

EdgeNGramTokenFilterSide

front

Określa, z której strony danych wejściowych powinien zostać wygenerowany n-gram. Wartość domyślna to "front".

EdgeNGramTokenizer

Tokenizuje dane wejściowe z krawędzi na n-gramy o podanych rozmiarach. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

maxGram

integer (int32)

maximum: 300
2

Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalnie 300.

minGram

integer (int32)

maximum: 300
1

Minimalna długość n-grama. Wartość domyślna to 1. Maksymalnie 300. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

tokenChars

TokenCharacterKind[]

Klasy postaci, które należy zachować w tokenach.

ElisionTokenFilter

Usuwa elisje. Na przykład "l'avion" (samolot) zostanie przekształcony w "avion" (samolot). Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

articles

string[]

Zestaw artykułów do usunięcia.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

ErrorAdditionalInfo

Dodatkowe informacje o błędzie zarządzania zasobami.

Nazwa Typ Opis
info

object

Dodatkowe informacje.

type

string

Dodatkowy typ informacji.

ErrorDetail

Szczegóły błędu.

Nazwa Typ Opis
additionalInfo

ErrorAdditionalInfo[]

Dodatkowe informacje o błędzie.

code

string

Kod błędu.

details

ErrorDetail[]

Szczegóły błędu.

message

string

Komunikat o błędzie.

target

string

Element docelowy błędu.

ErrorResponse

Odpowiedź na błąd

Nazwa Typ Opis
error

ErrorDetail

Obiekt błędu.

ExhaustiveKnnParameters

Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN.

Nazwa Typ Opis
metric

VectorSearchAlgorithmMetric

Metryka podobieństwa, która ma być używana do porównań wektorowych.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Zawiera opcje konfiguracyjne specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, który będzie przeprowadzał wyszukiwanie siłowe w całym indeksie wektorowym.

Nazwa Typ Opis
exhaustiveKnnParameters

ExhaustiveKnnParameters

Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN.

kind string:

exhaustiveKnn

Nazwa rodzaju algorytmu konfigurowanego do użycia z wyszukiwaniem wektorowym.

name

string

Nazwa, która ma być skojarzona z tą konkretną konfiguracją.

FreshnessScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny.

Nazwa Typ Opis
boost

number (double)

Mnożnik dla surowego wyniku. Musi być liczbą dodatnią nierówną 1,0.

fieldName

string

Nazwa pola używanego jako dane wejściowe dla funkcji oceniania.

freshness

FreshnessScoringParameters

Wartości parametrów funkcji oceny świeżości.

interpolation

ScoringFunctionInterpolation

Wartość wskazująca, w jaki sposób zwiększanie będzie interpolowane między wynikami dokumentu; Domyślnie jest to "Liniowy".

type string:

freshness

Wskazuje typ funkcji, która ma być używana. Prawidłowe wartości to wielkość, świeżość, odległość i tag. Typ funkcji musi być pisany małymi literami.

FreshnessScoringParameters

Udostępnia wartości parametrów do funkcji oceniania świeżości.

Nazwa Typ Opis
boostingDuration

string (duration)

Okres wygaśnięcia, po upływie którego zwiększanie zostanie zatrzymane dla określonego dokumentu.

HnswParameters

Zawiera parametry specyficzne dla algorytmu HNSW.

Nazwa Typ Domyślna wartość Opis
efConstruction

integer (int32)

minimum: 100
maximum: 1000
400

Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie indeksowania. Zwiększenie tego parametru może poprawić jakość indeksu, kosztem wydłużenia czasu indeksowania. W pewnym momencie zwiększenie tego parametru prowadzi do malejących zwrotów.

efSearch

integer (int32)

minimum: 100
maximum: 1000
500

Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie wyszukiwania. Zwiększenie tego parametru może poprawić wyniki wyszukiwania, kosztem wolniejszego wyszukiwania. W pewnym momencie zwiększenie tego parametru prowadzi do malejących zwrotów.

m

integer (int32)

minimum: 4
maximum: 10
4

Liczba dwukierunkowych połączeń tworzonych dla każdego nowego elementu podczas budowy. Zwiększenie tej wartości parametru może poprawić przywoływanie i skrócić czas pobierania zestawów danych o wysokiej wymiarowości wewnętrznej kosztem zwiększonego zużycia pamięci i dłuższego czasu indeksowania.

metric

VectorSearchAlgorithmMetric

Metryka podobieństwa, która ma być używana do porównań wektorowych.

HnswVectorSearchAlgorithmConfiguration

Zawiera opcje konfiguracyjne specyficzne dla algorytmu HNSW przybliżonych najbliższych sąsiadów używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje regulowany kompromis między szybkością wyszukiwania a dokładnością.

Nazwa Typ Opis
hnswParameters

HnswParameters

Zawiera parametry specyficzne dla algorytmu HNSW.

kind string:

hnsw

Nazwa rodzaju algorytmu konfigurowanego do użycia z wyszukiwaniem wektorowym.

name

string

Nazwa, która ma być skojarzona z tą konkretną konfiguracją.

InputFieldMappingEntry

Mapowanie pól wejściowych dla umiejętności.

Nazwa Typ Opis
inputs

InputFieldMappingEntry[]

Rekurencyjne dane wejściowe używane podczas tworzenia typu złożonego.

name

string

Nazwa danych wejściowych.

source

string

Źródło danych wejściowych.

sourceContext

string

Kontekst źródłowy używany do wybierania rekurencyjnych danych wejściowych.

KeepTokenFilter

Filtr tokenów, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

keepWords

string[]

Lista słów, które należy zachować.

keepWordsCase

boolean

False

Wartość wskazująca, czy wszystkie wyrazy mają być najpierw pisane małymi literami. Wartość domyślna to „false”.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

KeywordMarkerTokenFilter

Oznacza terminy jako słowa kluczowe. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

ignoreCase

boolean

False

Wartość wskazująca, czy wielkość liter ma być ignorowana. Jeśli to prawda, wszystkie słowa są najpierw konwertowane na małe litery. Wartość domyślna to „false”.

keywords

string[]

Lista słów, które mają być oznaczane jako słowa kluczowe.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

KeywordTokenizer

Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

bufferSize

integer (int32)

256

Rozmiar bufora odczytu w bajtach. Wartość domyślna to 256.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

KeywordTokenizerV2

Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Fragment identyfikatora URI określający typ tokenizatora.

maxTokenLength

integer (int32)

maximum: 300
256

Maksymalna długość tokena. Wartość domyślna to 256. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

LengthTokenFilter

Usuwa słowa, które są za długie lub za krótkie. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

max

integer (int32)

maximum: 300
300

Maksymalna długość w znakach. Wartość domyślna i maksymalna to 300.

min

integer (int32)

maximum: 300
0

Minimalna długość w znakach. Wartość domyślna to 0. Maksymalnie 300. Musi być mniejsza niż wartość max.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

Wartość Opis
ar.microsoft

Microsoft Analyzer dla języka arabskiego.

ar.lucene

Analizator Lucene dla języka arabskiego.

hy.lucene

Analizator Lucene dla języka ormiańskiego.

bn.microsoft

Microsoft Analyzer dla języka Bangla.

eu.lucene

Analizator Lucene dla języka baskijskiego.

bg.microsoft

Microsoft Analyzer dla języka bułgarskiego.

bg.lucene

Analizator Lucene dla języka bułgarskiego.

ca.microsoft

Microsoft analyzer dla języka katalońskiego.

ca.lucene

Analizator Lucene dla języka katalońskiego.

zh-Hans.microsoft

Microsoft Analyzer dla języka chińskiego (uproszczonego).

zh-Hans.lucene

Analizator Lucene dla języka chińskiego (uproszczony).

zh-Hant.microsoft

Microsoft Analyzer dla języka chińskiego (tradycyjnego).

zh-Hant.lucene

Analizator Lucene dla języka chińskiego (tradycyjnego).

hr.microsoft

Microsoft Analyzer dla języka chorwackiego.

cs.microsoft

Microsoft Analyzer dla języka czeskiego.

cs.lucene

Analizator Lucene dla Czech.

da.microsoft

Microsoft Analyzer dla języka duńskiego.

da.lucene

Analizator Lucene dla języka duńskiego.

nl.microsoft

Microsoft Analyzer dla języka niderlandzkiego.

nl.lucene

Analizator Lucene dla języka niderlandzkiego.

en.microsoft

Microsoft Analyzer dla języka angielskiego.

en.lucene

Analizator Lucene dla języka angielskiego.

et.microsoft

Microsoft Analyzer dla języka estońskiego.

fi.microsoft

Microsoft Analyzer dla języka fińskiego.

fi.lucene

Analizator Lucene dla języka fińskiego.

fr.microsoft

Microsoft Analyzer dla języka francuskiego.

fr.lucene

Analizator Lucene dla języka francuskiego.

gl.lucene

Analizator Lucene dla języka galicyjskiego.

de.microsoft

Microsoft Analyzer dla języka niemieckiego.

de.lucene

Analizator Lucene dla języka niemieckiego.

el.microsoft

Microsoft Analyzer dla języka greckiego.

el.lucene

Analizator Lucene dla języka greckiego.

gu.microsoft

Microsoft Analyzer dla języka gudżarati.

he.microsoft

Microsoft Analyzer dla języka hebrajskiego.

hi.microsoft

Microsoft Analyzer dla języka hindi.

hi.lucene

Lucene analyzer dla języka hindi.

hu.microsoft

Microsoft Analyzer dla języka węgierskiego.

hu.lucene

Analizator Lucene dla języka węgierskiego.

is.microsoft

Microsoft Analyzer dla języka islandzkiego.

id.microsoft

Microsoft Analyzer dla języka indonezyjskiego (Bahasa).

id.lucene

Analizator Lucene dla języka indonezyjskiego.

ga.lucene

Analizator Lucene dla języka irlandzkiego.

it.microsoft

Microsoft Analyzer dla języka włoskiego.

it.lucene

Analizator Lucene dla języka włoskiego.

ja.microsoft

Microsoft Analyzer dla języka japońskiego.

ja.lucene

Analizator Lucene dla języka japońskiego.

kn.microsoft

Microsoft Analyzer dla Kannada.

ko.microsoft

Microsoft Analyzer dla języka koreańskiego.

ko.lucene

Analizator Lucene dla języka koreańskiego.

lv.microsoft

Microsoft Analyzer dla języka łotewskiego.

lv.lucene

Lucene analyzer dla języka łotewskiego.

lt.microsoft

Microsoft Analyzer dla języka litewskiego.

ml.microsoft

Microsoft Analyzer dla języka malayalam.

ms.microsoft

Microsoft Analyzer dla języka malajskiego (łacińskiego).

mr.microsoft

Microsoft Analyzer dla Marathi.

nb.microsoft

Microsoft Analyzer dla języka norweskiego (Bokmål).

no.lucene

Analizator Lucene dla języka norweskiego.

fa.lucene

Analizator Lucene dla języka perskiego.

pl.microsoft

Microsoft analyzer dla języka polskiego.

pl.lucene

Analizator Lucene dla języka polskiego.

pt-BR.microsoft

Microsoft Analyzer dla języka portugalskiego (Brazylia).

pt-BR.lucene

Analizator Lucene dla języka portugalskiego (Brazylia).

pt-PT.microsoft

Microsoft Analyzer dla języka portugalskiego (Portugalia).

pt-PT.lucene

Analizator Lucene dla języka portugalskiego (Portugalia).

pa.microsoft

Microsoft Analyzer dla języka pendżabskiego.

ro.microsoft

Microsoft Analyzer dla języka rumuńskiego.

ro.lucene

Analizator Lucene dla języka rumuńskiego.

ru.microsoft

Microsoft Analyzer dla języka rosyjskiego.

ru.lucene

Analizator Lucene dla języka rosyjskiego.

sr-cyrillic.microsoft

Microsoft Analyzer dla języka serbskiego (cyrylica).

sr-latin.microsoft

Microsoft Analyzer dla języka serbskiego (łacińskiego).

sk.microsoft

Microsoft Analyzer dla języka słowackiego.

sl.microsoft

Microsoft Analyzer dla języka słoweńskiego.

es.microsoft

Microsoft Analyzer dla języka hiszpańskiego.

es.lucene

Analizator Lucene dla języka hiszpańskiego.

sv.microsoft

Microsoft Analyzer dla języka szwedzkiego.

sv.lucene

Analizator Lucene dla języka szwedzkiego.

ta.microsoft

Microsoft Analyzer dla języka tamilskiego.

te.microsoft

Microsoft Analyzer dla języka telugu.

th.microsoft

Microsoft Analyzer dla języka tajskiego.

th.lucene

Analizator Lucene dla języka tajskiego.

tr.microsoft

Microsoft Analyzer dla języka tureckiego.

tr.lucene

Analizator Lucene dla języka tureckiego.

uk.microsoft

Microsoft Analyzer dla języka ukraińskiego.

ur.microsoft

Microsoft Analyzer dla języka urdu.

vi.microsoft

Microsoft Analyzer dla wietnamskiego.

standard.lucene

Standardowy analizator Lucene.

standardasciifolding.lucene

Standardowy analizator składany ASCII Lucene. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Dzieli tekst na miejsca niebędące literami; Stosuje filtry tokenów małych liter i stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Analizator korzystający z tokenizatora białych znaków. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Definiuje nazwy wszystkich normalizatorów tekstu obsługiwanych przez wyszukiwarkę.

Wartość Opis
asciifolding

Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Usuwa elisje. Na przykład "l'avion" (samolot) zostanie przekształcony w "avion" (samolot). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Normalizuje tekst tokenu na małe litery. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Standardowy normalizator, który składa się z małych liter i asciifoldingu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Normalizuje tekst tokenu do wielkich liter. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

Wartość Opis
classic

Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenizuje dane wejściowe z krawędzi na n-gramy o podanych rozmiarach. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Emituje całe dane wejściowe jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Dzieli tekst na elementy niebędące literami. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Tekst jest dzielony przy użyciu reguł specyficznych dla języka.

microsoft_language_stemming_tokenizer

Dzieli tekst za pomocą reguł specyficznych dla języka i redukuje słowa do ich podstawowych form.

nGram

Tokenizuje dane wejściowe na n-gramy o podanych rozmiarach. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizator dla hierarchii przypominających ścieżki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizator, który używa dopasowania wzorca wyrażeń regularnych do konstruowania odrębnych tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Standardowy analizator Lucene; Składa się ze standardowego tokenizatora, filtru małych liter i filtru zatrzymania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Dzieli tekst w odstępach. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

consumeAllTokens

boolean

False

Wartość wskazująca, czy wszystkie tokeny z danych wejściowych muszą być używane, nawet jeśli maxTokenCount zostanie osiągnięty. Wartość domyślna to „false”.

maxTokenCount

integer (int32)

1

Maksymalna liczba tokenów do wyprodukowania. Wartość domyślna to 1.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

LuceneStandardAnalyzer

Standardowy analizator Apache Lucene; Składa się ze standardowego tokenizatora, filtru małych liter i filtru zatrzymania.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Fragment identyfikatora URI określający typ analizatora.

maxTokenLength

integer (int32)

maximum: 300
255

Maksymalna długość tokena. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków.

name

string

Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

stopwords

string[]

Lista słów zatrzymanych.

LuceneStandardTokenizer

Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

maxTokenLength

integer (int32)

255

Maksymalna długość tokena. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

LuceneStandardTokenizerV2

Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Fragment identyfikatora URI określający typ tokenizatora.

maxTokenLength

integer (int32)

maximum: 300
255

Maksymalna długość tokena. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

MagnitudeScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego.

Nazwa Typ Opis
boost

number (double)

Mnożnik dla surowego wyniku. Musi być liczbą dodatnią nierówną 1,0.

fieldName

string

Nazwa pola używanego jako dane wejściowe dla funkcji oceniania.

interpolation

ScoringFunctionInterpolation

Wartość wskazująca, w jaki sposób zwiększanie będzie interpolowane między wynikami dokumentu; Domyślnie jest to "Liniowy".

magnitude

MagnitudeScoringParameters

Wartości parametrów funkcji oceniania wielkości.

type string:

magnitude

Wskazuje typ funkcji, która ma być używana. Prawidłowe wartości to wielkość, świeżość, odległość i tag. Typ funkcji musi być pisany małymi literami.

MagnitudeScoringParameters

Dostarcza wartości parametrów do funkcji oceniania wielkości.

Nazwa Typ Opis
boostingRangeEnd

number (double)

Wartość pola, na której kończy się boosting.

boostingRangeStart

number (double)

Wartość pola, od której rozpoczyna się boosting.

constantBoostBeyondRange

boolean

wartość wskazująca, czy należy zastosować stałe zwiększenie dla wartości pola wykraczających poza wartość końcową zakresu; Wartość domyślna to false.

MappingCharFilter

Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mappings. Dopasowanie jest zachłanne (wygrywa najdłuższe dopasowanie wzoru w danym punkcie). Zamiana może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Fragment identyfikatora URI określający typ filtru char.

mappings

string[]

Wykaz odwzorowań w następującym formacie: "a=>b" (wszystkie wystąpienia znaku "a" zostaną zastąpione znakiem "b").

name

string

Nazwa filtru znaków. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

MicrosoftLanguageStemmingTokenizer

Dzieli tekst za pomocą reguł specyficznych dla języka i redukuje słowa do ich podstawowych form.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

isSearchTokenizer

boolean

False

Wartość wskazująca, w jaki sposób tokenizator jest używany. Ustaw wartość true, jeśli jest używany jako tokenizator wyszukiwania, ustaw wartość false, jeśli jest używany jako tokenizator indeksowania. Wartość domyślna to „false”.

language

MicrosoftStemmingTokenizerLanguage

Język, którego należy używać. Wartość domyślna to język angielski.

maxTokenLength

integer (int32)

maximum: 300
255

Maksymalna długość tokena. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw dzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest dzielony na podstawie ustawionej maksymalnej długości tokena. Wartość domyślna to 255.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

MicrosoftLanguageTokenizer

Tekst jest dzielony przy użyciu reguł specyficznych dla języka.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

isSearchTokenizer

boolean

False

Wartość wskazująca, w jaki sposób tokenizator jest używany. Ustaw wartość true, jeśli jest używany jako tokenizator wyszukiwania, ustaw wartość false, jeśli jest używany jako tokenizator indeksowania. Wartość domyślna to „false”.

language

MicrosoftTokenizerLanguage

Język, którego należy używać. Wartość domyślna to język angielski.

maxTokenLength

integer (int32)

maximum: 300
255

Maksymalna długość tokena. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw dzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest dzielony na podstawie ustawionej maksymalnej długości tokena. Wartość domyślna to 255.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

MicrosoftStemmingTokenizerLanguage

Wyświetla listę języków obsługiwanych przez tokenizator pochodzenia języka firmy Microsoft.

Wartość Opis
arabic

Wybiera tokenizator macierzysty firmy Microsoft dla języka arabskiego.

bangla

Wybiera tokenizator macierzysty firmy Microsoft dla języka Bangla.

bulgarian

Wybiera tokenizator macierzysty firmy Microsoft dla języka bułgarskiego.

catalan

Wybiera tokenizator macierzysty firmy Microsoft dla języka katalońskiego.

croatian

Wybiera tokenizator macierzysty firmy Microsoft dla języka chorwackiego.

czech

Wybiera tokenizator macierzysty firmy Microsoft dla języka czeskiego.

danish

Wybiera tokenizator macierzysty firmy Microsoft dla języka duńskiego.

dutch

Wybiera tokenizator macierzysty firmy Microsoft dla języka niderlandzkiego.

english

Wybiera tokenizator macierzysty firmy Microsoft dla języka angielskiego.

estonian

Wybiera tokenizator macierzysty firmy Microsoft dla języka estońskiego.

finnish

Wybiera tokenizator macierzysty firmy Microsoft dla języka fińskiego.

french

Wybiera tokenizator macierzysty firmy Microsoft dla języka francuskiego.

german

Wybiera tokenizator macierzysty firmy Microsoft dla języka niemieckiego.

greek

Wybiera tokenizator macierzysty firmy Microsoft dla języka greckiego.

gujarati

Wybiera tokenizator macierzysty firmy Microsoft dla języka gudżarati.

hebrew

Wybiera tokenizator macierzysty firmy Microsoft dla języka hebrajskiego.

hindi

Wybiera tokenizator macierzysty firmy Microsoft dla języka hindi.

hungarian

Wybiera tokenizator macierzysty firmy Microsoft dla języka węgierskiego.

icelandic

Wybiera tokenizator macierzysty firmy Microsoft dla języka islandzkiego.

indonesian

Wybiera tokenizator macierzysty firmy Microsoft dla języka indonezyjskiego.

italian

Wybiera tokenizator macierzysty firmy Microsoft dla języka włoskiego.

kannada

Wybiera tokenizator macierzysty firmy Microsoft dla Kannada.

latvian

Wybiera tokenizator macierzysty firmy Microsoft dla języka łotewskiego.

lithuanian

Wybiera tokenizator macierzysty firmy Microsoft dla języka litewskiego.

malay

Wybiera tokenizator macierzysty firmy Microsoft dla języka malajskiego.

malayalam

Wybiera tokenizator macierzysty firmy Microsoft dla języka malajalam.

marathi

Wybiera tokenizator macierzysty firmy Microsoft dla języka Marathi.

norwegianBokmaal

Wybiera tokenizator macierzysty firmy Microsoft dla języka norweskiego (Bokmål).

polish

Wybiera tokenizator macierzysty Microsoft dla języka polskiego.

portuguese

Wybiera tokenizator macierzysty firmy Microsoft dla języka portugalskiego.

portugueseBrazilian

Wybiera tokenizator macierzysty firmy Microsoft dla języka portugalskiego (Brazylia).

punjabi

Wybiera tokenizator macierzysty firmy Microsoft dla języka pendżabskiego.

romanian

Wybiera tokenizator macierzysty firmy Microsoft dla języka rumuńskiego.

russian

Wybiera tokenizator macierzysty firmy Microsoft dla języka rosyjskiego.

serbianCyrillic

Wybiera tokenizator macierzysty firmy Microsoft dla języka serbskiego (cyrylica).

serbianLatin

Wybiera tokenizator macierzysty firmy Microsoft dla języka serbskiego (łacińskiego).

slovak

Wybiera tokenizator macierzysty firmy Microsoft dla języka słowackiego.

slovenian

Wybiera tokenizator macierzysty firmy Microsoft dla języka słoweńskiego.

spanish

Wybiera tokenizator macierzysty firmy Microsoft dla języka hiszpańskiego.

swedish

Wybiera tokenizator macierzysty firmy Microsoft dla języka szwedzkiego.

tamil

Wybiera tokenizator macierzysty firmy Microsoft dla języka tamilskiego.

telugu

Wybiera tokenizator macierzysty firmy Microsoft dla języka telugu.

turkish

Wybiera tokenizator macierzysty firmy Microsoft dla języka tureckiego.

ukrainian

Wybiera tokenizator macierzysty firmy Microsoft dla języka ukraińskiego.

urdu

Wybiera tokenizator macierzysty firmy Microsoft dla języka urdu.

MicrosoftTokenizerLanguage

Wyświetla listę języków obsługiwanych przez tokenizator języka firmy Microsoft.

Wartość Opis
bangla

Wybiera tokenizator firmy Microsoft dla języka Bangla.

bulgarian

Wybiera tokenizator firmy Microsoft dla języka bułgarskiego.

catalan

Wybiera tokenizator firmy Microsoft dla języka katalońskiego.

chineseSimplified

Wybiera tokenizator firmy Microsoft dla języka chińskiego (uproszczonego).

chineseTraditional

Wybiera tokenizator firmy Microsoft dla języka chińskiego (tradycyjnego).

croatian

Wybiera tokenizator firmy Microsoft dla języka chorwackiego.

czech

Wybiera tokenizator firmy Microsoft dla języka czeskiego.

danish

Wybiera tokenizator firmy Microsoft dla języka duńskiego.

dutch

Wybiera tokenizator firmy Microsoft dla języka niderlandzkiego.

english

Wybiera tokenizator firmy Microsoft dla języka angielskiego.

french

Wybiera tokenizator firmy Microsoft dla języka francuskiego.

german

Wybiera tokenizator firmy Microsoft dla języka niemieckiego.

greek

Wybiera tokenizator firmy Microsoft dla języka greckiego.

gujarati

Wybiera tokenizator firmy Microsoft dla języka gudżarati.

hindi

Wybiera tokenizator firmy Microsoft dla języka hindi.

icelandic

Wybiera tokenizator firmy Microsoft dla języka islandzkiego.

indonesian

Wybiera tokenizator firmy Microsoft dla języka indonezyjskiego.

italian

Wybiera tokenizator firmy Microsoft dla języka włoskiego.

japanese

Wybiera tokenizator firmy Microsoft dla języka japońskiego.

kannada

Wybiera tokenizator firmy Microsoft dla platformy Kannada.

korean

Wybiera tokenizator firmy Microsoft dla języka koreańskiego.

malay

Wybiera tokenizator firmy Microsoft dla języka malajskiego.

malayalam

Wybiera tokenizator firmy Microsoft dla języka malajalam.

marathi

Wybiera tokenizator firmy Microsoft dla języka Marathi.

norwegianBokmaal

Wybiera tokenizator firmy Microsoft dla języka norweskiego (Bokmål).

polish

Wybiera tokenizator Microsoft dla języka polskiego.

portuguese

Wybiera tokenizator firmy Microsoft dla języka portugalskiego.

portugueseBrazilian

Wybiera tokenizator firmy Microsoft dla języka portugalskiego (Brazylia).

punjabi

Wybiera tokenizator firmy Microsoft dla języka pendżabskiego.

romanian

Wybiera tokenizator firmy Microsoft dla języka rumuńskiego.

russian

Wybiera tokenizator firmy Microsoft dla języka rosyjskiego.

serbianCyrillic

Wybiera tokenizator firmy Microsoft dla języka serbskiego (cyrylica).

serbianLatin

Wybiera tokenizator firmy Microsoft dla języka serbskiego (łacińskiego).

slovenian

Wybiera tokenizator firmy Microsoft dla języka słoweńskiego.

spanish

Wybiera tokenizator firmy Microsoft dla języka hiszpańskiego.

swedish

Wybiera tokenizator firmy Microsoft dla języka szwedzkiego.

tamil

Wybiera tokenizator firmy Microsoft dla języka tamilskiego.

telugu

Wybiera tokenizator firmy Microsoft dla języka telugu.

thai

Wybiera tokenizator firmy Microsoft dla języka tajskiego.

ukrainian

Wybiera tokenizator firmy Microsoft dla języka ukraińskiego.

urdu

Wybiera tokenizator firmy Microsoft dla języka urdu.

vietnamese

Wybiera tokenizator firmy Microsoft dla języka wietnamskiego.

NGramTokenFilter

Generuje n-gramy o podanych rozmiarach. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

maxGram

integer (int32)

2

Maksymalna długość n-grama. Wartość domyślna to 2.

minGram

integer (int32)

1

Minimalna długość n-grama. Wartość domyślna to 1. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

NGramTokenFilterV2

Generuje n-gramy o podanych rozmiarach. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Fragment identyfikatora URI określający typ filtru tokenów.

maxGram

integer (int32)

maximum: 300
2

Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalnie 300.

minGram

integer (int32)

maximum: 300
1

Minimalna długość n-grama. Wartość domyślna to 1. Maksymalnie 300. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

NGramTokenizer

Tokenizuje dane wejściowe na n-gramy o podanych rozmiarach. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

maxGram

integer (int32)

maximum: 300
2

Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalnie 300.

minGram

integer (int32)

maximum: 300
1

Minimalna długość n-grama. Wartość domyślna to 1. Maksymalnie 300. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

tokenChars

TokenCharacterKind[]

Klasy postaci, które należy zachować w tokenach.

OutputFieldMappingEntry

Mapowanie pola wyjściowego dla umiejętności.

Nazwa Typ Opis
name

string

Nazwa danych wyjściowych zdefiniowanych przez umiejętność.

targetName

string

Docelowa nazwa danych wyjściowych. Jest to opcjonalne i domyślnie ma nazwę użytkownika.

PathHierarchyTokenizerV2

Tokenizator dla hierarchii przypominających ścieżki. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Fragment identyfikatora URI określający typ tokenizatora.

delimiter

string (char)

/

Znak ogranicznika, który ma być używany. Wartość domyślna to "/".

maxTokenLength

integer (int32)

maximum: 300
300

Maksymalna długość tokena. Wartość domyślna i maksymalna to 300.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

replacement

string (char)

/

Wartość, która, jeśli jest ustawiona, zastępuje znak ogranicznika. Wartość domyślna to "/".

reverse

boolean

False

Wartość wskazująca, czy tokeny mają być generowane w odwrotnej kolejności. Wartość domyślna to „false”.

skip

integer (int32)

0

Liczba początkowych tokenów do pominięcia. Wartość domyślna to 0.

PatternAnalyzer

Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Fragment identyfikatora URI określający typ analizatora.

flags

RegexFlags

Flagi wyrażeń regularnych.

lowercase

boolean

True

Wartość wskazująca, czy terminy powinny być pisane małymi literami. Wartość domyślna to true.

name

string

Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

pattern

string

\W+

Wzorzec wyrażenia regularnego pasujący do separatorów tokenów. Wartość domyślna to wyrażenie, które pasuje do co najmniej jednego znaku innego niż słowo.

stopwords

string[]

Lista słów zatrzymanych.

PatternCaptureTokenFilter

Używa wyrażeń regularnych języka Java do emitowania wielu tokenów — po jednym dla każdej grupy przechwytywania w co najmniej jednym wzorcu. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

patterns

string[]

Lista wzorców do dopasowania do każdego tokenu.

preserveOriginal

boolean

True

Wartość wskazująca, czy zwrócić oryginalny token, nawet jeśli jeden z wzorców jest zgodny. Wartość domyślna to true.

PatternReplaceCharFilter

Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków do zachowania i wzorca zastępczego do identyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zamianę "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Fragment identyfikatora URI określający typ filtru char.

name

string

Nazwa filtru znaków. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

pattern

string

Wzorzec wyrażenia regularnego.

replacement

string

Tekst zastępczy.

PatternReplaceTokenFilter

Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków do zachowania i wzorca zastępczego do identyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zamianę "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

pattern

string

Wzorzec wyrażenia regularnego.

replacement

string

Tekst zastępczy.

PatternTokenizer

Tokenizator, który używa dopasowania wzorca wyrażeń regularnych do konstruowania odrębnych tokenów. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

flags

RegexFlags

Flagi wyrażeń regularnych.

group

integer (int32)

-1

Liczba porządkowa liczona od zera pasującej grupy we wzorcu wyrażenia regularnego do wyodrębnienia do tokenów. Użyj -1, jeśli chcesz użyć całego wzorca, aby podzielić dane wejściowe na tokeny, niezależnie od pasujących grup. Wartość domyślna to -1.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

pattern

string

\W+

Wzorzec wyrażenia regularnego pasujący do separatorów tokenów. Wartość domyślna to wyrażenie, które pasuje do co najmniej jednego znaku innego niż słowo.

PhoneticEncoder

Identyfikuje typ kodera fonetycznego, który ma być używany z filtrem PhoneticTokenFilter.

Wartość Opis
metaphone

Koduje token na wartość Metaphone.

doubleMetaphone

Koduje token na podwójną wartość metaphone.

soundex

Koduje token na wartość Soundex.

refinedSoundex

Koduje token na wartość Refined Soundex.

caverphone1

Koduje token na wartość Caverphone 1.0.

caverphone2

Koduje token do wartości Caverphone 2.0.

cologne

Koduje token na wartość fonetyczną kolońską.

nysiis

Koduje token na wartość NYSIIS.

koelnerPhonetik

Koduje token przy użyciu algorytmu Kölner Phonetik.

haasePhonetik

Koduje token przy użyciu udoskonalenia algorytmu Kölner Phonetik przez Haase.

beiderMorse

Koduje token na wartość Beider-Morse.

PhoneticTokenFilter

Utwórz tokeny dla dopasowań fonetycznych. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

encoder

PhoneticEncoder

metaphone

Koder fonetyczny, który ma być używany. Wartość domyślna to "metaphone".

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

replace

boolean

True

Wartość wskazująca, czy zakodowane tokeny powinny zastąpić oryginalne tokeny. W przypadku wartości false zakodowane tokeny są dodawane jako synonimy. Wartość domyślna to true.

PrioritizedFields

Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi.

Nazwa Typ Opis
prioritizedContentFields

SemanticField[]

Definiuje pola zawartości, które mają być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać tekst w formie języka naturalnego. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa.

prioritizedKeywordsFields

SemanticField[]

Definiuje pola słów kluczowych, które mają być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać listę słów kluczowych. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa.

titleField

SemanticField

Definiuje pole tytułu, które ma być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi. Jeśli w indeksie nie ma pola tytułu, pozostaw to pole puste.

RankingOrder

Reprezentuje wynik, który ma być używany do sortowania dokumentów.

Wartość Opis
BoostedRerankerScore

Ustawia porządek sortowania jako BoostedRerankerScore

RerankerScore

Ustawia porządek sortowania jako ReRankerScore

RegexFlags

Definiuje flagi, które można łączyć w celu kontrolowania sposobu używania wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorców.

Wartość Opis
CANON_EQ

Umożliwia równoważność kanoniczną.

CASE_INSENSITIVE

Włącza dopasowywanie bez uwzględniania wielkości liter.

COMMENTS

Zezwala na białe znaki i komentarze we wzorcu.

DOTALL

Włącza tryb kropki.

LITERAL

Umożliwia dosłowne analizowanie wzorca.

MULTILINE

Włącza tryb wielowierszowy.

UNICODE_CASE

Umożliwia składanie kopert z uwzględnieniem standardu Unicode.

UNIX_LINES

Włącza tryb linii uniksowych.

RescoringOptions

Zawiera opcje ponownego odtwarzania.

Nazwa Typ Domyślna wartość Opis
defaultOversampling

number (double)

Domyślny współczynnik nadpróbkowania. Nadmierne próbkowanie pobiera większy zestaw potencjalnych dokumentów, aby zrekompensować utratę rozdzielczości spowodowaną kwantyzacją. Zwiększa to zestaw wyników, które zostaną ponownie ocenione na wektorach o pełnej precyzji. Minimalna wartość to 1, co oznacza brak nadpróbkowania (1x). Ten parametr można ustawić tylko wtedy, gdy wartość "enableRescoring" ma wartość true. Wyższe wartości poprawiają przywoływanie kosztem opóźnienia.

enableRescoring

boolean

True

Jeśli ustawiona jest wartość true, po początkowym wyszukiwaniu w skompresowanych wektorach wyniki podobieństwa są ponownie obliczane przy użyciu wektorów o pełnej precyzji. Poprawi to przywoływanie kosztem opóźnień.

rescoreStorageMethod

VectorSearchCompressionRescoreStorageMethod

preserveOriginals

Steruje metodą przechowywania oryginalnych wektorów. To ustawienie jest niezmienne.

ScalarQuantizationParameters

Zawiera parametry specyficzne dla kwantyzacji skalarnej.

Nazwa Typ Opis
quantizedDataType

VectorSearchCompressionTargetDataType

Skwantyzowany typ danych skompresowanych wartości wektorowych.

ScalarQuantizationVectorSearchCompressionConfiguration

Zawiera opcje konfiguracyjne specyficzne dla metody kompresji kwantyzacji skalarnej używanej podczas indeksowania i wykonywania zapytań.

Nazwa Typ Opis
kind string:

scalarQuantization

Nazwa rodzaju metody kompresji konfigurowanej do użycia z wyszukiwaniem wektorowym.

name

string

Nazwa, która ma być skojarzona z tą konkretną konfiguracją.

rescoringOptions

RescoringOptions

Zawiera opcje ponownego odtwarzania.

scalarQuantizationParameters

ScalarQuantizationParameters

Zawiera parametry specyficzne dla kwantyzacji skalarnej.

truncationDimension

integer (int32)

Liczba wymiarów, do których mają zostać obcięte wektory. Obcinanie wektorów zmniejsza ich rozmiar i ilość danych, które muszą zostać przesłane podczas wyszukiwania. Może to zaoszczędzić na kosztach pamięci masowej i poprawić wydajność wyszukiwania kosztem zapamiętywania. Powinien być używany tylko do osadzania wytrenowanego za pomocą Matryoshka Representation Learning (MRL), takiego jak OpenAI text-embedding-3-large (small). Wartość domyślna to null, co oznacza brak obcinania.

ScoringFunctionAggregation

Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania.

Wartość Opis
sum

Zwiększ wyniki o sumę wszystkich wyników funkcji oceniania.

average

Zwiększ wyniki o średnią wszystkich wyników funkcji oceniania.

minimum

Zwiększ wyniki o minimum wszystkich wyników funkcji oceniania.

maximum

Zwiększ wyniki o maksymalną liczbę wszystkich wyników funkcji oceniania.

firstMatching

Zwiększ wyniki, korzystając z pierwszej odpowiedniej funkcji punktacji w profilu oceniania.

ScoringFunctionInterpolation

Definiuje funkcję używaną do interpolacji zwiększania wyników w zakresie dokumentów.

Wartość Opis
linear

Zwiększa wyniki o wartość malejącą liniowo. Jest to domyślna interpolacja dla funkcji oceniania.

constant

Zwiększa wyniki o stały czynnik.

quadratic

Zwiększa wyniki o wartość, która zmniejsza się kwadratowo. Wzmocnienia zmniejszają się powoli w przypadku wyższych wyników i szybciej w miarę zmniejszania się wyników. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów.

logarithmic

Zwiększa wyniki o wartość, która maleje logarytmicznie. Wzmocnienia zmniejszają się szybko w przypadku wyższych wyników i wolniej w miarę zmniejszania się wyników. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów.

ScoringProfile

Definiuje parametry indeksu wyszukiwania, które wpływają na ocenianie w zapytaniach wyszukiwania.

Nazwa Typ Opis
functionAggregation

ScoringFunctionAggregation

Wartość wskazująca, w jaki sposób powinny być łączone wyniki poszczególnych funkcji oceniania. Wartość domyślna to "Suma". Ignorowane, jeśli nie ma funkcji oceniania.

functions ScoringFunction[]:

Zbiór funkcji, które wpływają na punktację dokumentów.

name

string

Nazwa profilu oceniania.

text

TextWeights

Parametry, które zwiększają ocenianie na podstawie dopasowań tekstu w niektórych polach indeksu.

SearchField

Reprezentuje pole w definicji indeksu, która opisuje nazwę, typ danych i zachowanie wyszukiwania pola.

Nazwa Typ Opis
analyzer

LexicalAnalyzerName

Nazwa analizatora, który ma być używany dla pola. Ta opcja może być używana tylko z polami z możliwością wyszukiwania i nie można jej ustawić razem z searchAnalyzer lub indexAnalyzer. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych.

dimensions

integer (int32)

minimum: 2
maximum: 4096

Wymiarowość pola wektorowego.

facetable

boolean

Wartość wskazująca, czy włączyć odwoływanie się do pola w zapytaniach aspektowych. Zazwyczaj używane w prezentacji wyników wyszukiwania, które obejmują liczbę trafień według kategorii (na przykład wyszukiwanie aparatów cyfrowych i wyświetlanie trafień według marki, megapikseli, ceny itd.). Ta właściwość musi mieć wartość null dla pól złożonych. Pola typu Edm.GeographyPoint lub Collection(Edm.GeographyPoint) nie mogą być aspektowalne. Wartość domyślna to true dla wszystkich innych pól prostych.

fields

SearchField[]

Lista pól podrzędnych, jeśli jest to pole typu Edm.ComplexType lub Collection(Edm.ComplexType). Musi mieć wartość null lub pustą w przypadku pól prostych.

filterable

boolean

Wartość wskazująca, czy włączyć odwoływanie się do pola w $filter kwerendach. Filterable różni się od searchable sposobem obsługi ciągów. Pola typu Edm.String lub Collection(Edm.String), które można filtrować, nie są dzielone na wyrazy, więc porównania dotyczą tylko dokładnych dopasowań. Na przykład, jeśli ustawisz takie pole f na "słoneczny dzień", $filter=f eq 'słoneczny' nie znajdzie żadnych dopasowań, ale $filter=f eq 'słoneczny dzień' będzie. Ta właściwość musi mieć wartość null dla pól złożonych. Wartość domyślna to true dla pól prostych i null dla pól złożonych.

indexAnalyzer

LexicalAnalyzerName

Nazwa analizatora używanego w czasie indeksowania dla pola. Tej opcji można używać tylko w przypadku pól, które można przeszukiwać. Musi być ustawiony razem z searchAnalyzer i nie może być ustawiony razem z opcją analyzer. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego użyj właściwości Analyzer, jeśli potrzebujesz analizatora języka. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych.

key

boolean

Wartość wskazująca, czy pole jednoznacznie identyfikuje dokumenty w indeksie. Dokładnie jedno pole najwyższego poziomu w każdym indeksie musi być wybrane jako pole kluczowe i musi być typu Edm.String. Pola klucza mogą służyć do bezpośredniego wyszukiwania dokumentów i aktualizowania lub usuwania określonych dokumentów. Wartość domyślna to false dla pól prostych i null dla pól złożonych.

name

string

Nazwa pola, która musi być unikatowa w kolekcji pól indeksu lub pola nadrzędnego.

normalizer

LexicalNormalizerName

Nazwa normalizatora, który ma być używany dla pola. Tej opcji można używać tylko w przypadku pól z włączoną możliwością filtrowania, sortowania lub aspektowania. Po wybraniu normalizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych.

retrievable

boolean

Wartość wskazująca, czy pole może zostać zwrócone w wyniku wyszukiwania. Tę opcję można wyłączyć, jeśli pole (na przykład margines) ma być używane jako mechanizm filtrowania, sortowania lub oceniania, ale nie chce, aby pole było widoczne dla użytkownika końcowego. Ta właściwość musi być prawdziwa dla pól kluczowych i musi mieć wartość null dla pól złożonych. Tę właściwość można zmienić w istniejących polach. Włączenie tej właściwości nie powoduje żadnego wzrostu wymagań dotyczących magazynu indeksów. Wartość domyślna to true dla pól prostych, false dla pól wektorowych i null dla pól złożonych.

searchAnalyzer

LexicalAnalyzerName

Nazwa analizatora używanego w czasie wyszukiwania pola. Tej opcji można używać tylko w przypadku pól, które można przeszukiwać. Musi być ustawiony razem z indexAnalyzer i nie może być ustawiony razem z opcją analyzer. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego użyj właściwości Analyzer, jeśli potrzebujesz analizatora języka. Ten analizator można zaktualizować na istniejącym polu. Musi mieć wartość null dla pól złożonych.

searchable

boolean

Wartość wskazująca, czy pole można przeszukiwać w trybie pełnotekstowym. Oznacza to, że podczas indeksowania zostanie poddany analizie, takiej jak dzielenie słów. Jeśli ustawisz pole z możliwością wyszukiwania na wartość taką jak "słoneczny dzień", wewnętrznie zostanie ono podzielone na poszczególne tokeny "słoneczny" i "dzień". Umożliwia to wyszukiwanie pełnotekstowe dla tych terminów. Pola typu Edm.String lub Collection(Edm.String) można przeszukiwać domyślnie. Ta właściwość musi mieć wartość false dla prostych pól innych typów danych innych niż ciągi i musi mieć wartość null dla pól złożonych. Uwaga: pola z możliwością wyszukiwania zużywają dodatkowe miejsce w indeksie, aby pomieścić dodatkowe tokenizowane wersje wartości pola na potrzeby wyszukiwania pełnotekstowego. Jeśli chcesz zaoszczędzić miejsce w indeksie i nie potrzebujesz pola, które ma być uwzględniane w wyszukiwaniach, ustaw wartość z możliwością wyszukiwania na wartość false.

sortable

boolean

Wartość wskazująca, czy włączyć odwoływanie się do pola w wyrażeniach $orderby. Domyślnie wyszukiwarka sortuje wyniki według wyniku, ale w wielu przypadkach użytkownicy będą chcieli sortować według pól w dokumentach. Proste pole można sortować tylko wtedy, gdy jest jednowartościowe (ma pojedynczą wartość w zakresie dokumentu nadrzędnego). Nie można sortować prostych pól kolekcji, ponieważ są one wielowartościowe. Proste pola podrzędne złożonych kolekcji są również wielowartościowe i dlatego nie można ich sortować. Dotyczy to zarówno natychmiastowego pola nadrzędnego, jak i pola przodka, czyli kolekcji złożonej. Pól złożonych nie można sortować, a właściwość sortable musi mieć wartość null dla takich pól. Wartość domyślna sortowalnych to true dla prostych pól jednowartościowych, false dla prostych pól wielowartościowych i null dla pól złożonych.

stored

boolean

Niezmienna wartość wskazująca, czy pole zostanie utrwalone oddzielnie na dysku, aby zostało zwrócone w wyniku wyszukiwania. Możesz wyłączyć tę opcję, jeśli nie planujesz zwracać zawartości pola w odpowiedzi wyszukiwania, aby zaoszczędzić na narzutach magazynu. Można to ustawić tylko podczas tworzenia indeksu i tylko dla pól wektorowych. Tej właściwości nie można zmienić dla istniejących pól ani ustawić jako false dla nowych pól. Jeśli ta właściwość jest ustawiona na false, właściwość "retrievable" musi być również ustawiona na false. Ta właściwość musi mieć wartość true lub unset dla pól kluczowych, dla nowych pól i dla pól niebędących wektorami, a także musi mieć wartość null dla pól złożonych. Wyłączenie tej właściwości zmniejszy wymagania dotyczące magazynu indeksu. Wartość domyślna to prawda dla pól wektorowych.

synonymMaps

string[]

Lista nazw map synonimów do skojarzenia z tym polem. Tej opcji można używać tylko w przypadku pól, które można przeszukiwać. Obecnie obsługiwana jest tylko jedna mapa synonimów na pole. Przypisanie mapy synonimów do pola zapewnia, że terminy zapytania przeznaczone dla tego pola są rozszerzane w czasie wykonywania zapytań przy użyciu reguł w mapie synonimów. Ten atrybut można zmienić w istniejących polach. Musi mieć wartość null lub być pustą kolekcją dla pól złożonych.

type

SearchFieldDataType

Typ danych pola.

vectorEncoding

VectorEncodingFormat

Format kodowania służący do interpretowania zawartości pola.

vectorSearchProfile

string

Nazwa profilu wyszukiwania wektorowego, który określa algorytm i wektoryzator, które mają być używane podczas przeszukiwania pola wektorowego.

SearchFieldDataType

Definiuje typ danych pola w indeksie wyszukiwania.

Wartość Opis
Edm.String

Wskazuje, że pole zawiera ciąg znaków.

Edm.Int32

Wskazuje, że pole zawiera 32-bitową liczbę całkowitą ze znakiem.

Edm.Int64

Wskazuje, że pole zawiera 64-bitową liczbę całkowitą ze znakiem.

Edm.Double

Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o podwójnej precyzji IEEE.

Edm.Boolean

Wskazuje, że pole zawiera wartość logiczną (prawda lub fałsz).

Edm.DateTimeOffset

Wskazuje, że pole zawiera wartość daty/godziny, w tym informacje o strefie czasowej.

Edm.GeographyPoint

Wskazuje, że pole zawiera lokalizację geograficzną pod względem długości i szerokości geograficznej.

Edm.ComplexType

Wskazuje, że pole zawiera co najmniej jeden obiekt złożony, który z kolei ma pola podrzędne innych typów.

Edm.Single

Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o pojedynczej precyzji. Jest to prawidłowe tylko wtedy, gdy jest używane z Collection(Edm.Single).

Edm.Half

Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o połowie precyzji. Jest to prawidłowe tylko wtedy, gdy jest używane z Collection(Edm.Half).

Edm.Int16

Wskazuje, że pole zawiera 16-bitową liczbę całkowitą ze znakiem. Jest to prawidłowe tylko wtedy, gdy jest używane z Collection(Edm.Int16).

Edm.SByte

Wskazuje, że pole zawiera 8-bitową liczbę całkowitą ze znakiem. Jest to prawidłowe tylko wtedy, gdy jest używane z Collection(Edm.SByte).

Edm.Byte

Wskazuje, że pole zawiera 8-bitową liczbę całkowitą bez znaku. Jest to ważne tylko wtedy, gdy jest używane z Collection(Edm.Byte).

SearchIndex

Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu.

Nazwa Typ Opis
@odata.etag

string

Element ETag indeksu.

analyzers LexicalAnalyzer[]:

Analizatory indeksu.

charFilters CharFilter[]:

Znak jest filtrowany pod kątem indeksu.

corsOptions

CorsOptions

Opcje sterowania współużytkowaniem zasobów między źródłami (CORS) dla indeksu.

defaultScoringProfile

string

Nazwa profilu oceniania, który ma być używany, jeśli nie zostanie określony w zapytaniu. Jeśli ta właściwość nie jest ustawiona i w zapytaniu nie określono profilu oceniania, zostanie użyte domyślne ocenianie (tf-idf).

description

string

Opis indeksu.

encryptionKey

SearchResourceEncryptionKey

Opis klucza szyfrowania utworzonego w usłudze Azure Key Vault. Ten klucz jest używany w celu zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować Twoich danych. Po zaszyfrowaniu danych na zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Możesz zmienić tę właściwość zgodnie z potrzebami, jeśli chcesz obrócić klucz szyfrowania; Twoje dane pozostaną nienaruszone. Szyfrowanie za pomocą kluczy zarządzanych przez klienta nie jest dostępne w przypadku bezpłatnych usług wyszukiwania i jest dostępne tylko w przypadku płatnych usług utworzonych 1 stycznia 2019 r. lub później.

fields

SearchField[]

Pola indeksu.

name

string

Nazwa indeksu.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Normalizatory indeksu.

scoringProfiles

ScoringProfile[]

Profile oceniania dla indeksu.

semantic

SemanticSettings

Definiuje parametry indeksu wyszukiwania, które mają wpływ na możliwości semantyczne.

similarity Similarity:

Typ algorytmu podobieństwa, który ma być używany podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w momencie tworzenia indeksu i nie można go modyfikować na istniejących indeksach. W przypadku wartości null używany jest algorytm ClassicSimilarity.

suggesters

Suggester[]

Sugesty dotyczące indeksu.

tokenFilters TokenFilter[]:

Token filtruje indeks.

tokenizers LexicalTokenizer[]:

Tokenizatory indeksu.

vectorSearch

VectorSearch

Zawiera opcje konfiguracyjne związane z wyszukiwaniem wektorowym.

SearchIndexerDataNoneIdentity

Czyści właściwość tożsamości źródła danych.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Fragment identyfikatora URI określający typ tożsamości.

SearchIndexerDataUserAssignedIdentity

Określa tożsamość źródła danych, które ma być używane.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Fragment identyfikatora URI określający typ tożsamości.

userAssignedIdentity

string

W pełni kwalifikowany identyfikator zasobu platformy Azure tożsamości zarządzanej przypisanej przez użytkownika zwykle w postaci "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", który powinien zostać przypisany do usługi wyszukiwania.

SearchResourceEncryptionKey

Klucz szyfrowania zarządzany przez klienta w usłudze Azure Key Vault. Klucze, które tworzysz i którymi zarządzasz, mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych, takich jak indeksy i mapy synonimów.

Nazwa Typ Opis
accessCredentials

AzureActiveDirectoryApplicationCredentials

Opcjonalne poświadczenia usługi Azure Active Directory używane do uzyskiwania dostępu do usługi Azure Key Vault. Nie jest to wymagane, jeśli zamiast tego używasz tożsamości zarządzanej.

keyVaultKeyName

string

Nazwa klucza usługi Azure Key Vault, który ma być używany do szyfrowania danych magazynowanych.

keyVaultKeyVersion

string

Wersja klucza usługi Azure Key Vault, która ma być używana do szyfrowania danych magazynowanych.

keyVaultUri

string

Identyfikator URI usługi Azure Key Vault, nazywany również nazwą DNS, który zawiera klucz, który ma być używany do szyfrowania danych magazynowanych. Przykładowym identyfikatorem URI może być https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Definiuje określoną konfigurację, która ma być używana w kontekście możliwości semantycznych.

Nazwa Typ Opis
name

string

Nazwa konfiguracji semantycznej.

prioritizedFields

PrioritizedFields

Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikowania semantycznego, podpisów, wyróżnień i odpowiedzi. Należy ustawić co najmniej jedną z trzech właściwości podrzędnych (titleField, prioritydKeywordsFields i prioritydContentFields).

rankingOrder

RankingOrder

Określa typ punktacji, który ma być używany w kolejności sortowania wyników wyszukiwania.

SemanticField

Pole, które jest używane jako część konfiguracji semantycznej.

Nazwa Typ Opis
fieldName

string

SemanticSettings

Definiuje parametry indeksu wyszukiwania, które mają wpływ na możliwości semantyczne.

Nazwa Typ Opis
configurations

SemanticConfiguration[]

Konfiguracje semantyczne indeksu.

defaultConfiguration

string

Umożliwia ustawienie nazwy domyślnej konfiguracji semantycznej w indeksie, dzięki czemu przekazywanie jej jako parametru zapytania za każdym razem jest opcjonalne.

ShingleTokenFilter

Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

filterToken

string

_

Ciąg do wstawienia dla każdej pozycji, w której nie ma tokenu. Wartość domyślna to podkreślenie ("_").

maxShingleSize

integer (int32)

minimum: 2
2

Maksymalny rozmiar gontów. Wartość domyślna i minimalna to 2.

minShingleSize

integer (int32)

minimum: 2
2

Minimalny rozmiar gontu. Wartość domyślna i minimalna to 2. Musi być mniejsza niż wartość maxShingleSize.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

outputUnigrams

boolean

True

Wartość wskazująca, czy strumień wyjściowy będzie zawierał tokeny wejściowe (unigramy), a także gonty. Wartość domyślna to true.

outputUnigramsIfNoShingles

boolean

False

Wartość wskazująca, czy należy wyprowadzać unigramy dla tych czasów, gdy nie są dostępne żadne gonty. Ta właściwość ma pierwszeństwo, gdy outputUnigrams jest ustawiona na false. Wartość domyślna to „false”.

tokenSeparator

string

Ciąg znaków do użycia podczas łączenia sąsiednich żetonów w celu utworzenia gontu. Domyślnie jest to pojedyncza spacja (" ").

SnowballTokenFilter

Filtr, który wyprowadza słowa za pomocą stemmera generowanego przez Snowball. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

language

SnowballTokenFilterLanguage

Język, którego należy używać.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

SnowballTokenFilterLanguage

Język, który ma być używany dla filtru tokenów Snowball.

Wartość Opis
armenian

Wybiera tokenizator macierzysty Lucene Snowball dla języka ormiańskiego.

basque

Wybiera tokenizator macierzysty Lucene Snowball dla języka baskijskiego.

catalan

Wybiera tokenizator macierzysty Lucene Snowball dla języka katalońskiego.

danish

Wybiera tokenizator macierzysty Lucene Snowball dla języka duńskiego.

dutch

Wybiera tokenizator macierzysty Lucene Snowball dla języka niderlandzkiego.

english

Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego.

finnish

Wybiera tokenizator macierzysty Lucene Snowball dla języka fińskiego.

french

Wybiera tokenizator macierzysty Lucene Snowball dla języka francuskiego.

german

Wybiera tokenizator macierzysty Lucene Snowball dla języka niemieckiego.

german2

Wybiera tokenizator stemmujący Lucene Snowball, który wykorzystuje algorytm wariantu niemieckiego.

hungarian

Wybiera tokenizator macierzysty Lucene Snowball dla języka węgierskiego.

italian

Wybiera tokenizator macierzysty Lucene Snowball dla języka włoskiego.

kp

Wybiera tokenizator macierzysty Lucene Snowball dla języka niderlandzkiego, który wykorzystuje algorytm Kraaij-Pohlmann stemming.

lovins

Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego, który korzysta z algorytmu stemowania Lovins.

norwegian

Wybiera tokenizator macierzysty Lucene Snowball dla języka norweskiego.

porter

Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego, który korzysta z algorytmu macierzystego Portera.

portuguese

Wybiera tokenizator macierzysty Lucene Snowball dla języka portugalskiego.

romanian

Wybiera tokenizator macierzysty Lucene Snowball dla języka rumuńskiego.

russian

Wybiera tokenizator macierzysty Lucene Snowball dla języka rosyjskiego.

spanish

Wybiera tokenizator macierzysty Lucene Snowball dla języka hiszpańskiego.

swedish

Wybiera tokenizator macierzysty Lucene Snowball dla języka szwedzkiego.

turkish

Wybiera tokenizator macierzysty Lucene Snowball dla języka tureckiego.

StemmerOverrideTokenFilter

Zapewnia możliwość zastępowania innych filtrów macierzystych za pomocą niestandardowego stemmingu opartego na słowniku. Wszystkie terminy ze słownika będą oznaczone jako słowa kluczowe, aby nie były poprzedzane stemmerami w dół łańcucha. Musi być umieszczony przed jakimikolwiek filtrami trzpieniowymi. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

rules

string[]

Lista reguł macierzystych w następującym formacie: "słowo => rdzeń", na przykład: "ran => run".

StemmerTokenFilter

Filtr macierzysty specyficzny dla języka. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

language

StemmerTokenFilterLanguage

Język, którego należy używać.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

StemmerTokenFilterLanguage

Język, który ma być używany dla filtru tokenu stemmer.

Wartość Opis
arabic

Wybiera tokenizator macierzysty Lucene dla języka arabskiego.

armenian

Wybiera tokenizator wywodzący Lucene dla języka ormiańskiego.

basque

Wybiera tokenizator wywodzący Lucene dla języka baskijskiego.

brazilian

Wybiera tokenizator macierzysty Lucene dla języka portugalskiego (Brazylia).

bulgarian

Wybiera tokenizator macierzysty Lucene dla języka bułgarskiego.

catalan

Wybiera tokenizator wywodzący Lucene dla języka katalońskiego.

czech

Wybiera tokenizator macierzysty Lucene dla języka czeskiego.

danish

Wybiera tokenizator macierzysty Lucene dla języka duńskiego.

dutch

Wybiera tokenizator macierzysty Lucene dla języka niderlandzkiego.

dutchKp

Wybiera tokenizator macierzysty Lucene dla języka niderlandzkiego, który korzysta z algorytmu stemowania Kraaij-Pohlmann.

english

Wybiera tokenizator macierzysty Lucene dla języka angielskiego.

lightEnglish

Wybiera tokenizator macierzysty Lucene dla języka angielskiego, który wykonuje lekkie pniunie.

minimalEnglish

Wybiera tokenizator macierzysty Lucene dla języka angielskiego, który wykonuje minimalne pniu.

possessiveEnglish

Wybiera tokenizator macierzysty Lucene dla języka angielskiego, który usuwa końcowe zaimki dzierżawcze ze słów.

porter2

Wybiera tokenizator macierzysty Lucene dla języka angielskiego, który używa algorytmu macierzystego Porter2.

lovins

Wybiera tokenizator macierzysty Lucene dla języka angielskiego, który korzysta z algorytmu stemowania Lovins.

finnish

Wybiera tokenizator macierzysty Lucene dla języka fińskiego.

lightFinnish

Wybiera tokenizator macierzysty Lucene dla języka fińskiego, który wykonuje lekkie stemming.

french

Wybiera tokenizator macierzysty Lucene dla języka francuskiego.

lightFrench

Wybiera tokenizator macierzysty Lucene dla języka francuskiego, który wykonuje lekkie stemming.

minimalFrench

Wybiera tokenizator macierzysty Lucene dla języka francuskiego, który wykonuje minimalne stemming.

galician

Wybiera tokenizator macierzysty Lucene dla języka galicyjskiego.

minimalGalician

Wybiera tokenizator trzonowy Lucene dla galicyjskiego, który wykonuje minimalne stemming.

german

Wybiera tokenizator macierzysty Lucene dla języka niemieckiego.

german2

Wybiera tokenizator macierzysty Lucene, który używa algorytmu wariantu niemieckiego.

lightGerman

Wybiera tokenizator macierzysty Lucene dla języka niemieckiego, który wykonuje lekkie stemming.

minimalGerman

Wybiera tokenizator macierzysty Lucene dla języka niemieckiego, który wykonuje minimalne stemming.

greek

Wybiera tokenizator macierzysty Lucene dla języka greckiego.

hindi

Wybiera tokenizator macierzysty Lucene dla języka hindi.

hungarian

Wybiera tokenizator macierzysty Lucene dla języka węgierskiego.

lightHungarian

Wybiera tokenizator macierzysty Lucene dla języka węgierskiego, który wykonuje lekkie stemming.

indonesian

Wybiera tokenizator macierzysty Lucene dla języka indonezyjskiego.

irish

Wybiera tokenizator macierzysty Lucene dla języka irlandzkiego.

italian

Wybiera tokenizator macierzysty Lucene dla języka włoskiego.

lightItalian

Wybiera tokenizator trzonowy Lucene dla języka włoskiego, który wykonuje lekkie stemming.

sorani

Wybiera tokenizator wywodzący Lucene dla Sorani.

latvian

Wybiera tokenizator macierzysty Lucene dla języka łotewskiego.

norwegian

Wybiera tokenizator macierzysty Lucene dla języka norweskiego (Bokmål).

lightNorwegian

Wybiera tokenizator macierzysty Lucene dla języka norweskiego (Bokmål), który wykonuje lekkie stemming.

minimalNorwegian

Wybiera tokenizator macierzysty Lucene dla języka norweskiego (Bokmål), który wykonuje minimalne macierzyństwo.

lightNynorsk

Wybiera tokenizator macierzysty Lucene dla języka norweskiego (Nynorsk), który wykonuje lekkie stemming.

minimalNynorsk

Wybiera tokenizator macierzysty Lucene dla języka norweskiego (Nynorsk), który wykonuje minimalne stemming.

portuguese

Wybiera tokenizator macierzysty Lucene dla języka portugalskiego.

lightPortuguese

Wybiera tokenizator macierzysty Lucene dla języka portugalskiego, który wykonuje lekkie stemming.

minimalPortuguese

Wybiera tokenizator macierzysty Lucene dla języka portugalskiego, który wykonuje minimalne stemming.

portugueseRslp

Wybiera tokenizator macierzysty Lucene dla języka portugalskiego, który korzysta z algorytmu stemmingu RSLP.

romanian

Wybiera tokenizator macierzysty Lucene dla języka rumuńskiego.

russian

Wybiera tokenizator wywodzący Lucene dla języka rosyjskiego.

lightRussian

Wybiera tokenizator macierzysty Lucene dla języka rosyjskiego, który wykonuje lekkie stemming.

spanish

Wybiera tokenizator macierzysty Lucene dla języka hiszpańskiego.

lightSpanish

Wybiera tokenizator trzonowy Lucene dla języka hiszpańskiego, który wykonuje lekkie stemming.

swedish

Wybiera tokenizator macierzysty Lucene dla języka szwedzkiego.

lightSwedish

Wybiera tokenizator macierzysty Lucene dla języka szwedzkiego, który wykonuje lekkie stemming.

turkish

Wybiera tokenizator macierzysty Lucene dla języka tureckiego.

StopAnalyzer

Dzieli tekst na miejsca niebędące literami; Stosuje filtry tokenów małych liter i stopword. Ten analizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Fragment identyfikatora URI określający typ analizatora.

name

string

Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

stopwords

string[]

Lista słów zatrzymanych.

StopwordsList

Identyfikuje wstępnie zdefiniowaną listę słów zatrzymania specyficznych dla danego języka.

Wartość Opis
arabic

Wybiera listę słów zatrzymanych dla języka arabskiego.

armenian

Wybiera listę słów zatrzymanych dla języka ormiańskiego.

basque

Wybiera listę słów zatrzymanych dla języka baskijskiego.

brazilian

Wybiera listę słów zatrzymanych dla języka portugalskiego (Brazylia).

bulgarian

Wybiera listę słów zatrzymanych dla języka bułgarskiego.

catalan

Wybiera listę słów zatrzymanych dla języka katalońskiego.

czech

Wybiera listę słów zatrzymanych dla języka czeskiego.

danish

Wybiera listę słów zatrzymania dla języka duńskiego.

dutch

Wybiera listę słów zatrzymanych dla języka niderlandzkiego.

english

Wybiera listę słów zatrzymanych dla języka angielskiego.

finnish

Wybiera listę słów zatrzymanych dla języka fińskiego.

french

Wybiera listę słów zatrzymanych dla języka francuskiego.

galician

Wybiera listę słów zatrzymanych dla języka galicyjskiego.

german

Wybiera listę słów zatrzymanych dla języka niemieckiego.

greek

Wybiera listę słów zatrzymanych dla języka greckiego.

hindi

Wybiera listę słów zatrzymanych dla języka hindi.

hungarian

Wybiera listę słów zatrzymanych dla języka węgierskiego.

indonesian

Wybiera listę słów zatrzymanych dla języka indonezyjskiego.

irish

Wybiera listę słów zatrzymanych dla języka irlandzkiego.

italian

Wybiera listę słów zatrzymanych dla języka włoskiego.

latvian

Wybiera listę słów zatrzymanych dla języka łotewskiego.

norwegian

Wybiera listę słów zatrzymanych dla języka norweskiego.

persian

Wybiera listę słów zatrzymanych dla języka perskiego.

portuguese

Wybiera listę słów zatrzymania dla języka portugalskiego.

romanian

Wybiera listę słów zatrzymanych dla języka rumuńskiego.

russian

Wybiera listę słów zatrzymanych dla języka rosyjskiego.

sorani

Wybiera listę słów zatrzymania dla Sorani.

spanish

Wybiera listę słów zatrzymanych dla języka hiszpańskiego.

swedish

Wybiera listę słów zatrzymanych dla języka szwedzkiego.

thai

Wybiera listę słów zatrzymanych dla języka tajskiego.

turkish

Wybiera listę słów zatrzymanych dla języka tureckiego.

StopwordsTokenFilter

Usuwa wyrazy zatrzymania ze strumienia tokenów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

ignoreCase

boolean

False

Wartość wskazująca, czy wielkość liter ma być ignorowana. Jeśli to prawda, wszystkie słowa są najpierw konwertowane na małe litery. Wartość domyślna to „false”.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

removeTrailing

boolean

True

Wartość wskazująca, czy zignorować ostatni wyszukiwany termin, jeśli jest to słowo zatrzymania. Wartość domyślna to true.

stopwords

string[]

Lista słów stop. Nie można zarówno tej właściwości, jak i właściwości listy słów zatrzymujących.

stopwordsList

StopwordsList

english

Predefiniowana lista słów zatrzymania do użycia. Nie można zarówno tej właściwości, jak i właściwości stopwords. Domyślnie jest to język angielski.

Suggester

Definiuje sposób, w jaki interfejs API sugestii powinien być stosowany do grupy pól w indeksie.

Nazwa Typ Opis
name

string

Nazwa osoby sugerującej.

searchMode

SuggesterSearchMode

Wartość wskazująca możliwości sugestu.

sourceFields

string[]

Lista nazw pól, do których ma zastosowanie sugestia. Każde pole musi być możliwe do przeszukiwania.

SuggesterSearchMode

Wartość wskazująca możliwości sugestu.

Wartość Opis
analyzingInfixMatching

Dopasowuje kolejne całe terminy i prefiksy w polu. Na przykład w przypadku pola "Najszybszy lis brunatny" zapytania "szybki" i "najszybsze brwi" będą zgodne.

SynonymTokenFilter

Dopasowuje synonimy jedno- lub wielowyrazowe w strumieniu tokenów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

expand

boolean

True

Wartość wskazująca, czy wszystkie wyrazy na liście synonimów (jeśli nie jest używana notacja => ) będą mapowane na siebie. Jeśli wartość jest prawdziwa, wszystkie wyrazy na liście synonimów (jeśli => notacja nie jest używana) zostaną odwzorowane na siebie. Poniższa lista: niesamowite, niewiarygodne, fantastyczne, niesamowite jest równoważne: niesamowite, niewiarygodne, fantastyczne, niesamowite => niesamowite, niewiarygodne, fantastyczne, niesamowite. Jeśli jest fałszywa, poniższa lista: niesamowite, niewiarygodne, fantastyczne, niesamowite będzie równoważne: niesamowite, niewiarygodne, fantastyczne, niesamowite => niesamowite. Wartość domyślna to true.

ignoreCase

boolean

False

Wartość wskazująca, czy dane wejściowe mają być składane wielkością liter w celu dopasowania. Wartość domyślna to „false”.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

synonyms

string[]

Lista synonimów w jednym z dwóch formatów: 1. niesamowity, niewiarygodny, fantastyczny => niesamowity - wszystkie terminy po lewej stronie => symbol zostaną zastąpione wszystkimi terminami po jego prawej stronie; 2. Niesamowite, niewiarygodne, fantastyczne, niesamowite - oddzielona przecinkami lista równoważnych słów. Ustaw opcję rozwijania, aby zmienić sposób interpretowania tej listy.

TagScoringFunction

Definiuje funkcję, która zwiększa wyniki dokumentów z wartościami ciągów pasującymi do danej listy tagów.

Nazwa Typ Opis
boost

number (double)

Mnożnik dla surowego wyniku. Musi być liczbą dodatnią nierówną 1,0.

fieldName

string

Nazwa pola używanego jako dane wejściowe dla funkcji oceniania.

interpolation

ScoringFunctionInterpolation

Wartość wskazująca, w jaki sposób zwiększanie będzie interpolowane między wynikami dokumentu; Domyślnie jest to "Liniowy".

tag

TagScoringParameters

Wartości parametrów funkcji oceniania tagów.

type string:

tag

Wskazuje typ funkcji, która ma być używana. Prawidłowe wartości to wielkość, świeżość, odległość i tag. Typ funkcji musi być pisany małymi literami.

TagScoringParameters

Udostępnia wartości parametrów do funkcji oceniania tagów.

Nazwa Typ Opis
tagsParameter

string

Nazwa parametru przekazywanego w zapytaniach wyszukiwania w celu określenia listy tagów do porównania z polem docelowym.

TextWeights

Definiuje wagi w polach indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania.

Nazwa Typ Opis
weights

object

Słownik wag dla poszczególnych pól w celu zwiększenia oceniania dokumentów. Klucze to nazwy pól, a wartości to wagi dla każdego pola.

TokenCharacterKind

Reprezentuje klasy znaków, na których może działać filtr tokenów.

Wartość Opis
letter

Przechowuje litery w tokenach.

digit

Przechowuje cyfry w tokenach.

whitespace

Zachowuje białe znaki w tokenach.

punctuation

Zachowuje znaki interpunkcyjne w tokenach.

symbol

Przechowuje symbole w tokenach.

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

Wartość Opis
arabic_normalization

Filtr tokenu, który stosuje normalizator arabski w celu znormalizowania ortografii. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Usuwa wszystkie znaki po apostrofie (łącznie z samym apostrofem). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Tworzy bigramy terminów CJK, które są generowane ze standardowego tokenizatora. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normalizuje różnice szerokości CJK. Składa warianty ASCII o pełnej szerokości do odpowiednika podstawowego łacińskiego, a warianty katakana o połowie szerokości do równoważnego Kana. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Usuwa angielskie zaimki dzierżawcze i kropki z akronimów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są nadal indeksowane, z nałożonymi bigramami. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Generuje n-gramy o podanych rozmiarach, zaczynając od przodu lub z tyłu tokenu wejściowego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Usuwa elisje. Na przykład "l'avion" (samolot) zostanie przekształcony w "avion" (samolot). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normalizuje znaki niemieckie zgodnie z heurystyką algorytmu kuli śnieżnej German2. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normalizuje tekst w języku hindi, aby usunąć niektóre różnice w odmianach pisowni. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normalizuje reprezentację tekstu Unicode w językach indyjskich. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Emituje każdy token przychodzący dwa razy, raz jako słowo kluczowe i raz jako słowo niekluczowe. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Wysokowydajny filtr kstem dla języka angielskiego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Usuwa słowa, które są za długie lub za krótkie. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Ogranicza liczbę tokenów podczas indeksowania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normalizuje tekst tokenu do małych liter. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Generuje n-gramy o podanych rozmiarach. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Stosuje normalizację dla języka perskiego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Utwórz tokeny dla dopasowań fonetycznych. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Używa algorytmu stemmingu Portera do przekształcania strumienia tokenów. Zobacz http://tartarus.org/~martin/PorterStemmer

reverse

Odwraca ciąg tokenu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Normalizuje użycie wymiennych znaków skandynawskich. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Składa skandynawskie znaki åÅäæÄÆ-a> i öÖøØ-o>. Dyskryminuje również używanie podwójnych samogłosek aa, ae, ao, oe i oo, pozostawiając tylko pierwszą. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Tworzy kombinacje tokenów jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Filtr, który wyprowadza słowa za pomocą stemmera generowanego przez Snowball. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normalizuje reprezentację tekstu Sorani w formacie Unicode. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Filtr macierzysty specyficzny dla języka. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Usuwa wyrazy zatrzymania ze strumienia tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Przycina początkowe i końcowe białe znaki z tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Obcina terminy do określonej długości. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtruje tokeny z tym samym tekstem co poprzedni token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normalizuje tekst tokenu do wielkich liter. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Dzieli wyrazy na podwyrazy i wykonuje opcjonalne przekształcenia w grupach podsłów.

TruncateTokenFilter

Obcina terminy do określonej długości. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

length

integer (int32)

maximum: 300
300

Długość, o jaką terminy zostaną obcięte. Wartość domyślna i maksymalna to 300.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

UaxUrlEmailTokenizer

Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizator jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

maxTokenLength

integer (int32)

maximum: 300
255

Maksymalna długość tokena. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, której można użyć, to 300 znaków.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

UniqueTokenFilter

Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

onlyOnSamePosition

boolean

False

Wartość wskazująca, czy usunąć duplikaty tylko w tym samym położeniu. Wartość domyślna to „false”.

VectorEncodingFormat

Format kodowania służący do interpretowania zawartości pola wektorowego.

Wartość Opis
packedBit

Format kodowania reprezentujący bity spakowane w szerszy typ danych.

VectorSearch

Zawiera opcje konfiguracyjne związane z wyszukiwaniem wektorowym.

Nazwa Typ Opis
algorithms VectorSearchAlgorithmConfiguration[]:

Zawiera opcje konfiguracyjne specyficzne dla algorytmu używanego podczas indeksowania lub wykonywania zapytań.

compressions VectorSearchCompressionConfiguration[]:

Zawiera opcje konfiguracyjne specyficzne dla metody kompresji używanej podczas indeksowania lub wykonywania zapytań.

profiles

VectorSearchProfile[]

Definiuje kombinacje konfiguracji, które mają być używane z wyszukiwaniem wektorowym.

vectorizers VectorSearchVectorizer[]:

Zawiera opcje konfiguracyjne dotyczące wektoryzacji tekstowych zapytań wektorowych.

VectorSearchAlgorithmKind

Algorytm używany do indeksowania i wykonywania zapytań.

Wartość Opis
hnsw

HNSW (Hierarchical Navigable Small World), rodzaj algorytmu przybliżonych najbliższych sąsiadów.

exhaustiveKnn

Wyczerpujący algorytm KNN, który przeprowadzi wyszukiwanie siłowe.

VectorSearchAlgorithmMetric

Metryka podobieństwa, która ma być używana do porównań wektorowych. Zaleca się wybranie tej samej metryki podobieństwa, na której został wytrenowany model osadzania.

Wartość Opis
cosine

Mierzy kąt między wektorami w celu ilościowego określenia ich podobieństwa, bez względu na wielkość. Im mniejszy kąt, tym większe podobieństwo.

euclidean

Oblicza odległość w linii prostej między wektorami w przestrzeni wielowymiarowej. Im mniejsza odległość, tym większe podobieństwo.

dotProduct

Oblicza sumę iloczynów przypadających na elementy, aby ocenić wyrównanie i podobieństwo wielkości. Im większe i bardziej pozytywne, tym bliższe podobieństwo.

hamming

Ma zastosowanie tylko do binarnych typów danych spakowanych bitowo. Określa odmienność, zliczając różne pozycje w wektorach binarnych. Im mniej różnic, tym większe podobieństwo.

VectorSearchCompressionKind

Metoda kompresji używana do indeksowania i wykonywania zapytań.

Wartość Opis
scalarQuantization

Kwantyzacja skalarna, rodzaj metody kompresji. W kwantyzacji skalarnej oryginalne wartości wektorów są kompresowane do węższego typu poprzez dyskretyzację i reprezentowanie każdego składnika wektora przy użyciu zredukowanego zestawu wartości skwantowanych, zmniejszając w ten sposób ogólny rozmiar danych.

binaryQuantization

Kwantyzacja binarna, rodzaj metody kompresji. W kwantyzacji binarnej oryginalne wartości wektorów są kompresowane do węższego typu binarnego przez dyskretyzację i reprezentowanie każdego składnika wektora przy użyciu wartości binarnych, zmniejszając w ten sposób ogólny rozmiar danych.

VectorSearchCompressionRescoreStorageMethod

Metoda przechowywania oryginalnych wektorów o pełnej precyzji używanych do ponownego oceniania i operacji indeksu wewnętrznego.

Wartość Opis
preserveOriginals

Ta opcja powoduje zachowanie oryginalnych wektorów o pełnej precyzji. Wybierz tę opcję, aby uzyskać maksymalną elastyczność i najwyższą jakość skompresowanych wyników wyszukiwania. Zużywa to więcej miejsca na dane, ale pozwala na ponowne ocenianie i nadpróbkowanie.

discardOriginals

Ta opcja powoduje odrzucenie oryginalnych wektorów o pełnej precyzji. Wybierz tę opcję, aby uzyskać maksymalną oszczędność miejsca na dysku. Ponieważ ta opcja nie pozwala na ponowną punktację i nadpróbkowanie, często spowoduje to niewielkie lub umiarkowane obniżenie jakości.

VectorSearchCompressionTargetDataType

Skwantyzowany typ danych skompresowanych wartości wektorowych.

Wartość Opis
int8

VectorSearchProfile

Definiuje kombinację konfiguracji, która ma być używana z wyszukiwaniem wektorowym.

Nazwa Typ Opis
algorithm

string

Nazwa konfiguracji algorytmu wyszukiwania wektorowego, która określa algorytm i parametry opcjonalne.

compression

string

Nazwa konfiguracji metody kompresji, która określa metodę kompresji i parametry opcjonalne.

name

string

Nazwa, która ma być skojarzona z tym konkretnym profilem wyszukiwania wektorowego.

vectorizer

string

Nazwa wektoryzacji konfigurowanej do użycia z wyszukiwaniem wektorowym.

VectorSearchVectorizerKind

Metoda wektoryzacji, która ma być używana w czasie wykonywania zapytania.

Wartość Opis
azureOpenAI

Generowanie osadzania przy użyciu zasobu usługi Azure OpenAI w czasie wykonywania zapytania.

customWebApi

Generuj osadzanie przy użyciu niestandardowego internetowego punktu końcowego w czasie wykonywania zapytania.

WebApiParameters

Określa właściwości nawiązywania połączenia z wektoryzatorem zdefiniowanym przez użytkownika.

Nazwa Typ Opis
authIdentity SearchIndexerDataIdentity:

Tożsamość zarządzana przypisana przez użytkownika używana dla połączeń wychodzących. Jeśli zostanie podany identyfikator authResourceId i nie zostanie on określony, zostanie użyta tożsamość zarządzana przypisana przez system. W przypadku aktualizacji indeksatora, jeśli tożsamość jest nieokreślona, wartość pozostaje niezmieniona. Jeśli jest ustawiona na "none", wartość tej właściwości jest czyszczona.

authResourceId

string

Dotyczy niestandardowych punktów końcowych, które łączą się z kodem zewnętrznym w funkcji platformy Azure lub innej aplikacji, która zapewnia przekształcenia. Ta wartość powinna być identyfikatorem aplikacji utworzonym dla funkcji lub aplikacji podczas jej zarejestrowania w usłudze Azure Active Directory. Po określeniu wektoryzacja łączy się z funkcją lub aplikacją przy użyciu identyfikatora zarządzanego (systemowego lub przypisanego przez użytkownika) usługi wyszukiwania i tokenu dostępu funkcji lub aplikacji, używając tej wartości jako identyfikatora zasobu do tworzenia zakresu tokenu dostępu.

httpHeaders

object

Nagłówki wymagane do wysłania żądania HTTP.

httpMethod

string

Metoda żądania HTTP.

timeout

string (duration)

Żądany limit czasu żądania. Wartość domyślna to 30 sekund.

uri

string (uri)

Identyfikator URI internetowego interfejsu API udostępniającego wektoryzator.

WebApiVectorizer

Określa wektoryzator zdefiniowany przez użytkownika do generowania osadzania wektora ciągu zapytania. Integracja zewnętrznego wektoryzatora jest osiągana przy użyciu niestandardowego interfejsu internetowego interfejsu API zestawu umiejętności.

Nazwa Typ Opis
customWebApiParameters

WebApiParameters

Określa właściwości wektoryzatora zdefiniowanego przez użytkownika.

kind string:

customWebApi

Nazwa rodzaju metody wektoryzacji konfigurowanej do użycia z wyszukiwaniem wektorowym.

name

string

Nazwa, którą należy skojarzyć z tą konkretną metodą wektoryzacji.

WordDelimiterTokenFilter

Dzieli wyrazy na podwyrazy i wykonuje opcjonalne przekształcenia w grupach podsłów. Ten filtr tokenów jest implementowany przy użyciu Apache Lucene.

Nazwa Typ Domyślna wartość Opis
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Fragment identyfikatora URI określający typ filtru tokenów.

catenateAll

boolean

False

Wartość wskazująca, czy wszystkie części podsłów zostaną katenowane. Jeśli na przykład jest to ustawione na wartość true, wartość "Azure-Search-1" staje się wartością "AzureSearch1". Wartość domyślna to „false”.

catenateNumbers

boolean

False

Wartość wskazująca, czy zostaną katenowane maksymalne przebiegi liczby części. Na przykład, jeśli ta wartość jest ustawiona na true, liczba "1-2" staje się liczbą "12". Wartość domyślna to „false”.

catenateWords

boolean

False

Wartość wskazująca, czy zostaną katenowane maksymalne serie części wyrazów. Jeśli na przykład jest to ustawiona wartość true, wartość "Azure-Search" staje się wartością "AzureSearch". Wartość domyślna to „false”.

generateNumberParts

boolean

True

Wartość wskazująca, czy mają zostać wygenerowane liczbowe podwyrazy. Wartość domyślna to true.

generateWordParts

boolean

True

Wartość wskazująca, czy mają zostać wygenerowane słowa części. Jeśli jest ustawiona, powoduje generowanie części słów; na przykład "AzureSearch" staje się "Azure", "Search". Wartość domyślna to true.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, myślniki lub podkreślenia, może zaczynać się i kończyć tylko znakami alfanumerycznymi i jest ograniczony do 128 znaków.

preserveOriginal

boolean

False

Wartość wskazująca, czy oryginalne wyrazy zostaną zachowane i dodane do listy podsłów. Wartość domyślna to „false”.

protectedWords

string[]

Lista tokenów, które mają być chronione przed rozgraniczeniem.

splitOnCaseChange

boolean

True

Wartość wskazująca, czy podzielić wyrazy w caseChange. Jeśli na przykład ta wartość ma wartość true, wartość "AzureSearch" staje się wartością "Azure" "Search". Wartość domyślna to true.

splitOnNumerics

boolean

True

Wartość wskazująca, czy dzielić liczby. Jeśli na przykład ta wartość ma wartość true, wartość "Azure1Search" staje się wartością "Azure" "1" "Search". Wartość domyślna to true.

stemEnglishPossessive

boolean

True

Wartość wskazująca, czy usunąć końcowe znaki "s" dla każdego podwyrazu. Wartość domyślna to true.