Delen via


PatternTokenizer interface

Tokenizer die gebruikmaakt van regex-patroon dat overeenkomt met het samenstellen van afzonderlijke tokens. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.

Eigenschappen

flags

Reguliere expressievlagmen. Mogelijke waarden zijn: 'CANON_EQ', 'CASE_INSENSITIVE', 'OPMERKINGEN', 'DOTALL', 'LETTERLIJK', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'

group

De op nul gebaseerde rangschikking van de overeenkomende groep in het reguliere expressiepatroon om te extraheren in tokens. Gebruik -1 als u het hele patroon wilt gebruiken om de invoer op te splitsen in tokens, ongeacht overeenkomende groepen. De standaardwaarde is -1. Standaardwaarde: -1.

name

De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten.

odatatype

Polymorf discriminator

pattern

Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer witruimtetekens. Standaardwaarde: \W+.

Eigenschapdetails

flags

Reguliere expressievlagmen. Mogelijke waarden zijn: 'CANON_EQ', 'CASE_INSENSITIVE', 'OPMERKINGEN', 'DOTALL', 'LETTERLIJK', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'

flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

Waarde van eigenschap

("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]

group

De op nul gebaseerde rangschikking van de overeenkomende groep in het reguliere expressiepatroon om te extraheren in tokens. Gebruik -1 als u het hele patroon wilt gebruiken om de invoer op te splitsen in tokens, ongeacht overeenkomende groepen. De standaardwaarde is -1. Standaardwaarde: -1.

group?: number

Waarde van eigenschap

number

name

De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten.

name: string

Waarde van eigenschap

string

odatatype

Polymorf discriminator

odatatype: "#Microsoft.Azure.Search.PatternTokenizer"

Waarde van eigenschap

"#Microsoft.Azure.Search.PatternTokenizer"

pattern

Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer witruimtetekens. Standaardwaarde: \W+.

pattern?: string

Waarde van eigenschap

string