PatternTokenizer interface
Tokenizer die gebruikmaakt van regex-patroon dat overeenkomt met het samenstellen van afzonderlijke tokens. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Eigenschappen
| flags | Reguliere expressievlagmen. Mogelijke waarden zijn: 'CANON_EQ', 'CASE_INSENSITIVE', 'OPMERKINGEN', 'DOTALL', 'LETTERLIJK', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES' |
| group | De op nul gebaseerde rangschikking van de overeenkomende groep in het reguliere expressiepatroon om te extraheren in tokens. Gebruik -1 als u het hele patroon wilt gebruiken om de invoer op te splitsen in tokens, ongeacht overeenkomende groepen. De standaardwaarde is -1. Standaardwaarde: -1. |
| name | De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
| odatatype | Polymorf discriminator |
| pattern | Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer witruimtetekens. Standaardwaarde: |
Eigenschapdetails
flags
Reguliere expressievlagmen. Mogelijke waarden zijn: 'CANON_EQ', 'CASE_INSENSITIVE', 'OPMERKINGEN', 'DOTALL', 'LETTERLIJK', 'MULTILINE', 'UNICODE_CASE', 'UNIX_LINES'
flags?: ("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
Waarde van eigenschap
("CANON_EQ" | "CASE_INSENSITIVE" | "COMMENTS" | "DOTALL" | "LITERAL" | "MULTILINE" | "UNICODE_CASE" | "UNIX_LINES")[]
group
De op nul gebaseerde rangschikking van de overeenkomende groep in het reguliere expressiepatroon om te extraheren in tokens. Gebruik -1 als u het hele patroon wilt gebruiken om de invoer op te splitsen in tokens, ongeacht overeenkomende groepen. De standaardwaarde is -1. Standaardwaarde: -1.
group?: number
Waarde van eigenschap
number
name
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten.
name: string
Waarde van eigenschap
string
odatatype
Polymorf discriminator
odatatype: "#Microsoft.Azure.Search.PatternTokenizer"
Waarde van eigenschap
"#Microsoft.Azure.Search.PatternTokenizer"
pattern
Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer witruimtetekens. Standaardwaarde: \W+.
pattern?: string
Waarde van eigenschap
string