Microsoft.ML.Tokenizers Przestrzeń nazw
Ważne
Niektóre informacje odnoszą się do produktu w wersji wstępnej, który może zostać znacząco zmodyfikowany przed wydaniem. Firma Microsoft nie udziela żadnych gwarancji, jawnych lub domniemanych, w odniesieniu do informacji podanych w tym miejscu.
Klasy
| Bpe |
Reprezentuje model kodowania par bajtów. |
| BpeDecoder |
Umożliwia dekodowanie oryginalnego narzędzia BPE przez dołączenie wszystkich tokenów, a następnie zastąpienie sufiksu użytego do identyfikacji końca wyrazów przez białe spacje |
| BpeTrainer |
Trener Bpe odpowiedzialny za trenowanie modelu Bpe. |
| EnglishRoberta |
Reprezentuje model kodowania par bajtów. |
| LowerCaseNormalizer |
Normalizuj ciąg do małego formularza przed przetworzeniem go za pomocą tokenizatora. |
| Model |
Reprezentuje model używany podczas tokenizacji (na przykład BPE lub Word Piece lub Unigram). |
| Normalizer |
Normalizuj ciąg przed przetworzeniem go za pomocą tokenizatora. |
| PreTokenizer |
Klasa bazowa dla wszystkich klas pre-tokenizers. PreTokenizer jest odpowiedzialny za wykonanie kroku przed segmentacji. |
| RobertaPreTokenizer |
Tokenizer pre-tokenizer dla tokenizatora języka angielskiego Roberta. |
| Split |
Ten podział zawiera podstawowy token podziału, a także jego przesunięcia w oryginalnym ciągu. Te przesunięcia są w |
| Token |
Reprezentuje token wygenerowany z procesu tokenizacji zawierającego podciąg tokenu, identyfikator skojarzony z podciągem tokenu i mapowanie przesunięcia na oryginalny ciąg. |
| Tokenizer |
Tokenizer działa jako potok. Przetwarza on nieprzetworzonego tekstu jako dane wejściowe i wyjściowe obiektu TokenizerResult. |
| TokenizerDecoder |
Dekoder ma obowiązek scalić daną listę tokenów w ciągu. |
| TokenizerResult |
Kodowanie reprezentuje dane wyjściowe tokenizatora. |
| Trainer |
Użytkownik |
| UpperCaseNormalizer |
Normalizuj ciąg na wielkie litery przed przetworzeniem go za pomocą tokenizatora. |
| WhiteSpace |
Pre-tokenizer, który dzieli tekst na granicę słowa. Wyraz jest zestawem znaków alfabetu, liczbowego i podkreślenia. |
Struktury
| AddedToken |
Reprezentuje token dodany przez użytkownika w oparciu o istniejące słownictwo modelu. Funkcja AddedToken można skonfigurować tak, aby określić zachowanie, które powinny mieć w różnych sytuacjach, takich jak:
|
| NormalizedString |
Zawiera znormalizowany ciąg i mapowanie na oryginalny ciąg. |
| Progress | |
Wyliczenia
| ProgressState |
Reprezentuje stan zgłoszonego postępu. |
Delegaci
| ReportProgress |