Microsoft.ML.Tokenizers Przestrzeń nazw

Odwołanie

Ważne

Niektóre informacje odnoszą się do produktu w wersji wstępnej, który może zostać znacząco zmodyfikowany przed wydaniem. Firma Microsoft nie udziela żadnych gwarancji, jawnych lub domniemanych, w odniesieniu do informacji podanych w tym miejscu.

Klasy

Bpe	Reprezentuje model kodowania par bajtów.
BpeDecoder	Umożliwia dekodowanie oryginalnego narzędzia BPE przez dołączenie wszystkich tokenów, a następnie zastąpienie sufiksu użytego do identyfikacji końca wyrazów przez białe spacje
BpeTrainer	Trener Bpe odpowiedzialny za trenowanie modelu Bpe.
EnglishRoberta	Reprezentuje model kodowania par bajtów.
LowerCaseNormalizer	Normalizuj ciąg do małego formularza przed przetworzeniem go za pomocą tokenizatora.
Model	Reprezentuje model używany podczas tokenizacji (na przykład BPE lub Word Piece lub Unigram).
Normalizer	Normalizuj ciąg przed przetworzeniem go za pomocą tokenizatora.
PreTokenizer	Klasa bazowa dla wszystkich klas pre-tokenizers. PreTokenizer jest odpowiedzialny za wykonanie kroku przed segmentacji.
RobertaPreTokenizer	Tokenizer pre-tokenizer dla tokenizatora języka angielskiego Roberta.
Split	Ten podział zawiera podstawowy token podziału, a także jego przesunięcia w oryginalnym ciągu. Te przesunięcia są w `original` odwołaniu. Zawiera również wszystkie `Token` skojarzone z bieżącym podziałem.
Token	Reprezentuje token wygenerowany z procesu tokenizacji zawierającego podciąg tokenu, identyfikator skojarzony z podciągem tokenu i mapowanie przesunięcia na oryginalny ciąg.
Tokenizer	Tokenizer działa jako potok. Przetwarza on nieprzetworzonego tekstu jako dane wejściowe i wyjściowe obiektu TokenizerResult.
TokenizerDecoder	Dekoder ma obowiązek scalić daną listę tokenów w ciągu.
TokenizerResult	Kodowanie reprezentuje dane wyjściowe tokenizatora.
Trainer	Użytkownik `Trainer` ma odpowiedzialność za trenowanie modelu. Karmimy go wierszami/zdaniami, a następnie możemy wytrenować daną `Model`wartość .
UpperCaseNormalizer	Normalizuj ciąg na wielkie litery przed przetworzeniem go za pomocą tokenizatora.
WhiteSpace	Pre-tokenizer, który dzieli tekst na granicę słowa. Wyraz jest zestawem znaków alfabetu, liczbowego i podkreślenia.

Struktury

AddedToken

Reprezentuje token dodany przez użytkownika w oparciu o istniejące słownictwo modelu. Funkcja AddedToken można skonfigurować tak, aby określić zachowanie, które powinny mieć w różnych sytuacjach, takich jak:

Czy powinny one być zgodne tylko z pojedynczymi słowami
Czy należy uwzględnić dowolny biały znak po lewej lub prawej stronie

NormalizedString

Zawiera znormalizowany ciąg i mapowanie na oryginalny ciąg.

Progress

Wyliczenia

ProgressState

Reprezentuje stan zgłoszonego postępu.

Delegaci

ReportProgress

Udostępnij przez

Microsoft.ML.Tokenizers Przestrzeń nazw

Klasy

Struktury

Wyliczenia

Delegaci