Udostępnij przez


Microsoft.ML.Tokenizers Przestrzeń nazw

Klasy

Bpe

Reprezentuje model kodowania par bajtów.

BpeDecoder

Umożliwia dekodowanie oryginalnego narzędzia BPE przez dołączenie wszystkich tokenów, a następnie zastąpienie sufiksu użytego do identyfikacji końca wyrazów przez białe spacje

BpeTrainer

Trener Bpe odpowiedzialny za trenowanie modelu Bpe.

EnglishRoberta

Reprezentuje model kodowania par bajtów.

LowerCaseNormalizer

Normalizuj ciąg do małego formularza przed przetworzeniem go za pomocą tokenizatora.

Model

Reprezentuje model używany podczas tokenizacji (na przykład BPE lub Word Piece lub Unigram).

Normalizer

Normalizuj ciąg przed przetworzeniem go za pomocą tokenizatora.

PreTokenizer

Klasa bazowa dla wszystkich klas pre-tokenizers. PreTokenizer jest odpowiedzialny za wykonanie kroku przed segmentacji.

RobertaPreTokenizer

Tokenizer pre-tokenizer dla tokenizatora języka angielskiego Roberta.

Split

Ten podział zawiera podstawowy token podziału, a także jego przesunięcia w oryginalnym ciągu. Te przesunięcia są w original odwołaniu. Zawiera również wszystkie Token skojarzone z bieżącym podziałem.

Token

Reprezentuje token wygenerowany z procesu tokenizacji zawierającego podciąg tokenu, identyfikator skojarzony z podciągem tokenu i mapowanie przesunięcia na oryginalny ciąg.

Tokenizer

Tokenizer działa jako potok. Przetwarza on nieprzetworzonego tekstu jako dane wejściowe i wyjściowe obiektu TokenizerResult.

TokenizerDecoder

Dekoder ma obowiązek scalić daną listę tokenów w ciągu.

TokenizerResult

Kodowanie reprezentuje dane wyjściowe tokenizatora.

Trainer

Użytkownik Trainer ma odpowiedzialność za trenowanie modelu. Karmimy go wierszami/zdaniami, a następnie możemy wytrenować daną Modelwartość .

UpperCaseNormalizer

Normalizuj ciąg na wielkie litery przed przetworzeniem go za pomocą tokenizatora.

WhiteSpace

Pre-tokenizer, który dzieli tekst na granicę słowa. Wyraz jest zestawem znaków alfabetu, liczbowego i podkreślenia.

Struktury

AddedToken

Reprezentuje token dodany przez użytkownika w oparciu o istniejące słownictwo modelu. Funkcja AddedToken można skonfigurować tak, aby określić zachowanie, które powinny mieć w różnych sytuacjach, takich jak:

  • Czy powinny one być zgodne tylko z pojedynczymi słowami
  • Czy należy uwzględnić dowolny biały znak po lewej lub prawej stronie
NormalizedString

Zawiera znormalizowany ciąg i mapowanie na oryginalny ciąg.

Progress

Wyliczenia

ProgressState

Reprezentuje stan zgłoszonego postępu.

Delegaci

ReportProgress