Microsoft.ML.Tokenizers 命名空間

參考

重要

部分資訊涉及發行前產品，在發行之前可能會有大幅修改。 Microsoft 對此處提供的資訊，不做任何明確或隱含的瑕疵擔保。

類別

Bpe	表示位元組配對編碼模型。
BpeDecoder	允許解碼原始 BPE，方法是聯結所有權杖，然後取代用來以空格識別字尾的尾碼
BpeTrainer	負責訓練 Bpe 模型的 Bpe 定型器。
EnglishRoberta	表示位元組配對編碼模型。
LowerCaseNormalizer	使用 Tokenizer 處理字串之前，請先將字串正規化為小寫形式。
Model	表示在 Tokenization (期間使用的模型，例如 BPE 或 Word Piece 或 Unigram) 。
Normalizer	使用 Tokenizer 處理字串之前，請先將字串正規化。
PreTokenizer	所有預先 Tokenizers 類別的基類。 PreTokenizer 負責執行預先分割步驟。
RobertaPreTokenizer	Roberta English Tokenizer 的預先權杖化程式。
Split	此分割包含基礎分割權杖，以及原始字串中的位移。這些位移位於 `original` 引用中。它也包含與目前分割相關聯的任何 `Token` 專案。
Token	表示權杖化進程所產生的權杖，其中包含權杖子字串、與權杖子字串相關聯的識別碼，以及原始字串的位移對應。
Tokenizer	Tokenizer 可作為管線。它會處理一些原始文字做為輸入，並輸出 TokenizerResult 物件。
TokenizerDecoder	解碼器必須負責合併字串中的指定標記清單。
TokenizerResult	Encoding 代表 Tokenizer 的輸出。
Trainer	`Trainer`負責定型模型。我們會使用行/句子來饋送它，然後它可以定型指定的 `Model` 。
UpperCaseNormalizer	使用 Tokenizer 處理字串之前，請先將字串正規化為大寫形式。
WhiteSpace	在字邊界分割文字的預先標記化程式。此字是一組字母、數值和底線字元。

結構

代表使用者在現有模型詞彙之上新增的權杖。 AddedToken 可以設定為指定其應該在各種情況下的行為，例如：

是否應該只比對單字
是否要在其左邊或右側包含任何空白字元

NormalizedString

包含標準化字串和原始字串的對應。

Progress

列舉

表示報告進度的狀態。

委派