共用方式為


Microsoft.ML.Tokenizers 命名空間

類別

Bpe

表示位元組配對編碼模型。

BpeDecoder

允許解碼原始 BPE,方法是聯結所有權杖,然後取代用來以空格識別字尾的尾碼

BpeTrainer

負責訓練 Bpe 模型的 Bpe 定型器。

EnglishRoberta

表示位元組配對編碼模型。

LowerCaseNormalizer

使用 Tokenizer 處理字串之前,請先將字串正規化為小寫形式。

Model

表示在 Tokenization (期間使用的模型,例如 BPE 或 Word Piece 或 Unigram) 。

Normalizer

使用 Tokenizer 處理字串之前,請先將字串正規化。

PreTokenizer

所有預先 Tokenizers 類別的基類。 PreTokenizer 負責執行預先分割步驟。

RobertaPreTokenizer

Roberta English Tokenizer 的預先權杖化程式。

Split

此分割包含基礎分割權杖,以及原始字串中的位移。 這些位移位於 original 引用中。 它也包含與目前分割相關聯的任何 Token 專案。

Token

表示權杖化進程所產生的權杖,其中包含權杖子字串、與權杖子字串相關聯的識別碼,以及原始字串的位移對應。

Tokenizer

Tokenizer 可作為管線。 它會處理一些原始文字做為輸入,並輸出 TokenizerResult 物件。

TokenizerDecoder

解碼器必須負責合併字串中的指定標記清單。

TokenizerResult

Encoding 代表 Tokenizer 的輸出。

Trainer

Trainer負責定型模型。 我們會使用行/句子來饋送它,然後它可以定型指定的 Model

UpperCaseNormalizer

使用 Tokenizer 處理字串之前,請先將字串正規化為大寫形式。

WhiteSpace

在字邊界分割文字的預先標記化程式。 此字是一組字母、數值和底線字元。

結構

AddedToken

代表使用者在現有模型詞彙之上新增的權杖。 AddedToken 可以設定為指定其應該在各種情況下的行為,例如:

  • 是否應該只比對單字
  • 是否要在其左邊或右側包含任何空白字元
NormalizedString

包含標準化字串和原始字串的對應。

Progress

列舉

ProgressState

表示報告進度的狀態。

委派

ReportProgress