Microsoft.ML.Tokenizers 命名空間
重要
部分資訊涉及發行前產品,在發行之前可能會有大幅修改。 Microsoft 對此處提供的資訊,不做任何明確或隱含的瑕疵擔保。
類別
| Bpe |
表示位元組配對編碼模型。 |
| BpeDecoder |
允許解碼原始 BPE,方法是聯結所有權杖,然後取代用來以空格識別字尾的尾碼 |
| BpeTrainer |
負責訓練 Bpe 模型的 Bpe 定型器。 |
| EnglishRoberta |
表示位元組配對編碼模型。 |
| LowerCaseNormalizer |
使用 Tokenizer 處理字串之前,請先將字串正規化為小寫形式。 |
| Model |
表示在 Tokenization (期間使用的模型,例如 BPE 或 Word Piece 或 Unigram) 。 |
| Normalizer |
使用 Tokenizer 處理字串之前,請先將字串正規化。 |
| PreTokenizer |
所有預先 Tokenizers 類別的基類。 PreTokenizer 負責執行預先分割步驟。 |
| RobertaPreTokenizer |
Roberta English Tokenizer 的預先權杖化程式。 |
| Split |
此分割包含基礎分割權杖,以及原始字串中的位移。 這些位移位於 |
| Token |
表示權杖化進程所產生的權杖,其中包含權杖子字串、與權杖子字串相關聯的識別碼,以及原始字串的位移對應。 |
| Tokenizer |
Tokenizer 可作為管線。 它會處理一些原始文字做為輸入,並輸出 TokenizerResult 物件。 |
| TokenizerDecoder |
解碼器必須負責合併字串中的指定標記清單。 |
| TokenizerResult |
Encoding 代表 Tokenizer 的輸出。 |
| Trainer |
|
| UpperCaseNormalizer |
使用 Tokenizer 處理字串之前,請先將字串正規化為大寫形式。 |
| WhiteSpace |
在字邊界分割文字的預先標記化程式。 此字是一組字母、數值和底線字元。 |
結構
| AddedToken |
代表使用者在現有模型詞彙之上新增的權杖。 AddedToken 可以設定為指定其應該在各種情況下的行為,例如:
|
| NormalizedString |
包含標準化字串和原始字串的對應。 |
| Progress | |
列舉
| ProgressState |
表示報告進度的狀態。 |
委派
| ReportProgress |