Microsoft.ML.Tokenizers Namespace
Importante
Algumas informações se referem a produtos de pré-lançamento que podem ser substancialmente modificados antes do lançamento. A Microsoft não oferece garantias, expressas ou implícitas, das informações aqui fornecidas.
Classes
| Bpe |
Represente o modelo de codificação de par de bytes. |
| BpeDecoder |
Permite a decodificação do BPE Original unindo todos os tokens e, em seguida, substituindo o sufixo usado para identificar o fim das palavras por espaços em branco |
| BpeTrainer |
O treinador bpe responsável por treinar o modelo Bpe. |
| EnglishRoberta |
Represente o modelo de codificação de par de bytes. |
| LowerCaseNormalizer |
Normalize a cadeia de caracteres para o formulário em minúsculas antes de processá-la com o criador de tokens. |
| Model |
Representa um modelo usado durante a geração de tokens (como BPE, Word Piece ou Unigram). |
| Normalizer |
Normalize a cadeia de caracteres antes de processá-la com o criador de tokens. |
| PreTokenizer |
Classe base para todas as classes pré-tokenizers. O PreTokenizer é responsável por realizar a etapa de pré-segmentação. |
| RobertaPreTokenizer |
O pré-tokenizer para o criador de tokens em inglês roberta. |
| Split |
Essa Divisão contém o token de divisão subjacente, bem como seus deslocamentos na cadeia de caracteres original. Esses deslocamentos estão no |
| Token |
Represente o token produzido do processo de tokenização que contém a subcadeia de caracteres do token, a ID associada à subcadeia de caracteres do token e o mapeamento de deslocamento para a cadeia de caracteres original. |
| Tokenizer |
Um Tokenizer funciona como um pipeline. Ele processa algum texto bruto como entrada e gera um objeto TokenizerResult. |
| TokenizerDecoder |
Um Decodificador tem a responsabilidade de mesclar a lista de tokens fornecida em uma cadeia de caracteres. |
| TokenizerResult |
A Codificação representa a saída de um Criador de Token. |
| Trainer |
Um |
| UpperCaseNormalizer |
Normalize a cadeia de caracteres para o formulário maiúsculo antes de processá-la com o criador de tokens. |
| WhiteSpace |
O pré-tokenizer que divide o texto no limite da palavra. A palavra é um conjunto de caracteres alfabéticos, numéricos e sublinhados. |
Estruturas
| AddedToken |
Represente um token adicionado pelo usuário sobre o vocabulário do Modelo existente. AddedToken pode ser configurado para especificar o comportamento que eles devem ter em várias situações, como:
|
| NormalizedString |
Contém a cadeia de caracteres normalizada e o mapeamento para a cadeia de caracteres original. |
| Progress | |
Enumerações
| ProgressState |
Representa o estado do progresso relatado. |
Delegados
| ReportProgress |