Microsoft.ML.Tokenizers Espacio de nombres
Importante
Parte de la información hace referencia a la versión preliminar del producto, que puede haberse modificado sustancialmente antes de lanzar la versión definitiva. Microsoft no otorga ninguna garantía, explícita o implícita, con respecto a la información proporcionada aquí.
Clases
| Bpe |
Representa el modelo de codificación de par de bytes. |
| BpeDecoder |
Permite descodificar BPE original mediante la combinación de todos los tokens y, a continuación, reemplazando el sufijo usado para identificar palabras finales por espacios en blanco. |
| BpeTrainer |
El instructor de Bpe responsable de entrenar el modelo Bpe. |
| EnglishRoberta |
Representa el modelo de codificación de par de bytes. |
| LowerCaseNormalizer |
Normalice la cadena en formato en minúsculas antes de procesarla con el tokenizador. |
| Model |
Representa un modelo usado durante la tokenización (como BPE o Word Piece o Unigram). |
| Normalizer |
Normalice la cadena antes de procesarla con el tokenizador. |
| PreTokenizer |
Clase base para todas las clases de tokenizadores previos. PreTokenizer se encarga de realizar el paso de segmentación previa. |
| RobertaPreTokenizer |
Tokenizador previo para tokenizador en inglés de Roberta. |
| Split |
Esta división contiene el token de división subyacente, así como sus desplazamientos en la cadena original. Estos desplazamientos se encuentran en el |
| Token |
Representa el token generado a partir del proceso de tokenización que contiene la subcadena del token, el identificador asociado a la subcadena del token y la asignación de desplazamiento a la cadena original. |
| Tokenizer |
Un tokenizador funciona como una canalización. Procesa texto sin formato como entrada y genera un objeto TokenizerResult. |
| TokenizerDecoder |
Un descodificador tiene la responsabilidad de combinar la lista de tokens especificada en una cadena. |
| TokenizerResult |
La codificación representa la salida de un tokenizador. |
| Trainer |
Un |
| UpperCaseNormalizer |
Normalice la cadena al formulario en mayúsculas antes de procesarla con el tokenizador. |
| WhiteSpace |
Pre-tokenizer que divide el texto en el límite de la palabra. La palabra es un conjunto de caracteres alfabéticos, numéricos y de subrayado. |
Estructuras
| AddedToken |
Representa un token agregado por el usuario sobre el vocabulario modelo existente. AddedToken se puede configurar para especificar el comportamiento que deben tener en varias situaciones como:
|
| NormalizedString |
Contiene la cadena normalizada y la asignación a la cadena original. |
| Progress | |
Enumeraciones
| ProgressState |
Representa el estado del progreso notificado. |
Delegados
| ReportProgress |