Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo fornece informações gerais sobre as APIs de Modelos do Databricks Foundation e os modelos que elas suportam. As APIs do Modelo de Fundação foram projetadas para serem semelhantes à API REST do OpenAI para facilitar a migração de projetos existentes. Os pontos de extremidade de pagamento por token e de taxa de transferência provisionada aceitam o mesmo formato de solicitação da API REST.
Pontos de extremidade
As APIs dos Modelos Fundamentais dão suporte a pontos de extremidade de pagamento por token e pontos de extremidade com taxa de transferência provisionada.
Um ponto de extremidade pré-configurado está disponível em seu workspace para cada modelo com suporte de pagamento por token e os usuários podem interagir com esses pontos de extremidade usando solicitações HTTP POST. Consulte modelos de base com suporte no Mosaic AI Model Serving para modelos com suporte.
Os pontos de extremidade de taxa de transferência provisionados podem ser criados usando a API ou a interface do usuário de serviço. Esses pontos de extremidade dão suporte a vários modelos por ponto de extremidade para testes A/B, desde que ambos os modelos servidos exponham o mesmo formato de API. Por exemplo, ambos os modelos são modelos de chat. Consulte POST /api/2.0/serving-endpoints para os parâmetros de configuração do endpoint.
Solicitações e respostas usam JSON; a estrutura exata do JSON depende do tipo de tarefa de um endpoint. Os pontos de extremidade de chats e de conclusão dão suporte para respostas de streaming.
Uso
As respostas incluem uma sub-mensagem usage que relata o número de tokens na solicitação e na resposta. O formato dessa sub-mensagem é o mesmo em todos os tipos de tarefa.
| Campo | Tipo | Descrição |
|---|---|---|
completion_tokens |
Número Inteiro | Número de tokens gerados. Não incluído nas respostas de inserção. |
prompt_tokens |
Número Inteiro | Número de tokens do(s) prompt(s) de entrada. |
total_tokens |
Número Inteiro | Número de tokens totais. |
reasoning_tokens |
Número Inteiro | Número de tokens de processamento mental. Ele só é aplicável a modelos de raciocínio. |
Para modelos como databricks-meta-llama-3-3-70b-instruct, um prompt do usuário é transformado usando um modelo de prompt antes de ser passado para o modelo. Para ponto de extremidades de pagamento por token, um prompt do sistema também pode ser adicionado.
prompt_tokens inclui todo o texto adicionado pelo servidor.
API de respostas
Importante
A API de Respostas só é compatível com modelos OpenAI.
A API de Respostas permite conversas de vários turnos com um modelo. Ao contrário das Conclusões de Chat, a API de Respostas usa input em vez de messages.
Solicitação de respostas da API
| Campo | Padrão | Tipo | Descrição |
|---|---|---|---|
model |
fio | Obrigatório. ID do modelo usada para gerar a resposta. | |
input |
Cadeia de caracteres ou lista[ResponsesInput] |
Obrigatório. Entradas de texto, imagem ou arquivo para o modelo, usadas para gerar uma resposta. Ao contrário de messages, este campo usa input para especificar o conteúdo da conversa. |
|
instructions |
null |
fio | Uma mensagem do sistema (ou desenvolvedor) inserida no contexto do modelo. |
max_output_tokens |
null |
null, o que significa sem limite, ou seja, um inteiro maior que zero |
Um limite superior para o número de tokens que podem ser gerados para uma resposta, incluindo tokens de saída visíveis e tokens de raciocínio. |
temperature |
1.0 |
Float em [0,2] | A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade. |
top_p |
1.0 |
Float em (0,1] | O limite de probabilidade usado para amostragem de núcleo. |
stream |
false |
booleano | Se definido como true, os dados de resposta do modelo serão transmitidos para o cliente à medida que forem gerados usando eventos enviados pelo servidor. |
stream_options |
null |
StreamOptions | Opções para respostas de streaming. Defina isso somente quando você definir stream: true. |
text |
null |
TextConfig | Opções de configuração para uma resposta de texto do modelo. Pode ser texto sem formatação ou dados JSON estruturados. |
reasoning |
null |
ReasoningConfig | Configuração de raciocínio para modelos gpt-5 e série o. |
tool_choice |
"auto" |
Cadeia de caracteres ou ToolChoiceObject | Como o modelo deve selecionar qual ferramenta (ou ferramentas) usar ao gerar uma resposta. Consulte o tools parâmetro para ver como especificar quais ferramentas o modelo pode chamar. |
tools |
null |
Lista[ToolObject] | Uma matriz de ferramentas que o modelo pode chamar ao gerar uma resposta. Observação: O interpretador de código e as ferramentas de pesquisa na Web não têm suporte do Databricks. |
parallel_tool_calls |
true |
booleano | Se deseja permitir que o modelo execute chamadas de ferramenta em paralelo. |
max_tool_calls |
null |
Inteiro maior que zero | O número máximo de chamadas totais das ferramentas internas que podem ser processadas em uma resposta. |
metadata |
null |
Objeto | Conjunto de 16 pares chave-valor que podem ser anexados a um objeto. |
prompt_cache_key |
null |
fio | Usado para armazenar em cache respostas para solicitações semelhantes, a fim de otimizar as taxas de acerto de cache. Substitui o user campo. |
prompt_cache_retention |
null |
fio | A política de retenção do cache de prompt. Defina para "24h" para habilitar o armazenamento em cache de prompts estendido, que mantém os prefixos armazenados em cache ativos por mais tempo, até um máximo de 24 horas. |
safety_identifier |
null |
fio | Um identificador estável usado para ajudar a detectar usuários do aplicativo que podem estar violando políticas de uso. |
user |
null |
fio |
Preterido. Em vez disso, use safety_identifier e prompt_cache_key. |
truncation |
null |
fio | A estratégia de truncamento a ser usada para a resposta do modelo. |
top_logprobs |
null |
Número Inteiro | Um inteiro entre 0 e 20 especificando o número de tokens mais prováveis a serem retornados em cada posição de token, cada um com uma probabilidade de log associada. |
include |
null |
List[String] | Especifique dados de saída adicionais a serem incluídos na resposta do modelo. |
prompt |
null |
Objeto | Referência a um modelo de prompt e suas variáveis. |
Parâmetros sem suporte: os seguintes parâmetros não têm suporte do Databricks e retornarão um erro de 400, se especificado:
-
background– Não há suporte para processamento em segundo plano -
store- Não há suporte para respostas armazenadas -
conversation- Não há suporte para a API de Conversa -
service_tier- A seleção da camada de serviço é gerenciada pelo Databricks
ResponsesInput
O input campo aceita uma cadeia de caracteres ou uma lista de objetos de mensagem de entrada com função e conteúdo.
| Campo | Tipo | Descrição |
|---|---|---|
role |
fio |
Obrigatório. O papel do autor da mensagem. Pode ser "user" ou "assistant". |
content |
Cadeia de caracteres ou lista[ResponsesContentBlock] | Obrigatório. O conteúdo da mensagem, seja como uma cadeia de caracteres ou matriz de blocos de conteúdo. |
ResponsesContentBlock
Os blocos de conteúdo definem o tipo de conteúdo em mensagens de entrada e saída. O tipo de bloco de conteúdo é determinado pelo type campo.
InputText
| Campo | Tipo | Descrição |
|---|---|---|
type |
fio |
Obrigatório. Deve ser "input_text". |
text |
fio | Obrigatório. O conteúdo do texto. |
OutputText
| Campo | Tipo | Descrição |
|---|---|---|
type |
fio |
Obrigatório. Deve ser "output_text". |
text |
fio | Obrigatório. O conteúdo do texto. |
annotations |
Lista[Objeto] | Anotações opcionais para o conteúdo do texto. |
InputImage
| Campo | Tipo | Descrição |
|---|---|---|
type |
fio |
Obrigatório. Deve ser "input_image". |
image_url |
fio | Obrigatório. URI de dados codificados em URL ou base64 da imagem. |
InputFile
| Campo | Tipo | Descrição |
|---|---|---|
type |
fio |
Obrigatório. Deve ser "input_file". |
file_id |
fio | Identificador de arquivo se estiver usando arquivos carregados. |
filename |
fio | O nome do arquivo. |
file_data |
fio | URI de dados codificados em Base64 com prefixo de formato. Por exemplo, os arquivos PDF usam o formato data:application/pdf;base64,<base64 data>. |
FunctionCall
| Campo | Tipo | Descrição |
|---|---|---|
type |
fio |
Obrigatório. Deve ser "function_call". |
id |
fio | Obrigatório. Identificador exclusivo para a chamada de função. |
call_id |
fio | Obrigatório. O identificador de chamada. |
name |
fio | Obrigatório. O nome da função que está sendo chamada. |
arguments |
Objeto/cadeia de caracteres | Obrigatório. Os argumentos de função como objeto JSON ou cadeia de caracteres. |
FunctionCallOutput
| Campo | Tipo | Descrição |
|---|---|---|
type |
fio |
Obrigatório. Deve ser "function_call_output". |
call_id |
fio | Obrigatório. O identificador de chamada ao qual essa saída corresponde. |
output |
Cadeia de caracteres/objeto | Obrigatório. A saída da função como cadeia de caracteres ou objeto JSON. |
StreamOptions
Configuração para respostas de streaming. Usado somente quando stream: true.
| Campo | Tipo | Descrição |
|---|---|---|
include_usage |
booleano | Se for true, inclua informações de uso de token no fluxo. O padrão é false. |
TextConfig
Configuração para saída de texto, incluindo saídas estruturadas.
| Campo | Tipo | Descrição |
|---|---|---|
format |
ResponsesFormatObject | A especificação de formato para a saída de texto. |
ResponsesFormatObject
Especifica o formato de saída para respostas de texto.
| Campo | Tipo | Descrição |
|---|---|---|
type |
fio |
Obrigatório. O tipo de formato: "text" para texto sem formatação, "json_object" para JSON ou "json_schema" para JSON estruturado. |
json_schema |
Objeto |
Necessário quando type for "json_schema". O objeto de esquema JSON que define a estrutura da saída. |
O json_schema objeto tem a mesma estrutura que JsonSchemaObject documentado na API de Conclusões de Chat.
ReasoningConfig
Configuração do comportamento de raciocínio em modelos de raciocínio (modelos de série o e gpt-5).
| Campo | Tipo | Descrição |
|---|---|---|
effort |
fio | O nível de esforço de raciocínio: "low", "medium"ou "high". O padrão é "medium". |
encrypted_content |
fio | Conteúdo de raciocínio criptografado para o modo sem estado. Fornecido pelo modelo em respostas anteriores. |
ToolObject
Confira Chamada de função no Azure Databricks.
| Campo | Tipo | Descrição |
|---|---|---|
type |
fio |
Obrigatório. O tipo da ferramenta. Atualmente, há suporte apenas para function. |
function |
FunctionObject | Obrigatório. A definição de função associada à ferramenta. |
FunctionObject
| Campo | Tipo | Descrição |
|---|---|---|
name |
fio | Obrigatório. O nome da função a ser chamada. |
description |
Objeto | Obrigatório. A descrição detalhada da função. O modelo usa essa descrição para entender a relevância da função para o prompt e gerar as chamadas de ferramenta com maior precisão. |
parameters |
Objeto | Os parâmetros que a função aceita, descritos como um objeto de esquema JSON válido. Se a ferramenta for chamada, a chamada de ferramenta será adequada ao esquema JSON fornecido. Omitir parâmetros define uma função sem parâmetros. O número de properties é limitado a 15 chaves. |
strict |
booleano | Se deseja habilitar a adesão estrita do esquema ao gerar a chamada de função. Se definido como true, o modelo segue o esquema exato definido no campo de esquema. Há suporte apenas para um subconjunto de esquema JSON quando estrito é true |
ToolChoiceObject
Confira Chamada de função no Azure Databricks.
| Campo | Tipo | Descrição |
|---|---|---|
type |
fio |
Obrigatório. O tipo da ferramenta. Atualmente, há suporte apenas para "function". |
function |
Objeto |
Obrigatório. Um objeto que define qual ferramenta chamar no formato {"type": "function", "function": {"name": "my_function"}} em que "my_function é o nome de um FunctionObject no campo de tools. |
Resposta da API de Respostas
Para solicitações que não são de streaming, a resposta é um único objeto de resposta. Para solicitações de streaming, a resposta é um text/event-stream onde cada evento é uma parte de resposta.
| Campo | Tipo | Descrição |
|---|---|---|
id |
fio | Identificador exclusivo para a resposta. Observação: o Databricks criptografa essa ID para segurança. |
object |
fio | O tipo de objeto. Igual a "response". |
created_at |
Número Inteiro | O carimbo de data/hora Unix, em segundos, quando a resposta foi criada. |
status |
fio | O status da resposta. Um de: completed, failed, , in_progress, cancelled, queuedou incomplete. |
model |
fio | A versão do modelo usada para gerar a resposta. |
output |
Lista[ResponsesMessage] | A saída gerada pelo modelo, normalmente contendo objetos de mensagem. |
usage |
Uso | Metadados de uso de token. |
error |
Error | Informações de erro se a resposta falhou. |
incomplete_details |
IncompleteDetails | Detalhes sobre por que a resposta está incompleta, se aplicável. |
instructions |
fio | As instruções fornecidas na solicitação. |
max_output_tokens |
Número Inteiro | Os tokens de saída máximos especificados na solicitação. |
temperature |
Flutuar | A temperatura usada para a geração. |
top_p |
Flutuar | O valor top_p usado para geração. |
tools |
Lista[ToolObject] | As ferramentas especificadas na solicitação. |
tool_choice |
Cadeia de caracteres ou ToolChoiceObject | A configuração tool_choice da solicitação. |
parallel_tool_calls |
booleano | Se as chamadas de ferramenta paralela foram habilitadas. |
store |
booleano | Se a resposta foi armazenada. |
metadata |
Objeto | Os metadados anexados à resposta. |
ResponsesMessage
Objetos de mensagem no output campo que contém o conteúdo de resposta do modelo.
| Campo | Tipo | Descrição |
|---|---|---|
id |
fio | Obrigatório. Identificador exclusivo da mensagem. |
role |
fio |
Obrigatório. A função da mensagem.
"user" ou "assistant". |
content |
Lista[ResponsesContentBlock] | Obrigatório. Os blocos de conteúdo na mensagem. |
status |
fio | O status do processamento da mensagem. |
type |
fio |
Obrigatório. O tipo de objeto. Igual a "message". |
Error
Informações de erro quando uma resposta falha.
| Campo | Tipo | Descrição |
|---|---|---|
code |
fio | Obrigatório. O código de erro. |
message |
fio | Obrigatório. Uma mensagem de erro legível por humanos. |
param |
fio | O parâmetro que causou o erro, se aplicável. |
type |
fio | Obrigatório. O tipo de erro. |
IncompleteDetails
Detalhes sobre por que uma resposta está incompleta.
| Campo | Tipo | Descrição |
|---|---|---|
reason |
fio | Obrigatório. O motivo pelo qual a resposta está incompleta. |
API de Conclusões de Chat
A API de Conclusões de Conversa permite conversas de múltiplas etapas com um modelo. A resposta do modelo fornece a próxima mensagem assistant na conversa. Confira POST /serving-endpoints/{name}/invocações para consultar parâmetros de ponto de extremidade.
Solicitação de chat
| Campo | Padrão | Tipo | Descrição |
|---|---|---|---|
messages |
Lista ChatMessage | Obrigatório. Uma lista de mensagens que representam a conversa atual. | |
max_tokens |
null |
null, o que significa sem limite, ou seja, um inteiro maior que zero |
O número máximo de tokens a serem gerados. |
stream |
true |
booleano | Transmita respostas de volta para um cliente para permitir resultados parciais para solicitações. Se esse parâmetro estiver incluído na solicitação, as respostas serão enviadas usando os eventos enviados pelo servidor padrão. |
temperature |
1.0 |
Float em [0,2] | A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade. |
top_p |
1.0 |
Float em (0,1] | O limite de probabilidade usado para amostragem de núcleo. |
top_k |
null |
null, o que significa sem limite, ou seja, um inteiro maior que zero |
Define o número de tokens k mais prováveis a serem usados para filtragem top-k. Defina esse valor como 1 para tornar as saídas determinísticas. |
stop |
[] | Cadeia de caracteres ou List[String] | O modelo para de gerar tokens adicionais quando qualquer uma das sequências no stop é encontrada. |
n |
1 | Inteiro maior que zero | A API retorna n preenchimentos de chat independentes quando n é especificado. Recomendado para cargas de trabalho que geram várias conclusões na mesma entrada para eficiência de inferência adicional e economia de custos. Disponível apenas para pontos de extremidade de taxa de transferência provisionada. |
tool_choice |
none |
Cadeia de caracteres ou ToolChoiceObject | Usado somente em conjunto com o campo tools.
tool_choice dá suporte a uma variedade de cadeias de caracteres de palavra-chave, como auto, requirede none.
auto significa que você está permitindo que o modelo decida qual ferramenta (se houver) é relevante para usar. Se o modelo não acreditar que nenhuma das ferramentas em auto seja relevante, ele gerará uma mensagem padrão de assistente em vez de uma chamada de ferramenta.
required significa que o modelo escolhe a ferramenta mais relevante no tools e deve gerar uma chamada de ferramenta.
none significa que o modelo não gera nenhuma chamada de ferramenta e, em vez disso, deve gerar uma mensagem de assistente padrão. Para forçar uma chamada de ferramenta com uma ferramenta específica definida em tools, use um ToolChoiceObject. Por padrão, se o campo tools estiver preenchido tool_choice = "auto". Caso contrário, o campo tools usa como padrão tool_choice = "none" |
tools |
null |
ToolObject | Uma lista de tools que o modelo pode chamar. Atualmente, function é o único tipo de tool com suporte e há suporte para um máximo de 32 funções. |
response_format |
null |
ResponseFormatObject | Um objeto que especifica o formato que o modelo deve gerar. Os tipos aceitos são text, json_schema ou json_objectA configuração para { "type": "json_schema", "json_schema": {...} } habilita saídas estruturadas, o que garante que o modelo siga o esquema JSON fornecido.A configuração para { "type": "json_object" } garante que as respostas geradas pelo modelo sejam JSON válidas, mas não garante que as respostas sigam um esquema específico. |
logprobs |
false |
booleano | Esse parâmetro indica se é necessário fornecer a probabilidade de log de um token sendo amostrado. |
top_logprobs |
null |
Número Inteiro | Esse parâmetro controla o número de candidatos de tokens mais possíveis para os quais retornar probabilidades logarítmicas em cada etapa de amostragem. Pode ser 0-20.
logprobs deve ser true se estiver usando esse campo. |
reasoning_effort |
"medium" |
fio | Controla o nível de esforço de raciocínio que o modelo deve aplicar ao gerar respostas. Os valores aceitos são "low", "medium"ou "high". Um esforço de raciocínio mais alto pode resultar em respostas mais pensativas e precisas, mas pode aumentar a latência e o uso de tokens. Esse parâmetro só é aceito por um conjunto limitado de modelos, incluindo databricks-gpt-oss-120b e databricks-gpt-oss-20b. |
ChatMessage
| Campo | Tipo | Descrição |
|---|---|---|
role |
fio |
Obrigatório. A função do autor da mensagem. Pode ser "system", "user", "assistant" ou "tool". |
content |
fio | O conteúdo da mensagem. Obrigatório para tarefas de chat que não envolvem chamadas de ferramentas. |
tool_calls |
Lista ToolCall | A lista de tool_calls que o modelo gerou. Deve ter role como "assistant" e nenhuma especificação para o campo content. |
tool_call_id |
fio | Quando role é "tool", a ID associada a ToolCall ao qual a mensagem está respondendo. Deve estar vazio para outras opções de role. |
A função system só pode ser usada uma vez, como a primeira mensagem em uma conversa. Ele substitui o prompt de sistema padrão do modelo.
ToolCall
Uma sugestão de ação de chamada de ferramenta pelo modelo. Confira Chamada de função no Azure Databricks.
| Campo | Tipo | Descrição |
|---|---|---|
id |
fio | Obrigatório. Um identificador exclusivo para essa sugestão de chamada de ferramenta. |
type |
fio |
Obrigatório. Há suporte apenas para "function". |
function |
FunctionCallCompletion | Obrigatório. Uma chamada de função sugerida pelo modelo. |
cache_control |
fio | Habilita o cache para sua solicitação. Esse parâmetro é aceito apenas por modelos Claude hospedados pelo Databricks. Consulte o cache de prompts para obter um exemplo. |
FunctionCallCompletion
| Campo | Tipo | Descrição |
|---|---|---|
name |
fio | Obrigatório. O nome da função recomendada pelo modelo. |
arguments |
Objeto | Obrigatório. Argumentos para a função como um dicionário JSON serializado. |
Observação: ToolChoiceObject, ToolObjecte FunctionObject são definidos na seção API de Respostas e são compartilhados entre ambas as APIs.
ResponseFormatObject
Confira Saídas estruturadas no Azure Databricks.
| Campo | Tipo | Descrição |
|---|---|---|
type |
fio |
Obrigatório. O tipo de formato de resposta que está sendo definido.
text para texto não estruturado, json_object para objetos JSON não estruturados ou json_schema para objetos JSON que estão aderindo a um esquema específico. |
json_schema |
JsonSchemaObject |
Obrigatório. O esquema JSON a ser seguido se type estiver definido como json_schema |
JsonSchemaObject
Confira Saídas estruturadas no Azure Databricks.
| Campo | Tipo | Descrição |
|---|---|---|
name |
fio | Obrigatório. O nome do formato de resposta. |
description |
fio | Uma descrição de para que serve o formato de resposta, usada pelo modelo para determinar a forma de responder no formato. |
schema |
Objeto | Obrigatório. O esquema para o formato de resposta, descrito como um objeto de esquema JSON. |
strict |
booleano | Se deseja habilitar a adesão estrita do esquema ao gerar a saída. Se definido como true, o modelo segue o esquema exato definido no campo de esquema. Há suporte apenas para um subconjunto de esquema JSON quando estrito é true |
Resposta de chat
Para solicitações que não são de streaming, a resposta é um único objeto de conclusão de chat. Para solicitações de streaming, a resposta é um text/event-stream em que cada evento é um objeto de parte de conclusão. A estrutura de nível superior dos objetos de conclusão e parte é quase idêntica: somente choices tem um tipo diferente.
| Campo | Tipo | Descrição |
|---|---|---|
id |
fio | Identificador exclusivo para a conclusão do chat. |
choices |
List[ChatCompletionChoice] ou List[ChatCompletionChunk] (streaming) | Lista de textos de conclusão do chat.
n opções serão retornadas se o parâmetro n for especificado. |
object |
fio | O tipo de objeto. Igual a "chat.completions" para não transmissão ou "chat.completion.chunk" para transmissão. |
created |
Número Inteiro | O tempo em que a conclusão do chat foi gerada, em segundos. |
model |
fio | A versão do modelo usada para gerar a resposta. |
usage |
Uso | Metadados de uso de token. Talvez não esteja presente em respostas de streaming. |
ChatCompletionChoice
| Campo | Tipo | Descrição |
|---|---|---|
index |
Número Inteiro | O índice da escolha na lista de opções geradas. |
message |
ChatMessage | Uma mensagem de conclusão de chat retornada pelo modelo. A função será assistant. |
finish_reason |
fio | O motivo pelo qual o modelo parou de gerar tokens. |
extra_fields |
fio | Ao usar modelos proprietários de provedores de modelo externos, as APIs do provedor podem incluir metadados adicionais em respostas. O Databricks filtra essas respostas e retorna apenas um subconjunto dos campos originais do provedor. Esse safetyRating é o único campo extra com suporte neste momento, consulte a documentação do Gemini para obter mais detalhes. |
ChatCompletionChunk
| Campo | Tipo | Descrição |
|---|---|---|
index |
Número Inteiro | O índice da escolha na lista de opções geradas. |
delta |
ChatMessage | Uma parte da mensagem de conclusão de chat das respostas transmitidas geradas do modelo. Somente a primeira parte tem a garantia de ter role preenchido. |
finish_reason |
fio | O motivo pelo qual o modelo parou de gerar tokens. Somente a última parte terá essa população. |
API de inserções
As tarefas de inserção mapeiam as cadeias de caracteres de entrada nos vetores de inserção. Muitas entradas podem ser agrupadas em lote em cada solicitação. Confira POST /serving-endpoints/{name}/invocações para consultar parâmetros de ponto de extremidade.
Solicitação de incorporação
| Campo | Tipo | Descrição |
|---|---|---|
input |
Cadeia de caracteres ou List[String] | Obrigatório. O texto de entrada a ser inserido. Pode ser uma cadeia de caracteres ou uma lista de cadeias de caracteres. |
instruction |
fio | Uma instrução opcional para passar para o modelo de inserção. |
As instruções são opcionais e altamente específicas do modelo. Por exemplo, os autores do BGE não recomendam nenhuma instrução ao indexar partes e recomendam usar a instrução para consultas de recuperação "Represent this sentence for searching relevant passages:" . Outros modelos como Instructor-XL dão suporte a uma ampla gama de cadeias de caracteres de instrução.
Resposta de inserções
| Campo | Tipo | Descrição |
|---|---|---|
id |
fio | Identificador exclusivo da inserção. |
object |
fio | O tipo de objeto. Igual a "list". |
model |
fio | O nome do modelo de inserção usado para criar a inserção. |
data |
EmbeddingObject | O objeto de inserção. |
usage |
Uso | Metadados de uso de token. |
EmbeddingObject
| Campo | Tipo | Descrição |
|---|---|---|
object |
fio | O tipo de objeto. Igual a "embedding". |
index |
Número Inteiro | O índice da inserção na lista de inserções geradas pelo modelo. |
embedding |
Lista[Flutuante] | O vetor de inserção. Cada modelo retornará um vetor de tamanho fixo (1024 para BGE-Large) |
API de compleções
As tarefas de conclusão de texto são para gerar respostas para um único prompt. Ao contrário do Chat, essa tarefa dá suporte a entradas em lote: vários prompts independentes podem ser enviados em uma solicitação. Confira POST /serving-endpoints/{name}/invocações para consultar parâmetros de ponto de extremidade.
Solicitação de conclusão
Resposta de conclusão
| Campo | Tipo | Descrição |
|---|---|---|
id |
fio | Identificador exclusivo para conclusão de texto. |
choices |
Escolha de Conclusão | Lista de preenchimentos de texto. Para cada prompt passado, n opções serão geradas se n for especificado. O n padrão é 1. |
object |
fio | O tipo de objeto. Igual a "text_completion" |
created |
Número Inteiro | O tempo em que a conclusão foi gerada, em segundos. |
usage |
Uso | Metadados de uso de token. |
CompletionChoice
| Campo | Tipo | Descrição |
|---|---|---|
index |
Número Inteiro | O índice do prompt na solicitação. |
text |
fio | A conclusão gerada. |
finish_reason |
fio | O motivo pelo qual o modelo parou de gerar tokens. |