Partilhar via


Referência da API REST do modelo de base

Este artigo fornece informações gerais de API para APIs do Databricks Foundation Model e os modelos suportados. As APIs do Foundation Model são projetadas para serem semelhantes à API REST da OpenAI para facilitar a migração de projetos existentes. Tanto o pagamento por token como os pontos finais com largura de banda provisionada aceitam o mesmo formato de pedido da API REST.

Pontos de extremidade

As APIs do Modelo de Base suportam interfaces de pagamento por uso de token e interfaces de largura de banda provisionada.

Um ponto de extremidade pré-configurado está disponível em seu espaço de trabalho para cada modelo suportado de pagamento por token, e os usuários podem interagir com esses pontos de extremidade usando solicitações HTTP POST. Consulte Modelos de base suportados no Mosaic AI Model Serving para modelos suportados.

Os pontos finais de capacidade provisionada podem ser criados usando a API ou a interface de gestão do serviço. Esses endpoints suportam múltiplos modelos por endereço para testes A/B, desde que os dois modelos servidos exponham o mesmo formato de API. Por exemplo, ambos os modelos são modelos de chat. Consulte POST /api/2.0/serving-endpoints para obter os parâmetros de configuração do ponto final.

Solicitações e respostas usam JSON, sendo que a estrutura exata do JSON depende do tipo de tarefa do ponto de extremidade. Os endpoints de bate-papo e conclusão suportam respostas em fluxo contínuo.

Utilização

As respostas incluem uma submensagem usage que informa o número de tokens na solicitação e na resposta. O formato desta submensagem é o mesmo em todos os tipos de tarefas.

Campo Tipo Descrição
completion_tokens Inteiro Número de tokens gerados. Não incluído nas respostas incorporadas.
prompt_tokens Inteiro Número de _tokens_ dos _prompts_ de entrada.
total_tokens Inteiro Número total de tokens.
reasoning_tokens Inteiro Número dos tokens de pensamento. Só é aplicável a modelos de raciocínio.

Para modelos como databricks-meta-llama-3-3-70b-instruct um prompt do usuário é transformado usando um modelo de prompt antes de ser passado para o modelo. Para endpoints cobrados por token, um prompt do sistema também pode ser adicionado. prompt_tokens inclui todo o texto adicionado pelo nosso servidor.

API de Respostas

Importante

A API Responses só é compatível com modelos OpenAI.

A API de Respostas permite conversas de múltiplas interações com um modelo. Ao contrário do Chat Completions, a API de Respostas usa input em vez de messages.

Pedido API de Respostas

Campo Padrão Tipo Descrição
model Cadeia Obrigatório. ID do modelo usado para gerar a resposta.
input String ou Lista[ResponsesInput] Obrigatório. Entradas de texto, imagem ou arquivo no modelo, usadas para gerar uma resposta. Ao contrário do messages, este campo utiliza o input para especificar o conteúdo da conversa.
instructions null Cadeia Uma mensagem do sistema (ou desenvolvedor) inserida no contexto do modelo.
max_output_tokens null null, o que significa ausência de limite, ou um número inteiro maior que zero Um limite superior para o número de tokens que podem ser gerados para uma resposta, incluindo tokens de saída visíveis e tokens de raciocínio.
temperature 1.0 Valor flutuante em [0,2] A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade.
top_p 1.0 Flutuar em (0,1) O limiar de probabilidade utilizado para a amostragem do núcleo.
stream false booleano Se definido como true, os dados de resposta do modelo serão transmitidos para o cliente à medida que são gerados usando eventos enviados pelo servidor.
stream_options null StreamOptions Opções para respostas em streaming. Defina isso apenas quando definir stream: true.
text null TextConfig Opções de configuração para uma resposta de texto do modelo. Pode ser texto simples ou dados JSON estruturados.
reasoning null ReasoningConfig Configuração de raciocínio para modelos GPT-5 e da série O.
tool_choice "auto" String ou ToolChoiceObject Como o modelo deve selecionar qual ferramenta (ou ferramentas) usar ao gerar uma resposta. Consulte o tools parâmetro para ver como especificar quais ferramentas o modelo pode chamar.
tools null Lista[ObjetoFerramenta] Uma matriz de ferramentas que o modelo pode chamar ao gerar uma resposta. Nota: O intérprete de código e as ferramentas de pesquisa web não são suportadas pelo Databricks.
parallel_tool_calls true booleano Se deve permitir que o modelo execute chamadas de ferramenta em paralelo.
max_tool_calls null Inteiro maior que zero O número máximo de chamadas totais para ferramentas integradas que podem ser processadas em uma resposta.
metadata null Objeto Conjunto de 16 pares chave-valor que podem ser anexados a um objeto.
prompt_cache_key null Cadeia Usado para armazenar em cache respostas a pedidos semelhantes, otimizando a eficácia da cache. Substitui o user campo.
prompt_cache_retention null Cadeia A política de retenção para a cache de prompts. Defina para "24h" permitir a cache de prompts estendida, que mantém os prefixos em cache ativos por mais tempo, até um máximo de 24 horas.
safety_identifier null Cadeia Um identificador estável usado para ajudar a detetar utilizadores da sua aplicação que possam estar a violar políticas de uso.
user null Cadeia Preterido. Use safety_identifier e prompt_cache_key em vez disso.
truncation null Cadeia A estratégia de truncamento a ser usada para a resposta do modelo.
top_logprobs null Inteiro Um número inteiro entre 0 e 20 que especifica o número de tokens mais prováveis de serem retornados em cada posição de token, cada um com uma probabilidade em log associada.
include null Lista[String] Especifique dados de saída adicionais a serem incluídos na resposta do modelo.
prompt null Objeto Referência a um modelo de prompt e as suas variáveis.

Parâmetros não suportados: Os seguintes parâmetros não são suportados pelos Databricks e devolverão um erro 400 se especificados:

  • background - Processamento em segundo plano não é suportado
  • store - Respostas armazenadas não são suportadas
  • conversation - API de conversação não é suportada
  • service_tier - A seleção de níveis de serviço é gerida pelo Databricks

ResponsesInput

O input campo aceita uma cadeia de caracteres ou uma lista de objetos de mensagem de entrada com função e conteúdo.

Campo Tipo Descrição
role Cadeia Obrigatório. O papel do autor da mensagem. Pode ser "user" ou "assistant".
content String ou Lista[ResponsesContentBlock] Obrigatório. O conteúdo da mensagem, seja como uma cadeia ou um array de blocos de conteúdo.

ResponsesContentBlock

Os blocos de conteúdo definem o tipo de conteúdo nas mensagens de entrada e saída. O tipo de bloco de conteúdo é determinado pelo type campo.

InputText
Campo Tipo Descrição
type Cadeia Obrigatório. Deve ser "input_text".
text Cadeia Obrigatório. O conteúdo do texto.
OutputText
Campo Tipo Descrição
type Cadeia Obrigatório. Deve ser "output_text".
text Cadeia Obrigatório. O conteúdo do texto.
annotations Lista[Objeto] Anotações opcionais para o conteúdo do texto.
InputImage
Campo Tipo Descrição
type Cadeia Obrigatório. Deve ser "input_image".
image_url Cadeia Obrigatório. URL ou URI de dados codificados em base64 da imagem.
InputFile
Campo Tipo Descrição
type Cadeia Obrigatório. Deve ser "input_file".
file_id Cadeia Identificador de ficheiro caso utilize ficheiros carregados.
filename Cadeia O nome do arquivo.
file_data Cadeia URI de dados codificados em Base64 com prefixo de formato. Por exemplo, os ficheiros PDF utilizam o formato data:application/pdf;base64,<base64 data>.
FunctionCall
Campo Tipo Descrição
type Cadeia Obrigatório. Deve ser "function_call".
id Cadeia Obrigatório. Identificador único para a chamada de função.
call_id Cadeia Obrigatório. O identificador de chamada.
name Cadeia Obrigatório. O nome da função que está a ser chamada.
arguments Objeto/String Obrigatório. Os argumentos da função, representados como um objeto JSON ou uma string.
FunctionCallOutput
Campo Tipo Descrição
type Cadeia Obrigatório. Deve ser "function_call_output".
call_id Cadeia Obrigatório. O identificador da chamada a que esta saída corresponde.
output Fio/Objeto Obrigatório. A função é produzida como string ou objeto JSON.

StreamOptions

Configuração para respostas em streaming. Utilizado apenas quando stream: true.

Campo Tipo Descrição
include_usage booleano Se for verdade, inclua informação de utilização de tokens no fluxo. A predefinição é false.

TextConfig

Configuração para saída de texto, incluindo saídas estruturadas.

Campo Tipo Descrição
format ResponsesFormatObject A especificação do formato para a saída de texto.

ResponsesFormatObject

Especifica o formato de saída para respostas de texto.

Campo Tipo Descrição
type Cadeia Obrigatório. O tipo de formato: "text" para texto simples, "json_object" para JSON ou "json_schema" para JSON estruturado.
json_schema Objeto Obrigatório quando type é "json_schema". O objeto de esquema JSON que define a estrutura da saída.

O json_schema objeto tem a mesma estrutura que o JsonSchemaObject documentado na API Chat Completions.

ReasoningConfig

Configuração para comportamento de raciocínio em modelos de raciocínio (modelos o-series e gpt-5).

Campo Tipo Descrição
effort Cadeia O nível de esforço de raciocínio: "low", "medium", ou "high". A predefinição é "medium".
encrypted_content Cadeia Conteúdo de raciocínio encriptado para modo sem estado. Fornecido pelo modelo nas respostas anteriores.

ToolObject

Consulte Chamadas de funções no Azure Databricks.

Campo Tipo Descrição
type Cadeia Obrigatório. O tipo da ferramenta. Atualmente, apenas function é suportado.
function FunctionObject Obrigatório. A definição de função associada à ferramenta.

FunctionObject

Campo Tipo Descrição
name Cadeia Obrigatório. O nome da função a ser chamada.
description Objeto Obrigatório. A descrição detalhada da função. O modelo usa essa descrição para entender a relevância da função para o prompt e gerar as chamadas da ferramenta com maior precisão.
parameters Objeto Os parâmetros que a função aceita, descritos como um objeto de esquema JSON válido. Se a ferramenta for chamada, a chamada de ferramenta será ajustada ao esquema JSON fornecido. Omitir parâmetros define uma função sem quaisquer parâmetros. O número de properties é limitado a 15 chaves.
strict booleano Se a adesão estrita ao esquema deve ser ativada ao gerar a chamada de função. Se definido como true, o modelo segue o esquema exato definido no campo de esquema. Somente um subconjunto do esquema JSON é suportado quando strict é true

ToolChoiceObject

Consulte Chamadas de funções no Azure Databricks.

Campo Tipo Descrição
type Cadeia Obrigatório. O tipo da ferramenta. Atualmente, apenas "function" é suportado.
function Objeto Obrigatório. Um objeto que define qual ferramenta chamar do formulário {"type": "function", "function": {"name": "my_function"}} onde "my_function é o nome de um FunctionObject no campo tools.

Resposta da API de Respostas

Para pedidos que não sejam de transmissão, a resposta é um único objeto de resposta. Para pedidos de streaming, a resposta é um text/event-stream onde cada evento é um bloco de resposta.

Campo Tipo Descrição
id Cadeia Identificador exclusivo da resposta. Nota: O Databricks encripta este ID por questões de segurança.
object Cadeia O tipo de objeto. Igual a "response".
created_at Inteiro O carimbo temporal do Unix (em segundos) quando a resposta foi criada.
status Cadeia O status da resposta. Uma de: completed, failed, in_progress, cancelled, queued, ou incomplete.
model Cadeia A versão do modelo usada para gerar a resposta.
output Lista[MensagemDeRespostas] A saída gerada pelo modelo, normalmente contendo objetos de mensagem.
usage Utilização Metadados de uso de token.
error Error Informação de erro se a resposta falhou.
incomplete_details DetalhesIncompletos Detalhes sobre o motivo pelo qual a resposta está incompleta, se aplicável.
instructions Cadeia As instruções fornecidas no pedido.
max_output_tokens Inteiro Os tokens de saída máximos especificados na requisição.
temperature Flutuar A temperatura usada para a geração.
top_p Flutuar O valor top_p usado para geração.
tools Lista[ObjetoFerramenta] As ferramentas especificadas no pedido.
tool_choice String ou ToolChoiceObject A definição tool_choice do pedido.
parallel_tool_calls booleano Se as chamadas paralelas de ferramentas estavam ativadas.
store booleano Se a resposta foi armazenada.
metadata Objeto Os metadados anexados à resposta.

ResponsesMessage

Objetos de mensagem no output campo que contém o conteúdo de resposta do modelo.

Campo Tipo Descrição
id Cadeia Obrigatório. Identificador único para a mensagem.
role Cadeia Obrigatório. O papel da mensagem. "user" ou "assistant".
content Lista [RespostasContentBlock] Obrigatório. Os blocos de conteúdo na mensagem.
status Cadeia O estado do processamento de mensagens.
type Cadeia Obrigatório. O tipo de objeto. Igual a "message".

Error

Informação de erro quando uma resposta falha.

Campo Tipo Descrição
code Cadeia Obrigatório. O código de erro.
message Cadeia Obrigatório. Uma mensagem de erro legível por humanos.
param Cadeia O parâmetro que causou o erro, se aplicável.
type Cadeia Obrigatório. O tipo de erro.

IncompleteDetails

Detalhes sobre porque é que uma resposta está incompleta.

Campo Tipo Descrição
reason Cadeia Obrigatório. A razão pela qual a resposta é incompleta.

API de Completação de Chat

A API Chat Completions permite conversas com múltiplas voltas com um modelo. A resposta do modelo fornece a próxima mensagem assistant na conversa. Consulte POST /serving-endpoints/{name}/invocations para consultar os parâmetros do ponto de extremidade.

Pedido de chat

Campo Padrão Tipo Descrição
messages ChatMessage lista Obrigatório. Uma lista de mensagens que representam a conversa atual.
max_tokens null null, o que significa ausência de limite, ou um número inteiro maior que zero O número máximo de tokens a serem gerados.
stream true booleano Transmita respostas de volta para um cliente para permitir resultados parciais para solicitações. Se esse parâmetro for incluído na solicitação, as respostas serão enviadas usando o eventos enviados pelo servidor padrão.
temperature 1.0 Valor flutuante em [0,2] A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade.
top_p 1.0 Flutuar em (0,1) O limiar de probabilidade utilizado para a amostragem do núcleo.
top_k null null, o que significa ausência de limite, ou um número inteiro maior que zero Define-se o número dos k tokens mais prováveis a usar para o filtro top-k. Defina esse valor como 1 para tornar as saídas determinísticas.
stop [] String (cadeia de caracteres) ou List[String] (lista de strings) O modelo para de gerar mais tokens quando qualquer uma das sequências em stop é encontrada.
n 1 Inteiro maior que zero A API retorna n conclusões de bate-papo independentes quando n é especificado. Recomendado para cargas de trabalho que geram várias finalizações na mesma entrada para eficiência de inferência adicional e economia de custos. Disponível apenas para pontos de extremidade de taxa de transferência provisionados.
tool_choice none String ou ToolChoiceObject Usado apenas em conjunto com o campo tools. tool_choice suporta uma variedade de cadeias de caracteres de palavras-chave, como auto, requirede none. auto significa que você está deixando o modelo decidir qual (se houver) ferramenta é relevante usar. Se auto o modelo não acredita que nenhuma das ferramentas em tools é relevante, o modelo gera uma mensagem de assistente padrão em vez de uma chamada de ferramenta. required significa que o modelo escolhe a ferramenta mais relevante em tools e deve gerar uma chamada de ferramenta. none significa que o modelo não gera nenhuma chamada de ferramenta e, em vez disso, deve gerar uma mensagem de assistente padrão. Para forçar uma chamada de ferramenta com uma ferramenta específica definida em tools, use um ToolChoiceObject. Por predefinição, se o campo tools estiver preenchido tool_choice = "auto". Caso contrário, o campo tools assume como padrão tool_choice = "none"
tools null ObjetoDeFerramenta Uma lista de tools que o modelo pode chamar. Atualmente, function é o único tipo de tool suportado e um máximo de 32 funções são suportadas.
response_format null ObjetoDeFormatoDeResposta Um objeto que especifica o formato que o modelo deve produzir. Os tipos aceites são text, json_schema ou json_object
A configuração como { "type": "json_schema", "json_schema": {...} } permite saídas estruturadas que garantem que o modelo siga o esquema JSON fornecido.
A configuração como { "type": "json_object" } garante que as respostas geradas pelo modelo sejam JSON válidas, mas não garante que as respostas sigam um esquema específico.
logprobs false booleano Este parâmetro indica se deve fornecer a probabilidade logarítmica de um token ser amostrado.
top_logprobs null Inteiro Este parâmetro controla o número de tokens mais prováveis para os quais devem ser retornadas as probabilidades logarítmicas na etapa de amostragem. Pode ser 0-20. logprobs deve ser true caso utilize este campo.
reasoning_effort "medium" Cadeia Controla o nível de esforço de raciocínio que o modelo deve aplicar ao gerar respostas. Os valores aceites são "low", "medium"ou "high". Um maior esforço de raciocínio pode resultar em respostas mais ponderadas e precisas, mas pode aumentar a latência e o uso de tokens. Este parâmetro só é aceite por um conjunto limitado de modelos, incluindo databricks-gpt-oss-120b e databricks-gpt-oss-20b.

ChatMessage

Campo Tipo Descrição
role Cadeia Obrigatório. O papel do autor da mensagem. Pode ser "system", "user", "assistant" ou "tool".
content Cadeia O conteúdo da mensagem. Obrigatório para tarefas de chat que não envolvam chamadas de ferramentas.
tool_calls ToolCall lista A lista de tool_calls que o modelo gerou. Deve ter role como "assistant" e nenhuma especificação para o campo content.
tool_call_id Cadeia Quando role é "tool", o ID associado ao ToolCall a que a mensagem responde. Deve estar vazio para outras opções role.

A função system só pode ser usada uma vez, como a primeira mensagem de uma conversa. Isto substitui o prompt de sistema padrão do modelo.

ToolCall

Uma sugestão de ação de chamada de ferramenta feita pelo modelo. Consulte Chamadas de funções no Azure Databricks.

Campo Tipo Descrição
id Cadeia Obrigatório. Um identificador exclusivo para esta sugestão de chamada de ferramenta.
type Cadeia Obrigatório. Apenas "function" é suportado.
function ConclusãoDeChamadaDeFunção Obrigatório. Uma invocação de função sugerida pelo modelo.
cache_control Cadeia Habilita o armazenamento em cache para sua solicitação. Este parâmetro só é aceito por modelos Claude hospedados pelo Databricks. Consulte Prompt caching para obter um exemplo.

FunctionCallCompletion

Campo Tipo Descrição
name Cadeia Necessário. O nome da função recomendada pelo modelo.
arguments Objeto Necessário. Argumentos para a função como um dicionário JSON serializado.

Nota: ToolChoiceObject, ToolObject, e FunctionObject estão definidos na secção da API de Respostas e são partilhados entre ambas as APIs.

ResponseFormatObject

Consulte Saídas estruturadas no Azure Databricks.

Campo Tipo Descrição
type Cadeia Obrigatório. O tipo de formato de resposta que está sendo definido. text para texto não estruturado, json_object para objetos JSON não estruturados ou json_schema para objetos JSON aderentes a um esquema específico.
json_schema JsonSchemaObject Obrigatório. O esquema JSON a ser aderido se type estiver definido como json_schema

JsonSchemaObject

Consulte Saídas estruturadas no Azure Databricks.

Campo Tipo Descrição
name Cadeia Obrigatório. O nome do formato de resposta.
description Cadeia Uma descrição do propósito do formato de resposta, utilizada pelo modelo para determinar como responder nesse formato.
schema Objeto Obrigatório. O esquema para o formato de resposta, descrito como um objeto de esquema JSON.
strict booleano Se a adesão estrita ao esquema deve ser habilitada ao gerar a saída. Se definido como true, o modelo segue o esquema exato definido no campo de esquema. Somente um subconjunto do esquema JSON é suportado quando strict é true

Resposta do chat

Para solicitações que não são de streaming, a resposta é um único objeto de conclusão de chat. Para solicitações de streaming, a resposta é um text/event-stream em que cada evento é um objeto de bloco de conclusão. A estrutura de nível superior de conclusão e fragmentação de objetos é quase idêntica: apenas choices tem um tipo diferente.

Campo Tipo Descrição
id Cadeia Identificador exclusivo para a conclusão do chat.
choices List[ChatCompletionChoice] ou List[ChatCompletionChunk] (streaming) Lista de textos de conclusão de chat. n opções são retornadas se o parâmetro n for especificado.
object Cadeia O tipo de objeto. Igual a "chat.completions" para não-transmissão ou "chat.completion.chunk" para transmissão.
created Inteiro O tempo de conclusão do chat foi gerado em segundos.
model Cadeia A versão do modelo usada para gerar a resposta.
usage Utilização Metadados de uso de token. Pode não estar presente nas respostas de streaming.

ChatCompletionChoice

Campo Tipo Descrição
index Inteiro O índice da escolha na lista de opções geradas.
message ChatMensagem Uma mensagem de conclusão de chat retornada pelo modelo. O papel será assistant.
finish_reason Cadeia A razão pela qual o modelo parou de gerar tokens.
extra_fields Cadeia Ao usar modelos proprietários de provedores de modelos externos, as APIs do provedor podem incluir metadados adicionais nas respostas. O Databricks filtra essas respostas e retorna apenas um subconjunto dos campos originais do provedor. O safetyRating é o único campo extra suportado no momento, consulte a documentação do Gemini para obter mais detalhes.

ChatCompletionChunk

Campo Tipo Descrição
index Inteiro O índice da escolha na lista de opções geradas.
delta ChatMensagem Uma mensagem de conclusão de bate-papo faz parte das respostas transmitidas geradas pelo modelo. Apenas o primeiro bloco tem a garantia de ter role preenchido.
finish_reason Cadeia A razão pela qual o modelo parou de gerar tokens. Apenas o último bloco terá estes dados preenchidos.

Embeddings API

As tarefas de incorporação mapeiam cadeias de caracteres de entrada em vetores de incorporação. Muitas entradas podem ser agrupadas em lote em cada solicitação. Consulte POST /serving-endpoints/{name}/invocations para consultar os parâmetros do ponto de extremidade.

Pedido de incorporação

Campo Tipo Descrição
input String (cadeia de caracteres) ou List[String] (lista de strings) Obrigatório. O texto de entrada a ser incorporado. Pode ser uma cadeia de caracteres ou uma lista de cadeias de caracteres.
instruction Cadeia Uma instrução opcional para passar para o modelo de incorporação.

As instruções são opcionais e altamente específicas do modelo. Por exemplo, os autores do BGE não recomendam nenhuma instrução ao indexar blocos e recomendam o uso da instrução "Represent this sentence for searching relevant passages:" para consultas de recuperação. Outros modelos como Instructor-XL suportam uma ampla gama de cadeias de instruções.

Incorpora resposta

Campo Tipo Descrição
id Cadeia Identificador único para a incorporação.
object Cadeia O tipo de objeto. Igual a "list".
model Cadeia O nome do modelo de incorporação usado para criar a incorporação.
data EmbeddingObject O objeto de incorporação.
usage Utilização Metadados de uso de token.

EmbeddingObject

Campo Tipo Descrição
object Cadeia O tipo de objeto. Igual a "embedding".
index Inteiro O índice da incorporação na lista de incorporações geradas pelo modelo.
embedding Lista(Float) O vetor de incorporação. Cada modelo retornará um vetor de tamanho fixo (1024 para BGE-Large)

API de Preenchimentos

As tarefas de conclusão de texto são para gerar respostas a um único prompt. Ao contrário do Chat, esta tarefa suporta entradas em lote: vários prompts independentes podem ser enviados em uma solicitação. Consulte POST /serving-endpoints/{name}/invocations para consultar os parâmetros do ponto de extremidade.

Pedido de conclusão

Campo Padrão Tipo Descrição
prompt String (cadeia de caracteres) ou List[String] (lista de strings) Obrigatório. As sugestões para o modelo.
max_tokens null null, o que significa ausência de limite, ou um número inteiro maior que zero O número máximo de tokens a serem gerados.
stream true booleano Transmita respostas de volta para um cliente para permitir resultados parciais para solicitações. Se esse parâmetro for incluído na solicitação, as respostas serão enviadas usando o eventos enviados pelo servidor padrão.
temperature 1.0 Valor flutuante em [0,2] A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade.
top_p 1.0 Flutuar em (0,1) O limiar de probabilidade utilizado para a amostragem do núcleo.
top_k null null, o que significa ausência de limite, ou um número inteiro maior que zero Define-se o número dos k tokens mais prováveis a usar para o filtro top-k. Defina esse valor como 1 para tornar as saídas determinísticas.
error_behavior "error" "truncate" ou "error" Para quando ocorrem tempos de espera e erros de comprimento de contexto excedido. Um de: "truncate" (retornar o maior número possível de tokens) e "error" (retornar um erro). Esse parâmetro só é aceite por endpoints de pagamento por token.
n 1 Inteiro maior que zero A API retorna n conclusões de bate-papo independentes quando n é especificado. Recomendado para cargas de trabalho que geram várias finalizações na mesma entrada para eficiência de inferência adicional e economia de custos. Disponível apenas para pontos de extremidade de taxa de transferência provisionados.
stop [] String (cadeia de caracteres) ou List[String] (lista de strings) O modelo para de gerar mais tokens quando qualquer uma das sequências em stop é encontrada.
suffix "" Cadeia Uma cadeia de caracteres que é acrescentada ao final de cada conclusão.
echo false booleano Retorna o comando juntamente com a conclusão.
use_raw_prompt false booleano Se true, passe o prompt diretamente para o modelo, sem qualquer transformação.

Resposta de conclusão

Campo Tipo Descrição
id Cadeia Identificador exclusivo para completar o texto.
choices Escolha de Conclusão Uma lista de completamentos de texto. Para cada prompt introduzido, n escolhas são geradas se n estiver especificado. O n padrão é 1.
object Cadeia O tipo de objeto. Igual a "text_completion"
created Inteiro O tempo em que a conclusão foi gerada em segundos.
usage Utilização Metadados de uso de token.

CompletionChoice

Campo Tipo Descrição
index Inteiro O índice do prompt na solicitação.
text Cadeia A conclusão gerada.
finish_reason Cadeia A razão pela qual o modelo parou de gerar tokens.

Recursos adicionais