Referência da API REST do modelo de base

Este artigo fornece informações gerais de API para APIs do Databricks Foundation Model e os modelos suportados. As APIs do Foundation Model são projetadas para serem semelhantes à API REST da OpenAI para facilitar a migração de projetos existentes. Tanto o pagamento por token como os pontos finais com largura de banda provisionada aceitam o mesmo formato de pedido da API REST.

Pontos de extremidade

As APIs do Modelo de Base suportam interfaces de pagamento por uso de token e interfaces de largura de banda provisionada.

Um ponto de extremidade pré-configurado está disponível em seu espaço de trabalho para cada modelo suportado de pagamento por token, e os usuários podem interagir com esses pontos de extremidade usando solicitações HTTP POST. Consulte Modelos de base suportados no Mosaic AI Model Serving para modelos suportados.

Os pontos finais de capacidade provisionada podem ser criados usando a API ou a interface de gestão do serviço. Esses endpoints suportam múltiplos modelos por endereço para testes A/B, desde que os dois modelos servidos exponham o mesmo formato de API. Por exemplo, ambos os modelos são modelos de chat. Consulte POST /api/2.0/serving-endpoints para obter os parâmetros de configuração do ponto final.

Solicitações e respostas usam JSON, sendo que a estrutura exata do JSON depende do tipo de tarefa do ponto de extremidade. Os endpoints de bate-papo e conclusão suportam respostas em fluxo contínuo.

Utilização

As respostas incluem uma submensagem usage que informa o número de tokens na solicitação e na resposta. O formato desta submensagem é o mesmo em todos os tipos de tarefas.

Campo	Tipo	Descrição
`completion_tokens`	Inteiro	Número de tokens gerados. Não incluído nas respostas incorporadas.
`prompt_tokens`	Inteiro	Número de _tokens_ dos _prompts_ de entrada.
`total_tokens`	Inteiro	Número total de tokens.
`reasoning_tokens`	Inteiro	Número dos tokens de pensamento. Só é aplicável a modelos de raciocínio.

Para modelos como databricks-meta-llama-3-3-70b-instruct um prompt do usuário é transformado usando um modelo de prompt antes de ser passado para o modelo. Para endpoints cobrados por token, um prompt do sistema também pode ser adicionado. prompt_tokens inclui todo o texto adicionado pelo nosso servidor.

API de Respostas

Importante

A API Responses só é compatível com modelos OpenAI.

A API de Respostas permite conversas de múltiplas interações com um modelo. Ao contrário do Chat Completions, a API de Respostas usa input em vez de messages.

Pedido API de Respostas

Campo	Padrão	Tipo	Descrição
`model`		Cadeia	Obrigatório. ID do modelo usado para gerar a resposta.
`input`		String ou Lista[ResponsesInput]	Obrigatório. Entradas de texto, imagem ou arquivo no modelo, usadas para gerar uma resposta. Ao contrário do `messages`, este campo utiliza o `input` para especificar o conteúdo da conversa.
`instructions`	`null`	Cadeia	Uma mensagem do sistema (ou desenvolvedor) inserida no contexto do modelo.
`max_output_tokens`	`null`	`null`, o que significa ausência de limite, ou um número inteiro maior que zero	Um limite superior para o número de tokens que podem ser gerados para uma resposta, incluindo tokens de saída visíveis e tokens de raciocínio.
`temperature`	`1.0`	Valor flutuante em [0,2]	A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade.
`top_p`	`1.0`	Flutuar em (0,1)	O limiar de probabilidade utilizado para a amostragem do núcleo.
`stream`	`false`	booleano	Se definido como true, os dados de resposta do modelo serão transmitidos para o cliente à medida que são gerados usando eventos enviados pelo servidor.
`stream_options`	`null`	StreamOptions	Opções para respostas em streaming. Defina isso apenas quando definir `stream: true`.
`text`	`null`	TextConfig	Opções de configuração para uma resposta de texto do modelo. Pode ser texto simples ou dados JSON estruturados.
`reasoning`	`null`	ReasoningConfig	Configuração de raciocínio para modelos GPT-5 e da série O.
`tool_choice`	`"auto"`	String ou ToolChoiceObject	Como o modelo deve selecionar qual ferramenta (ou ferramentas) usar ao gerar uma resposta. Consulte o `tools` parâmetro para ver como especificar quais ferramentas o modelo pode chamar.
`tools`	`null`	Lista[ObjetoFerramenta]	Uma matriz de ferramentas que o modelo pode chamar ao gerar uma resposta. Nota: O intérprete de código e as ferramentas de pesquisa web não são suportadas pelo Databricks.
`parallel_tool_calls`	`true`	booleano	Se deve permitir que o modelo execute chamadas de ferramenta em paralelo.
`max_tool_calls`	`null`	Inteiro maior que zero	O número máximo de chamadas totais para ferramentas integradas que podem ser processadas em uma resposta.
`metadata`	`null`	Objeto	Conjunto de 16 pares chave-valor que podem ser anexados a um objeto.
`prompt_cache_key`	`null`	Cadeia	Usado para armazenar em cache respostas a pedidos semelhantes, otimizando a eficácia da cache. Substitui o `user` campo.
`prompt_cache_retention`	`null`	Cadeia	A política de retenção para a cache de prompts. Defina para `"24h"` permitir a cache de prompts estendida, que mantém os prefixos em cache ativos por mais tempo, até um máximo de 24 horas.
`safety_identifier`	`null`	Cadeia	Um identificador estável usado para ajudar a detetar utilizadores da sua aplicação que possam estar a violar políticas de uso.
`user`	`null`	Cadeia	Preterido. Use `safety_identifier` e `prompt_cache_key` em vez disso.
`truncation`	`null`	Cadeia	A estratégia de truncamento a ser usada para a resposta do modelo.
`top_logprobs`	`null`	Inteiro	Um número inteiro entre 0 e 20 que especifica o número de tokens mais prováveis de serem retornados em cada posição de token, cada um com uma probabilidade em log associada.
`include`	`null`	Lista[String]	Especifique dados de saída adicionais a serem incluídos na resposta do modelo.
`prompt`	`null`	Objeto	Referência a um modelo de prompt e as suas variáveis.

Parâmetros não suportados: Os seguintes parâmetros não são suportados pelos Databricks e devolverão um erro 400 se especificados:

background - Processamento em segundo plano não é suportado
store - Respostas armazenadas não são suportadas
conversation - API de conversação não é suportada
service_tier - A seleção de níveis de serviço é gerida pelo Databricks

`ResponsesInput`

O input campo aceita uma cadeia de caracteres ou uma lista de objetos de mensagem de entrada com função e conteúdo.

Campo	Tipo	Descrição
`role`	Cadeia	Obrigatório. O papel do autor da mensagem. Pode ser `"user"` ou `"assistant"`.
`content`	String ou Lista[ResponsesContentBlock]	Obrigatório. O conteúdo da mensagem, seja como uma cadeia ou um array de blocos de conteúdo.

`ResponsesContentBlock`

Os blocos de conteúdo definem o tipo de conteúdo nas mensagens de entrada e saída. O tipo de bloco de conteúdo é determinado pelo type campo.

`InputText`

Campo	Tipo	Descrição
`type`	Cadeia	Obrigatório. Deve ser `"input_text"`.
`text`	Cadeia	Obrigatório. O conteúdo do texto.

`OutputText`

Campo	Tipo	Descrição
`type`	Cadeia	Obrigatório. Deve ser `"output_text"`.
`text`	Cadeia	Obrigatório. O conteúdo do texto.
`annotations`	Lista[Objeto]	Anotações opcionais para o conteúdo do texto.

`InputImage`

Campo	Tipo	Descrição
`type`	Cadeia	Obrigatório. Deve ser `"input_image"`.
`image_url`	Cadeia	Obrigatório. URL ou URI de dados codificados em base64 da imagem.

`InputFile`

Campo	Tipo	Descrição
`type`	Cadeia	Obrigatório. Deve ser `"input_file"`.
`file_id`	Cadeia	Identificador de ficheiro caso utilize ficheiros carregados.
`filename`	Cadeia	O nome do arquivo.
`file_data`	Cadeia	URI de dados codificados em Base64 com prefixo de formato. Por exemplo, os ficheiros PDF utilizam o formato `data:application/pdf;base64,<base64 data>`.

`FunctionCall`

Campo	Tipo	Descrição
`type`	Cadeia	Obrigatório. Deve ser `"function_call"`.
`id`	Cadeia	Obrigatório. Identificador único para a chamada de função.
`call_id`	Cadeia	Obrigatório. O identificador de chamada.
`name`	Cadeia	Obrigatório. O nome da função que está a ser chamada.
`arguments`	Objeto/String	Obrigatório. Os argumentos da função, representados como um objeto JSON ou uma string.

`FunctionCallOutput`

Campo	Tipo	Descrição
`type`	Cadeia	Obrigatório. Deve ser `"function_call_output"`.
`call_id`	Cadeia	Obrigatório. O identificador da chamada a que esta saída corresponde.
`output`	Fio/Objeto	Obrigatório. A função é produzida como string ou objeto JSON.

`StreamOptions`

Configuração para respostas em streaming. Utilizado apenas quando stream: true.

Campo	Tipo	Descrição
`include_usage`	booleano	Se for verdade, inclua informação de utilização de tokens no fluxo. A predefinição é `false`.

`TextConfig`

Configuração para saída de texto, incluindo saídas estruturadas.

Campo	Tipo	Descrição
`format`	ResponsesFormatObject	A especificação do formato para a saída de texto.

`ResponsesFormatObject`

Especifica o formato de saída para respostas de texto.

Campo	Tipo	Descrição
`type`	Cadeia	Obrigatório. O tipo de formato: `"text"` para texto simples, `"json_object"` para JSON ou `"json_schema"` para JSON estruturado.
`json_schema`	Objeto	Obrigatório quando `type` é `"json_schema"`. O objeto de esquema JSON que define a estrutura da saída.

O json_schema objeto tem a mesma estrutura que o JsonSchemaObject documentado na API Chat Completions.

`ReasoningConfig`

Configuração para comportamento de raciocínio em modelos de raciocínio (modelos o-series e gpt-5).

Campo	Tipo	Descrição
`effort`	Cadeia	O nível de esforço de raciocínio: `"low"`, `"medium"`, ou `"high"`. A predefinição é `"medium"`.
`encrypted_content`	Cadeia	Conteúdo de raciocínio encriptado para modo sem estado. Fornecido pelo modelo nas respostas anteriores.

`ToolObject`

Consulte Chamadas de funções no Azure Databricks.

Campo	Tipo	Descrição
`type`	Cadeia	Obrigatório. O tipo da ferramenta. Atualmente, apenas `function` é suportado.
`function`	FunctionObject	Obrigatório. A definição de função associada à ferramenta.

`FunctionObject`

Campo	Tipo	Descrição
`name`	Cadeia	Obrigatório. O nome da função a ser chamada.
`description`	Objeto	Obrigatório. A descrição detalhada da função. O modelo usa essa descrição para entender a relevância da função para o prompt e gerar as chamadas da ferramenta com maior precisão.
`parameters`	Objeto	Os parâmetros que a função aceita, descritos como um objeto de esquema JSON válido. Se a ferramenta for chamada, a chamada de ferramenta será ajustada ao esquema JSON fornecido. Omitir parâmetros define uma função sem quaisquer parâmetros. O número de `properties` é limitado a 15 chaves.
`strict`	booleano	Se a adesão estrita ao esquema deve ser ativada ao gerar a chamada de função. Se definido como `true`, o modelo segue o esquema exato definido no campo de esquema. Somente um subconjunto do esquema JSON é suportado quando strict é `true`

`ToolChoiceObject`

Consulte Chamadas de funções no Azure Databricks.

Campo	Tipo	Descrição
`type`	Cadeia	Obrigatório. O tipo da ferramenta. Atualmente, apenas `"function"` é suportado.
`function`	Objeto	Obrigatório. Um objeto que define qual ferramenta chamar do formulário `{"type": "function", "function": {"name": "my_function"}}` onde `"my_function` é o nome de um FunctionObject no campo `tools`.

Resposta da API de Respostas

Para pedidos que não sejam de transmissão, a resposta é um único objeto de resposta. Para pedidos de streaming, a resposta é um text/event-stream onde cada evento é um bloco de resposta.

Campo	Tipo	Descrição
`id`	Cadeia	Identificador exclusivo da resposta. Nota: O Databricks encripta este ID por questões de segurança.
`object`	Cadeia	O tipo de objeto. Igual a `"response"`.
`created_at`	Inteiro	O carimbo temporal do Unix (em segundos) quando a resposta foi criada.
`status`	Cadeia	O status da resposta. Uma de: `completed`, `failed`, `in_progress`, `cancelled`, `queued`, ou `incomplete`.
`model`	Cadeia	A versão do modelo usada para gerar a resposta.
`output`	Lista[MensagemDeRespostas]	A saída gerada pelo modelo, normalmente contendo objetos de mensagem.
`usage`	Utilização	Metadados de uso de token.
`error`	Error	Informação de erro se a resposta falhou.
`incomplete_details`	DetalhesIncompletos	Detalhes sobre o motivo pelo qual a resposta está incompleta, se aplicável.
`instructions`	Cadeia	As instruções fornecidas no pedido.
`max_output_tokens`	Inteiro	Os tokens de saída máximos especificados na requisição.
`temperature`	Flutuar	A temperatura usada para a geração.
`top_p`	Flutuar	O valor top_p usado para geração.
`tools`	Lista[ObjetoFerramenta]	As ferramentas especificadas no pedido.
`tool_choice`	String ou ToolChoiceObject	A definição tool_choice do pedido.
`parallel_tool_calls`	booleano	Se as chamadas paralelas de ferramentas estavam ativadas.
`store`	booleano	Se a resposta foi armazenada.
`metadata`	Objeto	Os metadados anexados à resposta.

`ResponsesMessage`

Objetos de mensagem no output campo que contém o conteúdo de resposta do modelo.

Campo	Tipo	Descrição
`id`	Cadeia	Obrigatório. Identificador único para a mensagem.
`role`	Cadeia	Obrigatório. O papel da mensagem. `"user"` ou `"assistant"`.
`content`	Lista [RespostasContentBlock]	Obrigatório. Os blocos de conteúdo na mensagem.
`status`	Cadeia	O estado do processamento de mensagens.
`type`	Cadeia	Obrigatório. O tipo de objeto. Igual a `"message"`.

`Error`

Informação de erro quando uma resposta falha.

Campo	Tipo	Descrição
`code`	Cadeia	Obrigatório. O código de erro.
`message`	Cadeia	Obrigatório. Uma mensagem de erro legível por humanos.
`param`	Cadeia	O parâmetro que causou o erro, se aplicável.
`type`	Cadeia	Obrigatório. O tipo de erro.

`IncompleteDetails`

Detalhes sobre porque é que uma resposta está incompleta.

Campo	Tipo	Descrição
`reason`	Cadeia	Obrigatório. A razão pela qual a resposta é incompleta.

API de Completação de Chat

A API Chat Completions permite conversas com múltiplas voltas com um modelo. A resposta do modelo fornece a próxima mensagem assistant na conversa. Consulte POST /serving-endpoints/{name}/invocations para consultar os parâmetros do ponto de extremidade.

Pedido de chat

Campo	Padrão	Tipo	Descrição
`messages`		ChatMessage lista	Obrigatório. Uma lista de mensagens que representam a conversa atual.
`max_tokens`	`null`	`null`, o que significa ausência de limite, ou um número inteiro maior que zero	O número máximo de tokens a serem gerados.
`stream`	`true`	booleano	Transmita respostas de volta para um cliente para permitir resultados parciais para solicitações. Se esse parâmetro for incluído na solicitação, as respostas serão enviadas usando o eventos enviados pelo servidor padrão.
`temperature`	`1.0`	Valor flutuante em [0,2]	A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade.
`top_p`	`1.0`	Flutuar em (0,1)	O limiar de probabilidade utilizado para a amostragem do núcleo.
`top_k`	`null`	`null`, o que significa ausência de limite, ou um número inteiro maior que zero	Define-se o número dos k tokens mais prováveis a usar para o filtro top-k. Defina esse valor como 1 para tornar as saídas determinísticas.
`stop`	[]	String (cadeia de caracteres) ou List[String] (lista de strings)	O modelo para de gerar mais tokens quando qualquer uma das sequências em `stop` é encontrada.
`n`	1	Inteiro maior que zero	A API retorna `n` conclusões de bate-papo independentes quando `n` é especificado. Recomendado para cargas de trabalho que geram várias finalizações na mesma entrada para eficiência de inferência adicional e economia de custos. Disponível apenas para pontos de extremidade de taxa de transferência provisionados.
`tool_choice`	`none`	String ou ToolChoiceObject	Usado apenas em conjunto com o campo `tools`. `tool_choice` suporta uma variedade de cadeias de caracteres de palavras-chave, como `auto`, `required`e `none`. `auto` significa que você está deixando o modelo decidir qual (se houver) ferramenta é relevante usar. Se `auto` o modelo não acredita que nenhuma das ferramentas em `tools` é relevante, o modelo gera uma mensagem de assistente padrão em vez de uma chamada de ferramenta. `required` significa que o modelo escolhe a ferramenta mais relevante em `tools` e deve gerar uma chamada de ferramenta. `none` significa que o modelo não gera nenhuma chamada de ferramenta e, em vez disso, deve gerar uma mensagem de assistente padrão. Para forçar uma chamada de ferramenta com uma ferramenta específica definida em `tools`, use um `ToolChoiceObject`. Por predefinição, se o campo `tools` estiver preenchido `tool_choice = "auto"`. Caso contrário, o campo `tools` assume como padrão `tool_choice = "none"`
`tools`	`null`	ObjetoDeFerramenta	Uma lista de `tools` que o modelo pode chamar. Atualmente, `function` é o único tipo de `tool` suportado e um máximo de 32 funções são suportadas.
`response_format`	`null`	ObjetoDeFormatoDeResposta	Um objeto que especifica o formato que o modelo deve produzir. Os tipos aceites são `text`, `json_schema` ou `json_object` A configuração como `{ "type": "json_schema", "json_schema": {...} }` permite saídas estruturadas que garantem que o modelo siga o esquema JSON fornecido. A configuração como `{ "type": "json_object" }` garante que as respostas geradas pelo modelo sejam JSON válidas, mas não garante que as respostas sigam um esquema específico.
`logprobs`	`false`	booleano	Este parâmetro indica se deve fornecer a probabilidade logarítmica de um token ser amostrado.
`top_logprobs`	`null`	Inteiro	Este parâmetro controla o número de tokens mais prováveis para os quais devem ser retornadas as probabilidades logarítmicas na etapa de amostragem. Pode ser 0-20. `logprobs` deve ser `true` caso utilize este campo.
`reasoning_effort`	`"medium"`	Cadeia	Controla o nível de esforço de raciocínio que o modelo deve aplicar ao gerar respostas. Os valores aceites são `"low"`, `"medium"`ou `"high"`. Um maior esforço de raciocínio pode resultar em respostas mais ponderadas e precisas, mas pode aumentar a latência e o uso de tokens. Este parâmetro só é aceite por um conjunto limitado de modelos, incluindo `databricks-gpt-oss-120b` e `databricks-gpt-oss-20b`.

`ChatMessage`

Campo	Tipo	Descrição
`role`	Cadeia	Obrigatório. O papel do autor da mensagem. Pode ser `"system"`, `"user"`, `"assistant"` ou `"tool"`.
`content`	Cadeia	O conteúdo da mensagem. Obrigatório para tarefas de chat que não envolvam chamadas de ferramentas.
`tool_calls`	ToolCall lista	A lista de `tool_calls` que o modelo gerou. Deve ter `role` como `"assistant"` e nenhuma especificação para o campo `content`.
`tool_call_id`	Cadeia	Quando `role` é `"tool"`, o ID associado ao `ToolCall` a que a mensagem responde. Deve estar vazio para outras opções `role`.

A função system só pode ser usada uma vez, como a primeira mensagem de uma conversa. Isto substitui o prompt de sistema padrão do modelo.

`ToolCall`

Uma sugestão de ação de chamada de ferramenta feita pelo modelo. Consulte Chamadas de funções no Azure Databricks.

Campo	Tipo	Descrição
`id`	Cadeia	Obrigatório. Um identificador exclusivo para esta sugestão de chamada de ferramenta.
`type`	Cadeia	Obrigatório. Apenas `"function"` é suportado.
`function`	ConclusãoDeChamadaDeFunção	Obrigatório. Uma invocação de função sugerida pelo modelo.
`cache_control`	Cadeia	Habilita o armazenamento em cache para sua solicitação. Este parâmetro só é aceito por modelos Claude hospedados pelo Databricks. Consulte Prompt caching para obter um exemplo.

`FunctionCallCompletion`

Campo	Tipo	Descrição
`name`	Cadeia	Necessário. O nome da função recomendada pelo modelo.
`arguments`	Objeto	Necessário. Argumentos para a função como um dicionário JSON serializado.

Nota: ToolChoiceObject, ToolObject, e FunctionObject estão definidos na secção da API de Respostas e são partilhados entre ambas as APIs.

`ResponseFormatObject`

Consulte Saídas estruturadas no Azure Databricks.

Campo	Tipo	Descrição
`type`	Cadeia	Obrigatório. O tipo de formato de resposta que está sendo definido. `text` para texto não estruturado, `json_object` para objetos JSON não estruturados ou `json_schema` para objetos JSON aderentes a um esquema específico.
`json_schema`	JsonSchemaObject	Obrigatório. O esquema JSON a ser aderido se `type` estiver definido como `json_schema`

`JsonSchemaObject`

Consulte Saídas estruturadas no Azure Databricks.

Campo	Tipo	Descrição
`name`	Cadeia	Obrigatório. O nome do formato de resposta.
`description`	Cadeia	Uma descrição do propósito do formato de resposta, utilizada pelo modelo para determinar como responder nesse formato.
`schema`	Objeto	Obrigatório. O esquema para o formato de resposta, descrito como um objeto de esquema JSON.
`strict`	booleano	Se a adesão estrita ao esquema deve ser habilitada ao gerar a saída. Se definido como `true`, o modelo segue o esquema exato definido no campo de esquema. Somente um subconjunto do esquema JSON é suportado quando strict é `true`

Resposta do chat

Para solicitações que não são de streaming, a resposta é um único objeto de conclusão de chat. Para solicitações de streaming, a resposta é um text/event-stream em que cada evento é um objeto de bloco de conclusão. A estrutura de nível superior de conclusão e fragmentação de objetos é quase idêntica: apenas choices tem um tipo diferente.

Campo	Tipo	Descrição
`id`	Cadeia	Identificador exclusivo para a conclusão do chat.
`choices`	List[ChatCompletionChoice] ou List[ChatCompletionChunk] (streaming)	Lista de textos de conclusão de chat. `n` opções são retornadas se o parâmetro `n` for especificado.
`object`	Cadeia	O tipo de objeto. Igual a `"chat.completions"` para não-transmissão ou `"chat.completion.chunk"` para transmissão.
`created`	Inteiro	O tempo de conclusão do chat foi gerado em segundos.
`model`	Cadeia	A versão do modelo usada para gerar a resposta.
`usage`	Utilização	Metadados de uso de token. Pode não estar presente nas respostas de streaming.

`ChatCompletionChoice`

Campo	Tipo	Descrição
`index`	Inteiro	O índice da escolha na lista de opções geradas.
`message`	ChatMensagem	Uma mensagem de conclusão de chat retornada pelo modelo. O papel será `assistant`.
`finish_reason`	Cadeia	A razão pela qual o modelo parou de gerar tokens.
`extra_fields`	Cadeia	Ao usar modelos proprietários de provedores de modelos externos, as APIs do provedor podem incluir metadados adicionais nas respostas. O Databricks filtra essas respostas e retorna apenas um subconjunto dos campos originais do provedor. O `safetyRating` é o único campo extra suportado no momento, consulte a documentação do Gemini para obter mais detalhes.

`ChatCompletionChunk`

Campo	Tipo	Descrição
`index`	Inteiro	O índice da escolha na lista de opções geradas.
`delta`	ChatMensagem	Uma mensagem de conclusão de bate-papo faz parte das respostas transmitidas geradas pelo modelo. Apenas o primeiro bloco tem a garantia de ter `role` preenchido.
`finish_reason`	Cadeia	A razão pela qual o modelo parou de gerar tokens. Apenas o último bloco terá estes dados preenchidos.

Embeddings API

As tarefas de incorporação mapeiam cadeias de caracteres de entrada em vetores de incorporação. Muitas entradas podem ser agrupadas em lote em cada solicitação. Consulte POST /serving-endpoints/{name}/invocations para consultar os parâmetros do ponto de extremidade.

Pedido de incorporação

Campo	Tipo	Descrição
`input`	String (cadeia de caracteres) ou List[String] (lista de strings)	Obrigatório. O texto de entrada a ser incorporado. Pode ser uma cadeia de caracteres ou uma lista de cadeias de caracteres.
`instruction`	Cadeia	Uma instrução opcional para passar para o modelo de incorporação.

As instruções são opcionais e altamente específicas do modelo. Por exemplo, os autores do BGE não recomendam nenhuma instrução ao indexar blocos e recomendam o uso da instrução "Represent this sentence for searching relevant passages:" para consultas de recuperação. Outros modelos como Instructor-XL suportam uma ampla gama de cadeias de instruções.

Incorpora resposta

Campo	Tipo	Descrição
`id`	Cadeia	Identificador único para a incorporação.
`object`	Cadeia	O tipo de objeto. Igual a `"list"`.
`model`	Cadeia	O nome do modelo de incorporação usado para criar a incorporação.
`data`	EmbeddingObject	O objeto de incorporação.
`usage`	Utilização	Metadados de uso de token.

`EmbeddingObject`

Campo	Tipo	Descrição
`object`	Cadeia	O tipo de objeto. Igual a `"embedding"`.
`index`	Inteiro	O índice da incorporação na lista de incorporações geradas pelo modelo.
`embedding`	Lista(Float)	O vetor de incorporação. Cada modelo retornará um vetor de tamanho fixo (1024 para BGE-Large)

API de Preenchimentos

As tarefas de conclusão de texto são para gerar respostas a um único prompt. Ao contrário do Chat, esta tarefa suporta entradas em lote: vários prompts independentes podem ser enviados em uma solicitação. Consulte POST /serving-endpoints/{name}/invocations para consultar os parâmetros do ponto de extremidade.

Pedido de conclusão

Campo	Padrão	Tipo	Descrição
`prompt`		String (cadeia de caracteres) ou List[String] (lista de strings)	Obrigatório. As sugestões para o modelo.
`max_tokens`	`null`	`null`, o que significa ausência de limite, ou um número inteiro maior que zero	O número máximo de tokens a serem gerados.
`stream`	`true`	booleano	Transmita respostas de volta para um cliente para permitir resultados parciais para solicitações. Se esse parâmetro for incluído na solicitação, as respostas serão enviadas usando o eventos enviados pelo servidor padrão.
`temperature`	`1.0`	Valor flutuante em [0,2]	A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade.
`top_p`	`1.0`	Flutuar em (0,1)	O limiar de probabilidade utilizado para a amostragem do núcleo.
`top_k`	`null`	`null`, o que significa ausência de limite, ou um número inteiro maior que zero	Define-se o número dos k tokens mais prováveis a usar para o filtro top-k. Defina esse valor como 1 para tornar as saídas determinísticas.
`error_behavior`	`"error"`	`"truncate"` ou `"error"`	Para quando ocorrem tempos de espera e erros de comprimento de contexto excedido. Um de: `"truncate"` (retornar o maior número possível de tokens) e `"error"` (retornar um erro). Esse parâmetro só é aceite por endpoints de pagamento por token.
`n`	1	Inteiro maior que zero	A API retorna `n` conclusões de bate-papo independentes quando `n` é especificado. Recomendado para cargas de trabalho que geram várias finalizações na mesma entrada para eficiência de inferência adicional e economia de custos. Disponível apenas para pontos de extremidade de taxa de transferência provisionados.
`stop`	[]	String (cadeia de caracteres) ou List[String] (lista de strings)	O modelo para de gerar mais tokens quando qualquer uma das sequências em `stop` é encontrada.
`suffix`	`""`	Cadeia	Uma cadeia de caracteres que é acrescentada ao final de cada conclusão.
`echo`	`false`	booleano	Retorna o comando juntamente com a conclusão.
`use_raw_prompt`	`false`	booleano	Se `true`, passe o `prompt` diretamente para o modelo, sem qualquer transformação.

Resposta de conclusão

Campo	Tipo	Descrição
`id`	Cadeia	Identificador exclusivo para completar o texto.
`choices`	Escolha de Conclusão	Uma lista de completamentos de texto. Para cada prompt introduzido, `n` escolhas são geradas se `n` estiver especificado. O `n` padrão é 1.
`object`	Cadeia	O tipo de objeto. Igual a `"text_completion"`
`created`	Inteiro	O tempo em que a conclusão foi gerada em segundos.
`usage`	Utilização	Metadados de uso de token.

`CompletionChoice`

Campo	Tipo	Descrição
`index`	Inteiro	O índice do prompt na solicitação.
`text`	Cadeia	A conclusão gerada.
`finish_reason`	Cadeia	A razão pela qual o modelo parou de gerar tokens.

Recursos adicionais

Modelos de base hospedados pelo Databricks disponíveis nas APIs do Modelo de Fundação

Feedback

Esta página foi útil?

Last updated on 2025-12-19

Partilhar via

Referência da API REST do modelo de base

Pontos de extremidade

Utilização

API de Respostas

Pedido API de Respostas

ResponsesInput

ResponsesContentBlock

InputText

OutputText

InputImage

InputFile

FunctionCall

FunctionCallOutput

StreamOptions

TextConfig

ResponsesFormatObject

ReasoningConfig

ToolObject

FunctionObject

ToolChoiceObject

Resposta da API de Respostas

ResponsesMessage

Error

IncompleteDetails

API de Completação de Chat

Pedido de chat

ChatMessage

ToolCall

FunctionCallCompletion

ResponseFormatObject

JsonSchemaObject

Resposta do chat

ChatCompletionChoice

ChatCompletionChunk

Embeddings API

Pedido de incorporação

Incorpora resposta

EmbeddingObject

API de Preenchimentos

Pedido de conclusão

Resposta de conclusão

CompletionChoice

Recursos adicionais

Feedback

Recursos adicionais

`ResponsesInput`

`ResponsesContentBlock`

`InputText`

`OutputText`

`InputImage`

`InputFile`

`FunctionCall`

`FunctionCallOutput`

`StreamOptions`

`TextConfig`

`ResponsesFormatObject`

`ReasoningConfig`

`ToolObject`

`FunctionObject`

`ToolChoiceObject`

`ResponsesMessage`

`Error`

`IncompleteDetails`

`ChatMessage`

`ToolCall`

`FunctionCallCompletion`

`ResponseFormatObject`

`JsonSchemaObject`

`ChatCompletionChoice`

`ChatCompletionChunk`

`EmbeddingObject`

`CompletionChoice`