Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo fornece informações gerais de API para APIs do Databricks Foundation Model e os modelos suportados. As APIs do Foundation Model são projetadas para serem semelhantes à API REST da OpenAI para facilitar a migração de projetos existentes. Tanto o pagamento por token como os pontos finais com largura de banda provisionada aceitam o mesmo formato de pedido da API REST.
Pontos de extremidade
As APIs do Modelo de Base suportam interfaces de pagamento por uso de token e interfaces de largura de banda provisionada.
Um ponto de extremidade pré-configurado está disponível em seu espaço de trabalho para cada modelo suportado de pagamento por token, e os usuários podem interagir com esses pontos de extremidade usando solicitações HTTP POST. Consulte Modelos de base suportados no Mosaic AI Model Serving para modelos suportados.
Os pontos finais de capacidade provisionada podem ser criados usando a API ou a interface de gestão do serviço. Esses endpoints suportam múltiplos modelos por endereço para testes A/B, desde que os dois modelos servidos exponham o mesmo formato de API. Por exemplo, ambos os modelos são modelos de chat. Consulte POST /api/2.0/serving-endpoints para obter os parâmetros de configuração do ponto final.
Solicitações e respostas usam JSON, sendo que a estrutura exata do JSON depende do tipo de tarefa do ponto de extremidade. Os endpoints de bate-papo e conclusão suportam respostas em fluxo contínuo.
Utilização
As respostas incluem uma submensagem usage que informa o número de tokens na solicitação e na resposta. O formato desta submensagem é o mesmo em todos os tipos de tarefas.
| Campo | Tipo | Descrição |
|---|---|---|
completion_tokens |
Inteiro | Número de tokens gerados. Não incluído nas respostas incorporadas. |
prompt_tokens |
Inteiro | Número de _tokens_ dos _prompts_ de entrada. |
total_tokens |
Inteiro | Número total de tokens. |
reasoning_tokens |
Inteiro | Número dos tokens de pensamento. Só é aplicável a modelos de raciocínio. |
Para modelos como databricks-meta-llama-3-3-70b-instruct um prompt do usuário é transformado usando um modelo de prompt antes de ser passado para o modelo. Para endpoints cobrados por token, um prompt do sistema também pode ser adicionado.
prompt_tokens inclui todo o texto adicionado pelo nosso servidor.
API de Respostas
Importante
A API Responses só é compatível com modelos OpenAI.
A API de Respostas permite conversas de múltiplas interações com um modelo. Ao contrário do Chat Completions, a API de Respostas usa input em vez de messages.
Pedido API de Respostas
| Campo | Padrão | Tipo | Descrição |
|---|---|---|---|
model |
Cadeia | Obrigatório. ID do modelo usado para gerar a resposta. | |
input |
String ou Lista[ResponsesInput] |
Obrigatório. Entradas de texto, imagem ou arquivo no modelo, usadas para gerar uma resposta. Ao contrário do messages, este campo utiliza o input para especificar o conteúdo da conversa. |
|
instructions |
null |
Cadeia | Uma mensagem do sistema (ou desenvolvedor) inserida no contexto do modelo. |
max_output_tokens |
null |
null, o que significa ausência de limite, ou um número inteiro maior que zero |
Um limite superior para o número de tokens que podem ser gerados para uma resposta, incluindo tokens de saída visíveis e tokens de raciocínio. |
temperature |
1.0 |
Valor flutuante em [0,2] | A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade. |
top_p |
1.0 |
Flutuar em (0,1) | O limiar de probabilidade utilizado para a amostragem do núcleo. |
stream |
false |
booleano | Se definido como true, os dados de resposta do modelo serão transmitidos para o cliente à medida que são gerados usando eventos enviados pelo servidor. |
stream_options |
null |
StreamOptions | Opções para respostas em streaming. Defina isso apenas quando definir stream: true. |
text |
null |
TextConfig | Opções de configuração para uma resposta de texto do modelo. Pode ser texto simples ou dados JSON estruturados. |
reasoning |
null |
ReasoningConfig | Configuração de raciocínio para modelos GPT-5 e da série O. |
tool_choice |
"auto" |
String ou ToolChoiceObject | Como o modelo deve selecionar qual ferramenta (ou ferramentas) usar ao gerar uma resposta. Consulte o tools parâmetro para ver como especificar quais ferramentas o modelo pode chamar. |
tools |
null |
Lista[ObjetoFerramenta] | Uma matriz de ferramentas que o modelo pode chamar ao gerar uma resposta. Nota: O intérprete de código e as ferramentas de pesquisa web não são suportadas pelo Databricks. |
parallel_tool_calls |
true |
booleano | Se deve permitir que o modelo execute chamadas de ferramenta em paralelo. |
max_tool_calls |
null |
Inteiro maior que zero | O número máximo de chamadas totais para ferramentas integradas que podem ser processadas em uma resposta. |
metadata |
null |
Objeto | Conjunto de 16 pares chave-valor que podem ser anexados a um objeto. |
prompt_cache_key |
null |
Cadeia | Usado para armazenar em cache respostas a pedidos semelhantes, otimizando a eficácia da cache. Substitui o user campo. |
prompt_cache_retention |
null |
Cadeia | A política de retenção para a cache de prompts. Defina para "24h" permitir a cache de prompts estendida, que mantém os prefixos em cache ativos por mais tempo, até um máximo de 24 horas. |
safety_identifier |
null |
Cadeia | Um identificador estável usado para ajudar a detetar utilizadores da sua aplicação que possam estar a violar políticas de uso. |
user |
null |
Cadeia |
Preterido. Use safety_identifier e prompt_cache_key em vez disso. |
truncation |
null |
Cadeia | A estratégia de truncamento a ser usada para a resposta do modelo. |
top_logprobs |
null |
Inteiro | Um número inteiro entre 0 e 20 que especifica o número de tokens mais prováveis de serem retornados em cada posição de token, cada um com uma probabilidade em log associada. |
include |
null |
Lista[String] | Especifique dados de saída adicionais a serem incluídos na resposta do modelo. |
prompt |
null |
Objeto | Referência a um modelo de prompt e as suas variáveis. |
Parâmetros não suportados: Os seguintes parâmetros não são suportados pelos Databricks e devolverão um erro 400 se especificados:
-
background- Processamento em segundo plano não é suportado -
store- Respostas armazenadas não são suportadas -
conversation- API de conversação não é suportada -
service_tier- A seleção de níveis de serviço é gerida pelo Databricks
ResponsesInput
O input campo aceita uma cadeia de caracteres ou uma lista de objetos de mensagem de entrada com função e conteúdo.
| Campo | Tipo | Descrição |
|---|---|---|
role |
Cadeia |
Obrigatório. O papel do autor da mensagem. Pode ser "user" ou "assistant". |
content |
String ou Lista[ResponsesContentBlock] | Obrigatório. O conteúdo da mensagem, seja como uma cadeia ou um array de blocos de conteúdo. |
ResponsesContentBlock
Os blocos de conteúdo definem o tipo de conteúdo nas mensagens de entrada e saída. O tipo de bloco de conteúdo é determinado pelo type campo.
InputText
| Campo | Tipo | Descrição |
|---|---|---|
type |
Cadeia |
Obrigatório. Deve ser "input_text". |
text |
Cadeia | Obrigatório. O conteúdo do texto. |
OutputText
| Campo | Tipo | Descrição |
|---|---|---|
type |
Cadeia |
Obrigatório. Deve ser "output_text". |
text |
Cadeia | Obrigatório. O conteúdo do texto. |
annotations |
Lista[Objeto] | Anotações opcionais para o conteúdo do texto. |
InputImage
| Campo | Tipo | Descrição |
|---|---|---|
type |
Cadeia |
Obrigatório. Deve ser "input_image". |
image_url |
Cadeia | Obrigatório. URL ou URI de dados codificados em base64 da imagem. |
InputFile
| Campo | Tipo | Descrição |
|---|---|---|
type |
Cadeia |
Obrigatório. Deve ser "input_file". |
file_id |
Cadeia | Identificador de ficheiro caso utilize ficheiros carregados. |
filename |
Cadeia | O nome do arquivo. |
file_data |
Cadeia | URI de dados codificados em Base64 com prefixo de formato. Por exemplo, os ficheiros PDF utilizam o formato data:application/pdf;base64,<base64 data>. |
FunctionCall
| Campo | Tipo | Descrição |
|---|---|---|
type |
Cadeia |
Obrigatório. Deve ser "function_call". |
id |
Cadeia | Obrigatório. Identificador único para a chamada de função. |
call_id |
Cadeia | Obrigatório. O identificador de chamada. |
name |
Cadeia | Obrigatório. O nome da função que está a ser chamada. |
arguments |
Objeto/String | Obrigatório. Os argumentos da função, representados como um objeto JSON ou uma string. |
FunctionCallOutput
| Campo | Tipo | Descrição |
|---|---|---|
type |
Cadeia |
Obrigatório. Deve ser "function_call_output". |
call_id |
Cadeia | Obrigatório. O identificador da chamada a que esta saída corresponde. |
output |
Fio/Objeto | Obrigatório. A função é produzida como string ou objeto JSON. |
StreamOptions
Configuração para respostas em streaming. Utilizado apenas quando stream: true.
| Campo | Tipo | Descrição |
|---|---|---|
include_usage |
booleano | Se for verdade, inclua informação de utilização de tokens no fluxo. A predefinição é false. |
TextConfig
Configuração para saída de texto, incluindo saídas estruturadas.
| Campo | Tipo | Descrição |
|---|---|---|
format |
ResponsesFormatObject | A especificação do formato para a saída de texto. |
ResponsesFormatObject
Especifica o formato de saída para respostas de texto.
| Campo | Tipo | Descrição |
|---|---|---|
type |
Cadeia |
Obrigatório. O tipo de formato: "text" para texto simples, "json_object" para JSON ou "json_schema" para JSON estruturado. |
json_schema |
Objeto |
Obrigatório quando type é "json_schema". O objeto de esquema JSON que define a estrutura da saída. |
O json_schema objeto tem a mesma estrutura que o JsonSchemaObject documentado na API Chat Completions.
ReasoningConfig
Configuração para comportamento de raciocínio em modelos de raciocínio (modelos o-series e gpt-5).
| Campo | Tipo | Descrição |
|---|---|---|
effort |
Cadeia | O nível de esforço de raciocínio: "low", "medium", ou "high". A predefinição é "medium". |
encrypted_content |
Cadeia | Conteúdo de raciocínio encriptado para modo sem estado. Fornecido pelo modelo nas respostas anteriores. |
ToolObject
Consulte Chamadas de funções no Azure Databricks.
| Campo | Tipo | Descrição |
|---|---|---|
type |
Cadeia |
Obrigatório. O tipo da ferramenta. Atualmente, apenas function é suportado. |
function |
FunctionObject | Obrigatório. A definição de função associada à ferramenta. |
FunctionObject
| Campo | Tipo | Descrição |
|---|---|---|
name |
Cadeia | Obrigatório. O nome da função a ser chamada. |
description |
Objeto | Obrigatório. A descrição detalhada da função. O modelo usa essa descrição para entender a relevância da função para o prompt e gerar as chamadas da ferramenta com maior precisão. |
parameters |
Objeto | Os parâmetros que a função aceita, descritos como um objeto de esquema JSON válido. Se a ferramenta for chamada, a chamada de ferramenta será ajustada ao esquema JSON fornecido. Omitir parâmetros define uma função sem quaisquer parâmetros. O número de properties é limitado a 15 chaves. |
strict |
booleano | Se a adesão estrita ao esquema deve ser ativada ao gerar a chamada de função. Se definido como true, o modelo segue o esquema exato definido no campo de esquema. Somente um subconjunto do esquema JSON é suportado quando strict é true |
ToolChoiceObject
Consulte Chamadas de funções no Azure Databricks.
| Campo | Tipo | Descrição |
|---|---|---|
type |
Cadeia |
Obrigatório. O tipo da ferramenta. Atualmente, apenas "function" é suportado. |
function |
Objeto |
Obrigatório. Um objeto que define qual ferramenta chamar do formulário {"type": "function", "function": {"name": "my_function"}} onde "my_function é o nome de um FunctionObject no campo tools. |
Resposta da API de Respostas
Para pedidos que não sejam de transmissão, a resposta é um único objeto de resposta. Para pedidos de streaming, a resposta é um text/event-stream onde cada evento é um bloco de resposta.
| Campo | Tipo | Descrição |
|---|---|---|
id |
Cadeia | Identificador exclusivo da resposta. Nota: O Databricks encripta este ID por questões de segurança. |
object |
Cadeia | O tipo de objeto. Igual a "response". |
created_at |
Inteiro | O carimbo temporal do Unix (em segundos) quando a resposta foi criada. |
status |
Cadeia | O status da resposta. Uma de: completed, failed, in_progress, cancelled, queued, ou incomplete. |
model |
Cadeia | A versão do modelo usada para gerar a resposta. |
output |
Lista[MensagemDeRespostas] | A saída gerada pelo modelo, normalmente contendo objetos de mensagem. |
usage |
Utilização | Metadados de uso de token. |
error |
Error | Informação de erro se a resposta falhou. |
incomplete_details |
DetalhesIncompletos | Detalhes sobre o motivo pelo qual a resposta está incompleta, se aplicável. |
instructions |
Cadeia | As instruções fornecidas no pedido. |
max_output_tokens |
Inteiro | Os tokens de saída máximos especificados na requisição. |
temperature |
Flutuar | A temperatura usada para a geração. |
top_p |
Flutuar | O valor top_p usado para geração. |
tools |
Lista[ObjetoFerramenta] | As ferramentas especificadas no pedido. |
tool_choice |
String ou ToolChoiceObject | A definição tool_choice do pedido. |
parallel_tool_calls |
booleano | Se as chamadas paralelas de ferramentas estavam ativadas. |
store |
booleano | Se a resposta foi armazenada. |
metadata |
Objeto | Os metadados anexados à resposta. |
ResponsesMessage
Objetos de mensagem no output campo que contém o conteúdo de resposta do modelo.
| Campo | Tipo | Descrição |
|---|---|---|
id |
Cadeia | Obrigatório. Identificador único para a mensagem. |
role |
Cadeia |
Obrigatório. O papel da mensagem.
"user" ou "assistant". |
content |
Lista [RespostasContentBlock] | Obrigatório. Os blocos de conteúdo na mensagem. |
status |
Cadeia | O estado do processamento de mensagens. |
type |
Cadeia |
Obrigatório. O tipo de objeto. Igual a "message". |
Error
Informação de erro quando uma resposta falha.
| Campo | Tipo | Descrição |
|---|---|---|
code |
Cadeia | Obrigatório. O código de erro. |
message |
Cadeia | Obrigatório. Uma mensagem de erro legível por humanos. |
param |
Cadeia | O parâmetro que causou o erro, se aplicável. |
type |
Cadeia | Obrigatório. O tipo de erro. |
IncompleteDetails
Detalhes sobre porque é que uma resposta está incompleta.
| Campo | Tipo | Descrição |
|---|---|---|
reason |
Cadeia | Obrigatório. A razão pela qual a resposta é incompleta. |
API de Completação de Chat
A API Chat Completions permite conversas com múltiplas voltas com um modelo. A resposta do modelo fornece a próxima mensagem assistant na conversa. Consulte POST /serving-endpoints/{name}/invocations para consultar os parâmetros do ponto de extremidade.
Pedido de chat
| Campo | Padrão | Tipo | Descrição |
|---|---|---|---|
messages |
ChatMessage lista | Obrigatório. Uma lista de mensagens que representam a conversa atual. | |
max_tokens |
null |
null, o que significa ausência de limite, ou um número inteiro maior que zero |
O número máximo de tokens a serem gerados. |
stream |
true |
booleano | Transmita respostas de volta para um cliente para permitir resultados parciais para solicitações. Se esse parâmetro for incluído na solicitação, as respostas serão enviadas usando o eventos enviados pelo servidor padrão. |
temperature |
1.0 |
Valor flutuante em [0,2] | A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade. |
top_p |
1.0 |
Flutuar em (0,1) | O limiar de probabilidade utilizado para a amostragem do núcleo. |
top_k |
null |
null, o que significa ausência de limite, ou um número inteiro maior que zero |
Define-se o número dos k tokens mais prováveis a usar para o filtro top-k. Defina esse valor como 1 para tornar as saídas determinísticas. |
stop |
[] | String (cadeia de caracteres) ou List[String] (lista de strings) | O modelo para de gerar mais tokens quando qualquer uma das sequências em stop é encontrada. |
n |
1 | Inteiro maior que zero | A API retorna n conclusões de bate-papo independentes quando n é especificado. Recomendado para cargas de trabalho que geram várias finalizações na mesma entrada para eficiência de inferência adicional e economia de custos. Disponível apenas para pontos de extremidade de taxa de transferência provisionados. |
tool_choice |
none |
String ou ToolChoiceObject | Usado apenas em conjunto com o campo tools.
tool_choice suporta uma variedade de cadeias de caracteres de palavras-chave, como auto, requirede none.
auto significa que você está deixando o modelo decidir qual (se houver) ferramenta é relevante usar. Se auto o modelo não acredita que nenhuma das ferramentas em tools é relevante, o modelo gera uma mensagem de assistente padrão em vez de uma chamada de ferramenta.
required significa que o modelo escolhe a ferramenta mais relevante em tools e deve gerar uma chamada de ferramenta.
none significa que o modelo não gera nenhuma chamada de ferramenta e, em vez disso, deve gerar uma mensagem de assistente padrão. Para forçar uma chamada de ferramenta com uma ferramenta específica definida em tools, use um ToolChoiceObject. Por predefinição, se o campo tools estiver preenchido tool_choice = "auto". Caso contrário, o campo tools assume como padrão tool_choice = "none" |
tools |
null |
ObjetoDeFerramenta | Uma lista de tools que o modelo pode chamar. Atualmente, function é o único tipo de tool suportado e um máximo de 32 funções são suportadas. |
response_format |
null |
ObjetoDeFormatoDeResposta | Um objeto que especifica o formato que o modelo deve produzir. Os tipos aceites são text, json_schema ou json_objectA configuração como { "type": "json_schema", "json_schema": {...} } permite saídas estruturadas que garantem que o modelo siga o esquema JSON fornecido.A configuração como { "type": "json_object" } garante que as respostas geradas pelo modelo sejam JSON válidas, mas não garante que as respostas sigam um esquema específico. |
logprobs |
false |
booleano | Este parâmetro indica se deve fornecer a probabilidade logarítmica de um token ser amostrado. |
top_logprobs |
null |
Inteiro | Este parâmetro controla o número de tokens mais prováveis para os quais devem ser retornadas as probabilidades logarítmicas na etapa de amostragem. Pode ser 0-20.
logprobs deve ser true caso utilize este campo. |
reasoning_effort |
"medium" |
Cadeia | Controla o nível de esforço de raciocínio que o modelo deve aplicar ao gerar respostas. Os valores aceites são "low", "medium"ou "high". Um maior esforço de raciocínio pode resultar em respostas mais ponderadas e precisas, mas pode aumentar a latência e o uso de tokens. Este parâmetro só é aceite por um conjunto limitado de modelos, incluindo databricks-gpt-oss-120b e databricks-gpt-oss-20b. |
ChatMessage
| Campo | Tipo | Descrição |
|---|---|---|
role |
Cadeia |
Obrigatório. O papel do autor da mensagem. Pode ser "system", "user", "assistant" ou "tool". |
content |
Cadeia | O conteúdo da mensagem. Obrigatório para tarefas de chat que não envolvam chamadas de ferramentas. |
tool_calls |
ToolCall lista | A lista de tool_calls que o modelo gerou. Deve ter role como "assistant" e nenhuma especificação para o campo content. |
tool_call_id |
Cadeia | Quando role é "tool", o ID associado ao ToolCall a que a mensagem responde. Deve estar vazio para outras opções role. |
A função system só pode ser usada uma vez, como a primeira mensagem de uma conversa. Isto substitui o prompt de sistema padrão do modelo.
ToolCall
Uma sugestão de ação de chamada de ferramenta feita pelo modelo. Consulte Chamadas de funções no Azure Databricks.
| Campo | Tipo | Descrição |
|---|---|---|
id |
Cadeia | Obrigatório. Um identificador exclusivo para esta sugestão de chamada de ferramenta. |
type |
Cadeia |
Obrigatório. Apenas "function" é suportado. |
function |
ConclusãoDeChamadaDeFunção | Obrigatório. Uma invocação de função sugerida pelo modelo. |
cache_control |
Cadeia | Habilita o armazenamento em cache para sua solicitação. Este parâmetro só é aceito por modelos Claude hospedados pelo Databricks. Consulte Prompt caching para obter um exemplo. |
FunctionCallCompletion
| Campo | Tipo | Descrição |
|---|---|---|
name |
Cadeia | Necessário. O nome da função recomendada pelo modelo. |
arguments |
Objeto | Necessário. Argumentos para a função como um dicionário JSON serializado. |
Nota: ToolChoiceObject, ToolObject, e FunctionObject estão definidos na secção da API de Respostas e são partilhados entre ambas as APIs.
ResponseFormatObject
Consulte Saídas estruturadas no Azure Databricks.
| Campo | Tipo | Descrição |
|---|---|---|
type |
Cadeia |
Obrigatório. O tipo de formato de resposta que está sendo definido.
text para texto não estruturado, json_object para objetos JSON não estruturados ou json_schema para objetos JSON aderentes a um esquema específico. |
json_schema |
JsonSchemaObject |
Obrigatório. O esquema JSON a ser aderido se type estiver definido como json_schema |
JsonSchemaObject
Consulte Saídas estruturadas no Azure Databricks.
| Campo | Tipo | Descrição |
|---|---|---|
name |
Cadeia | Obrigatório. O nome do formato de resposta. |
description |
Cadeia | Uma descrição do propósito do formato de resposta, utilizada pelo modelo para determinar como responder nesse formato. |
schema |
Objeto | Obrigatório. O esquema para o formato de resposta, descrito como um objeto de esquema JSON. |
strict |
booleano | Se a adesão estrita ao esquema deve ser habilitada ao gerar a saída. Se definido como true, o modelo segue o esquema exato definido no campo de esquema. Somente um subconjunto do esquema JSON é suportado quando strict é true |
Resposta do chat
Para solicitações que não são de streaming, a resposta é um único objeto de conclusão de chat. Para solicitações de streaming, a resposta é um text/event-stream em que cada evento é um objeto de bloco de conclusão. A estrutura de nível superior de conclusão e fragmentação de objetos é quase idêntica: apenas choices tem um tipo diferente.
| Campo | Tipo | Descrição |
|---|---|---|
id |
Cadeia | Identificador exclusivo para a conclusão do chat. |
choices |
List[ChatCompletionChoice] ou List[ChatCompletionChunk] (streaming) | Lista de textos de conclusão de chat.
n opções são retornadas se o parâmetro n for especificado. |
object |
Cadeia | O tipo de objeto. Igual a "chat.completions" para não-transmissão ou "chat.completion.chunk" para transmissão. |
created |
Inteiro | O tempo de conclusão do chat foi gerado em segundos. |
model |
Cadeia | A versão do modelo usada para gerar a resposta. |
usage |
Utilização | Metadados de uso de token. Pode não estar presente nas respostas de streaming. |
ChatCompletionChoice
| Campo | Tipo | Descrição |
|---|---|---|
index |
Inteiro | O índice da escolha na lista de opções geradas. |
message |
ChatMensagem | Uma mensagem de conclusão de chat retornada pelo modelo. O papel será assistant. |
finish_reason |
Cadeia | A razão pela qual o modelo parou de gerar tokens. |
extra_fields |
Cadeia | Ao usar modelos proprietários de provedores de modelos externos, as APIs do provedor podem incluir metadados adicionais nas respostas. O Databricks filtra essas respostas e retorna apenas um subconjunto dos campos originais do provedor. O safetyRating é o único campo extra suportado no momento, consulte a documentação do Gemini para obter mais detalhes. |
ChatCompletionChunk
| Campo | Tipo | Descrição |
|---|---|---|
index |
Inteiro | O índice da escolha na lista de opções geradas. |
delta |
ChatMensagem | Uma mensagem de conclusão de bate-papo faz parte das respostas transmitidas geradas pelo modelo. Apenas o primeiro bloco tem a garantia de ter role preenchido. |
finish_reason |
Cadeia | A razão pela qual o modelo parou de gerar tokens. Apenas o último bloco terá estes dados preenchidos. |
Embeddings API
As tarefas de incorporação mapeiam cadeias de caracteres de entrada em vetores de incorporação. Muitas entradas podem ser agrupadas em lote em cada solicitação. Consulte POST /serving-endpoints/{name}/invocations para consultar os parâmetros do ponto de extremidade.
Pedido de incorporação
| Campo | Tipo | Descrição |
|---|---|---|
input |
String (cadeia de caracteres) ou List[String] (lista de strings) | Obrigatório. O texto de entrada a ser incorporado. Pode ser uma cadeia de caracteres ou uma lista de cadeias de caracteres. |
instruction |
Cadeia | Uma instrução opcional para passar para o modelo de incorporação. |
As instruções são opcionais e altamente específicas do modelo. Por exemplo, os autores do BGE não recomendam nenhuma instrução ao indexar blocos e recomendam o uso da instrução "Represent this sentence for searching relevant passages:" para consultas de recuperação. Outros modelos como Instructor-XL suportam uma ampla gama de cadeias de instruções.
Incorpora resposta
| Campo | Tipo | Descrição |
|---|---|---|
id |
Cadeia | Identificador único para a incorporação. |
object |
Cadeia | O tipo de objeto. Igual a "list". |
model |
Cadeia | O nome do modelo de incorporação usado para criar a incorporação. |
data |
EmbeddingObject | O objeto de incorporação. |
usage |
Utilização | Metadados de uso de token. |
EmbeddingObject
| Campo | Tipo | Descrição |
|---|---|---|
object |
Cadeia | O tipo de objeto. Igual a "embedding". |
index |
Inteiro | O índice da incorporação na lista de incorporações geradas pelo modelo. |
embedding |
Lista(Float) | O vetor de incorporação. Cada modelo retornará um vetor de tamanho fixo (1024 para BGE-Large) |
API de Preenchimentos
As tarefas de conclusão de texto são para gerar respostas a um único prompt. Ao contrário do Chat, esta tarefa suporta entradas em lote: vários prompts independentes podem ser enviados em uma solicitação. Consulte POST /serving-endpoints/{name}/invocations para consultar os parâmetros do ponto de extremidade.
Pedido de conclusão
| Campo | Padrão | Tipo | Descrição |
|---|---|---|---|
prompt |
String (cadeia de caracteres) ou List[String] (lista de strings) | Obrigatório. As sugestões para o modelo. | |
max_tokens |
null |
null, o que significa ausência de limite, ou um número inteiro maior que zero |
O número máximo de tokens a serem gerados. |
stream |
true |
booleano | Transmita respostas de volta para um cliente para permitir resultados parciais para solicitações. Se esse parâmetro for incluído na solicitação, as respostas serão enviadas usando o eventos enviados pelo servidor padrão. |
temperature |
1.0 |
Valor flutuante em [0,2] | A temperatura de amostragem. 0 é determinístico e valores mais altos introduzem mais aleatoriedade. |
top_p |
1.0 |
Flutuar em (0,1) | O limiar de probabilidade utilizado para a amostragem do núcleo. |
top_k |
null |
null, o que significa ausência de limite, ou um número inteiro maior que zero |
Define-se o número dos k tokens mais prováveis a usar para o filtro top-k. Defina esse valor como 1 para tornar as saídas determinísticas. |
error_behavior |
"error" |
"truncate" ou "error" |
Para quando ocorrem tempos de espera e erros de comprimento de contexto excedido. Um de: "truncate" (retornar o maior número possível de tokens) e "error" (retornar um erro). Esse parâmetro só é aceite por endpoints de pagamento por token. |
n |
1 | Inteiro maior que zero | A API retorna n conclusões de bate-papo independentes quando n é especificado. Recomendado para cargas de trabalho que geram várias finalizações na mesma entrada para eficiência de inferência adicional e economia de custos. Disponível apenas para pontos de extremidade de taxa de transferência provisionados. |
stop |
[] | String (cadeia de caracteres) ou List[String] (lista de strings) | O modelo para de gerar mais tokens quando qualquer uma das sequências em stop é encontrada. |
suffix |
"" |
Cadeia | Uma cadeia de caracteres que é acrescentada ao final de cada conclusão. |
echo |
false |
booleano | Retorna o comando juntamente com a conclusão. |
use_raw_prompt |
false |
booleano | Se true, passe o prompt diretamente para o modelo, sem qualquer transformação. |
Resposta de conclusão
| Campo | Tipo | Descrição |
|---|---|---|
id |
Cadeia | Identificador exclusivo para completar o texto. |
choices |
Escolha de Conclusão | Uma lista de completamentos de texto. Para cada prompt introduzido, n escolhas são geradas se n estiver especificado. O n padrão é 1. |
object |
Cadeia | O tipo de objeto. Igual a "text_completion" |
created |
Inteiro | O tempo em que a conclusão foi gerada em segundos. |
usage |
Utilização | Metadados de uso de token. |
CompletionChoice
| Campo | Tipo | Descrição |
|---|---|---|
index |
Inteiro | O índice do prompt na solicitação. |
text |
Cadeia | A conclusão gerada. |
finish_reason |
Cadeia | A razão pela qual o modelo parou de gerar tokens. |