Partilhar via


Referência do Foundry CLI Local

Importante

  • O Foundry Local está disponível em pré-visualização. As versões de visualização pública fornecem acesso antecipado aos recursos que estão em implantação ativa.
  • Recursos, abordagens e processos podem mudar ou ter recursos limitados, antes da Disponibilidade Geral (GA).

Este artigo fornece uma referência abrangente para a interface de linha de comando (CLI) do Foundry Local. A CLI organiza comandos em categorias lógicas para ajudá-lo a gerenciar modelos, controlar o serviço e manter seu cache local.

Pré-requisitos

  • Instale o Foundry Local. Para os passos de configuração, consulte Começar com o Foundry Local.
  • Use um terminal local onde o foundry CLI esteja disponível.
  • Certifique-se de que tem acesso à internet para downloads iniciais (fornecedores de execução e modelos).
  • Azure RBAC: Não aplicável (corre localmente).
  • Se tiveres uma NPU Intel no Windows, instala o driver Intel NPU para uma aceleração NPU ótima.

Verificação rápida

Execute estes comandos para confirmar que a CLI está instalada e que o serviço está acessível.

  1. Mostrar ajuda do CLI:

     foundry --help
    

    Este comando imprime informações de utilização e a lista de grupos de comandos disponíveis.

    Referência: Visão Geral

  2. Verifique o estado do serviço:

     foundry service status
    

    Este comando imprime se o serviço Foundry Local está a correr e inclui o seu endpoint local.

    Referência: Comandos de serviço

Visão geral

Use a ajuda incorporada para explorar comandos e opções.

A CLI organiza comandos em três categorias principais:

  • Modelo: Comandos para gerenciar e executar modelos de IA
  • Serviço: Comandos para controlar o serviço Foundry Local
  • Cache: comandos para gerenciar o armazenamento do modelo local

Comandos de modelo

A tabela a seguir resume os comandos relacionados ao gerenciamento e à execução de modelos:

Observação

Você pode especificar o model argumento por seu alias ou ID do modelo. Usando um alias:

  • Seleciona automaticamente o melhor modelo para o hardware disponível. Por exemplo, se tiver uma GPU Nvidia disponível, a Foundry Local seleciona o melhor modelo de GPU. Se você tiver uma NPU suportada disponível, o Foundry Local selecionará o modelo de NPU.
  • Permite que você use um nome mais curto sem precisar lembrar o ID do modelo.

Se você quiser executar um modelo específico, use a ID do modelo. Por exemplo, para executar o qwen2.5-0.5b na CPU - independentemente do seu hardware disponível - use: foundry model run qwen2.5-0.5b-instruct-generic-cpu.

Comando Descrição
foundry model --help Exibe todos os comandos disponíveis relacionados ao modelo e seu uso.
foundry model run <model> Executa um modelo especificado, faz o download se não estiver armazenado em cache e inicia uma interação.
foundry model list Lista todos os modelos disponíveis para uso local. Na primeira execução, ele baixa provedores de execução (EPs) para seu hardware.
foundry model list --filter <key>=<value> Lista modelos filtrados pelos critérios especificados (dispositivo, tarefa, alias, provedor).
foundry model info <model> Exibe informações detalhadas sobre um modelo específico.
foundry model info <model> --license Exibe as informações de licença para um modelo específico.
foundry model download <model> Baixa um modelo para o cache local sem executá-lo.
foundry model load <model> Carrega um modelo no serviço.
foundry model unload <model> Descarrega um modelo do serviço.

Ordenação da lista de modelos

Quando estão disponíveis múltiplas variantes de ID de modelo para um alias, a lista de modelos mostra os modelos por ordem de prioridade. O primeiro modelo da lista é o modelo que executa quando se especifica o modelo por alias.

Filtragem de lista de modelos

O foundry model list comando suporta filtragem de modelos usando a --filter opção. Pode filtrar modelos com base num único atributo usando pares-chave-valor.

foundry model list --filter <key>=<value>

Este comando imprime modelos que correspondem à chave de filtro e ao valor.

Referência: Filtragem por lista de modelos

Observação

Quando você executa foundry model list pela primeira vez após a instalação, o Foundry Local baixa automaticamente os provedores de execução (EPs) relevantes para a configuração de hardware da sua máquina. Você verá uma barra de progresso indicando a conclusão do download antes que a lista de modelos seja exibida.

Teclas de filtro suportadas:

device - Tipo de dispositivo de hardware

Filtra os modelos pelo dispositivo de hardware em que são executados.

Valores possíveis:

  • CPU - Modelos de unidades de processamento central
  • GPU - Modelos de unidades de processamento gráfico
  • NPU - Modelos de unidades de processamento neural

provedor - Provedor de execução

Filtra os modelos pelo seu fornecedor de execução ou pelo tempo de execução.

Valores possíveis:

  • CPUExecutionProvider - Execução baseada em CPU
  • CUDAExecutionProvider - Execução de GPU NVIDIA CUDA
  • WebGpuExecutionProvider - Execução WebGPU
  • QNNExecutionProvider - Execução de Rede Neural Qualcomm (NPU)
  • OpenVINOExecutionProvider - Execução Intel OpenVINO
  • NvTensorRTRTXExecutionProvider - Execução NVIDIA TensorRT
  • VitisAIExecutionProvider - Execução de IA AMD Vitis

task - Tipo de tarefa do modelo

Filtra os modelos pelo seu caso de uso ou tarefa pretendidos.

Valores comuns:

  • chat-completion: Modelos de IA conversacional
  • text-generation: Modelos de geração de texto

alias - Alias de modelo

Filtra modelos por seu identificador de alias. Suporta correspondência curinga com o sufixo *.

Valores de amostra:

  • phi4-cpu
  • qwen2.5-coder-0.5b-instruct-generic-cpu
  • deepseek-r1-distill-qwen-1.5b-generic-cpu
  • phi-4-mini-instruct-generic-cpu

Características especiais do filtro

Suporte de negação: Prefira qualquer valor com ! para excluir modelos correspondentes.

foundry model list --filter device=!GPU

Este comando exclui modelos de GPU dos resultados.

Referência: Características especiais do filtro

Coincidência (apenas para alias): Acrescentar * para coincidir com prefixos ao usar filtros por alias.

foundry model list --filter alias=qwen*

Este comando devolve modelos cujo alias começa por qwen.

Referência: Características especiais do filtro

Examples

foundry model list --filter device=GPU
foundry model list --filter task=chat-completion
foundry model list --filter provider=CUDAExecutionProvider

Estes exemplos filtram a lista de modelos por dispositivo, tarefa e fornecedor de execução.

Referência: Filtragem por lista de modelos

Observação

  • Todas as comparações não diferenciam maiúsculas de minúsculas.
  • Apenas um filtro pode ser usado por comando.
  • Chaves de filtro não reconhecidas resultam em um erro.

Comandos de serviço

A tabela a seguir resume os comandos relacionados ao gerenciamento e à execução do serviço Foundry Local:

Comando Descrição
foundry service --help Exibe todos os comandos relacionados ao serviço disponíveis e seu uso.
foundry service start Inicia o serviço Foundry Local.
foundry service stop Interrompe o serviço local da Foundry.
foundry service restart Reinicia o serviço Foundry Local.
foundry service status Exibe o status atual do serviço Foundry Local.
foundry service ps Lista todos os modelos atualmente carregados no serviço Foundry Local.
foundry service diag Exibe os logs do serviço Foundry Local.
foundry service set <options> Define a configuração do serviço Foundry Local.

Comandos de cache

A tabela a seguir resume os comandos para gerenciar o cache local onde os modelos são armazenados:

Comando Descrição
foundry cache --help Mostra todos os comandos disponíveis relacionados ao cache e seu uso.
foundry cache location Mostra o diretório de cache atual.
foundry cache list Lista todos os modelos armazenados no cache local.
foundry cache cd <path> Altera o diretório de cache para o caminho especificado.
foundry cache remove <model> Remove um modelo do cache local.

Fornecedores de execução

Os fornecedores de execução são bibliotecas de aceleração específicas de hardware que executam modelos da forma mais eficiente possível no seu dispositivo.

Fornecedores de execução incorporados

O Foundry Local inclui o fornecedor de execução da CPU, o fornecedor de execução WebGPU e o fornecedor de execução CUDA.

O fornecedor de execução da CPU utiliza as Microsoft Linear Algebra Subroutines (MLAS) para correr em qualquer CPU e é a alternativa da CPU para o Foundry Local.

O fornecedor de execução WebGPU utiliza Dawn, a implementação nativa da API baseada na web, para aceleração em qualquer GPU e é a alternativa de GPU para Foundry Local.

O fornecedor de execução CUDA utiliza o NVIDIA CUDA para aceleração em GPUs NVIDIA. Requer uma NVIDIA GeForce RTX série 30 e posteriores, com um driver mínimo recomendado versão 32.0.15.5585 e CUDA versão 12.5. Está sujeito aos seguintes termos de licença: Contrato de Licença para Kits de Desenvolvimento de Software NVIDIA—EULA.

Fornecedores de execução de plugins

Os fornecedores de execução listados na tabela seguinte estão disponíveis para download dinâmico e registo no Windows, dependendo da compatibilidade do dispositivo e do driver. Estão sujeitos aos termos da licença especificados.

O Foundry Local descarrega automaticamente estes fornecedores de execução na primeira execução. Os fornecedores de execução de plugins atualizam-se automaticamente quando há novas versões disponíveis.

Nome (Fornecedor) Requerimentos Termos de licença
NvTensorRTRTXExecutionProvider (NVIDIA) NVIDIA GeForce RTX 30XX e versões posteriores com o driver mínimo recomendado versão 32.0.15.5585 e CUDA versão 12.5 Contrato de Licença para Kits de Desenvolvimento de Software NVIDIA — EULA
OpenVINOExecutionProvider (Intel) CPU: Intel TigerLake (11.ª Geração) e versões posteriores com o driver mínimo recomendado 32.0.100.9565
GPU: Intel AlderLake (12.ª Geração) e versões posteriores com o driver mínimo recomendado 32.0.101.1029
NPU: Intel ArrowLake (15ª Geração) e versões posteriores com o driver mínimo recomendado 32.0.100.4239
Contrato de licença de uso comercial da distribuição Intel OBL v2025.02.12
QNNExecutionProvider (Qualcomm) Snapdragon(R) X Elite - X1Exxxxx - Qualcomm(R) Hexagon(TM) NPU com o driver na versão mínima 30.0.140.0 e versões posteriores
Snapdragon(R) X Plus - X1Pxxxxx - NPU Qualcomm(R) Hexagon(TM) com a versão mínima do driver 30.0.140.0 e versões posteriores
Para visualizar a Licença QNN, descarregue o SDK de Processamento Neural da Qualcomm®, extraia o ZIP e abra o ficheiro LICENSE.pdf.
VitisAIExecutionProvider (AMD) Min: Adrenalin Edition 25.6.3 com o driver NPU 32.00.0203.280
Max: Adrenalin Edition 25.9.1 com o driver NPU 32.00.0203.297
Nenhuma licença adicional necessária