共用方式為


Foundry 本地 CLI 參考指南

這很重要

  • Foundry Local 提供預覽版。 公開預覽版本可讓您搶先試用正在開發期間的功能。
  • 正式發行前的功能、方法和程序可能會變更或有功能上的限制。

本文提供 Foundry Local 命令行介面 (CLI) 的完整參考。 CLI 會將命令組織成邏輯類別,以協助您管理模型、控制服務及維護本機快取。

先決條件

  • 安裝 Foundry Local。 關於設定步驟,請參見 「從 Foundry Local 開始」。
  • 使用有 CLI 可用的 foundry 本地終端機。
  • 請確保首次下載時具備網際網路存取權 (執行提供者與模型)。
  • Azure RBAC:不適用(本地運行)。
  • 如果你在 Windows 上用的是 Intel NPU,請安裝 Intel NPU 驅動程式 以達到最佳 NPU 加速。

快速驗證

執行這些指令確認 CLI 已安裝且服務可達。

  1. 顯示 CLI 幫助:

     foundry --help
    

    此指令會列印使用資訊及可用指令群組清單。

    參考資料: 概述

  2. 請查看服務狀態:

     foundry service status
    

    此指令會列印 Foundry 本地服務是否正在執行,並包含其本地端點。

    參考資料: 服務指令

概觀

利用內建的說明功能來探索指令和選項。

CLI 會將命令組織成三個主要類別:

  • 模型:用於管理和執行 AI 模型的命令
  • 服務:用於控制 Foundry 本地服務的命令
  • 快取:用來管理本機模型記憶體的命令

模型命令

下表摘要說明與管理和執行模型相關的命令:

備註

您可以依其model模型標識碼來指定自變數。 使用別名:

  • 自動為你現有硬體選擇最佳型號。 舉例來說,如果你有 Nvidia GPU,Foundry Local 會選擇最佳的 GPU 型號。 如果您有支援的 NPU 可用,Foundry Local 會選取 NPU 模型。
  • 可讓您使用較短的名稱,而不需要記住模型 ID。

如果您想要執行特定模型,請使用模型識別碼。 例如,若要在CPU上執行 qwen2.5-0.5b ,不論可用的硬體為何,請使用: foundry model run qwen2.5-0.5b-instruct-generic-cpu

命令 說明
foundry model --help 顯示所有可用的模型相關命令及其使用方式。
foundry model run <model> 執行指定的模型,如果未快取,則下載它,然後開始互動。
foundry model list 列出所有可用的模型以供本機使用。 在第一次執行時,它會下載適用於你的硬體的執行提供程式 (EP)。
foundry model list --filter <key>=<value> 列出依指定準則 (裝置、工作、別名、提供者) 篩選的模型。
foundry model info <model> 顯示特定模型的詳細資訊。
foundry model info <model> --license 顯示特定模型的授權資訊。
foundry model download <model> 下載模型至本機快取,而不運行它。
foundry model load <model> 將模型載入服務。
foundry model unload <model> 從服務卸載模型。

模型列表排序

當別名有多個型號 ID 變體時,模型清單會依優先順序顯示這些型號。 當你透過alias指定模型時,列表中的第一個模型就是會執行的模型。

模型清單篩選

foundry model list 指令支援透過 --filter 選項來篩選模型。 你可以利用鍵值對,根據單一屬性篩選模型。

foundry model list --filter <key>=<value>

此指令會列印符合濾波器鍵與值的模型。

參考資料: 模型列表篩選

備註

當您在安裝後首次執行 foundry model list 時,Foundry Local 會自動下載機器硬體組態的相關執行提供者 (EP)。 在模型清單出現之前,您會看到一個進度列,指出下載完成。

支援的篩選器鍵:

device - 硬體裝置類型

依執行模型的硬體裝置篩選模型。

可能的值:

  • CPU - 中央處理器模型
  • GPU - 圖形處理單元模型
  • NPU - 神經處理單元模型

提供者 - 執行器提供者

依據執行提供者或執行時來篩選模型。

可能的值:

  • CPUExecutionProvider - 基於 CPU 的執行
  • CUDAExecutionProvider - NVIDIA CUDA GPU 執行
  • WebGpuExecutionProvider - WebGPU 的執行
  • QNNExecutionProvider - 高通神經網路處理單元(NPU)
  • OpenVINOExecutionProvider - 英特爾 OpenVINO 執行環境
  • NvTensorRTRTXExecutionProvider - NVIDIA TensorRT 執行
  • VitisAIExecutionProvider - AMD Vitis AI 執行

task - 模型任務類型

根據模型的預期使用情境或任務來篩選。

共同值:

  • chat-completion:對話式 AI 模型
  • text-generation:文字產生模型

alias - 模型別名

依別名識別碼篩選模型。 支援具有尾碼的 * 萬用字元比對。

範例值:

  • phi4-cpu
  • qwen2.5-coder-0.5b-instruct-generic-cpu
  • deepseek-r1-distill-qwen-1.5b-generic-cpu
  • phi-4-mini-instruct-generic-cpu

特殊濾鏡功能

否定支持: 為任何值加上前置詞, ! 以排除相符的模型。

foundry model list --filter device=!GPU

此指令會排除 GPU 模型的結果。

參考資料: 特殊濾鏡功能

萬用字元比對 (僅限別名):附加 * 以便在依別名篩選時進行前置詞比對。

foundry model list --filter alias=qwen*

此指令回傳別名以 開頭 qwen的模型。

參考資料: 特殊濾鏡功能

範例

foundry model list --filter device=GPU
foundry model list --filter task=chat-completion
foundry model list --filter provider=CUDAExecutionProvider

這些範例依據裝置、任務及執行提供者過濾模型清單。

參考資料: 模型列表篩選

備註

  • 所有比較都不區分大小寫。
  • 每個命令只能使用一個過濾器。
  • 無法辨識的篩選器鍵值會造成錯誤。

服務命令

下表摘要說明與管理和執行 Foundry Local Service 相關的命令:

命令 說明
foundry service --help 顯示所有可用的服務相關命令及其使用方式。
foundry service start 啟動 Foundry Local 服務。
foundry service stop 停止 Foundry Local 服務。
foundry service restart 重新啟動 Foundry 本地服務。
foundry service status 顯示 Foundry Local Service 的目前狀態。
foundry service ps 列出目前載入 Foundry 本地服務中的所有模型。
foundry service diag 顯示 Foundry Local Service 的記錄。
foundry service set <options> 設定 Foundry Local 服務的設定。

快取命令

下表摘要說明管理儲存模型之本機快取的命令:

命令 說明
foundry cache --help 顯示所有可用的快取相關命令及其使用方式。
foundry cache location 顯示目前的快取目錄。
foundry cache list 列出儲存在本機快取中的所有模型。
foundry cache cd <path> 將快取目錄變更為指定的路徑。
foundry cache remove <model> 從本端快取中移除模型。

執行提供者

執行提供者是硬體專用的加速函式庫,能在你的裝置上盡可能有效率地執行模型。

內建執行提供者

Foundry Local 包含 CPU 執行提供者、WebGPU 執行提供者及 CUDA 執行提供者。

CPU 執行提供者使用 Microsoft 線性代數子程式(MLAS) 在任何 CPU 上執行,並且是 Foundry Local 的 CPU 備援。

WebGPU 執行提供者使用 Dawn,這是網頁 API 的原生實作,用於任何 GPU 上的加速,並且是 Foundry Local 的 GPU 備援。

CUDA 執行供應商使用 NVIDIA CUDA 進行 NVIDIA GPU 的加速。 它需要 NVIDIA GeForce RTX 30 系列及以上版本,並至少推薦驅動程式版本為 32.0.15.5585,CUDA 版本為 12.5。 它受以下授權條款約束:NVIDIA 軟體開發套件授權協議(EULA)。

插件執行提供者

下表列出的執行提供者可依裝置與驅動程式相容性,在 Windows 上提供動態下載與註冊。 它們受限於上述授權條款。

Foundry Local 會在首次執行時自動下載這些執行提供者。 當有新版本可用時,外掛執行提供者會自動更新。

名稱(供應商) 需求 授權條款
NvTensorRTRTXExecutionProvider (NVIDIA) NVIDIA GeForce RTX 30XX 及之後版本,使用最低推薦驅動程式版本 32.0.15.5585 及 CUDA 版本 12.5 NVIDIA 軟體開發套件授權協議—EULA
OpenVINOExecutionProvider (Intel) CPU:Intel TigerLake(第 11 代)及以後版本,最低推薦驅動程式為 32.0.100.9565
顯示卡:Intel AlderLake(第 12 代)及以後版本,最低推薦驅動程式為 32.0.101.1029
NPU:Intel ArrowLake(第 15 代)及以後版本,最低推薦驅動程式為 32.0.100.4239
Intel OBL 發行版商業使用授權協議 v2025.02.12
QNNExecutionProvider (高通) Snapdragon(R) X Elite - X1Exxxxx - Qualcomm(R) Hexagon(TM) NPU,驅動程式最小版本為 30.0.140.0 及以上版本
Snapdragon(R) X Plus - X1Pxxxxx - Qualcomm(R) Hexagon(TM) NPU,驅動程式最低版本為 30.0.140.0 及以上版本
要查看 QNN 授權,請下載 Qualcomm® 神經處理 SDK,解壓 ZIP 檔,然後開啟 LICENSE.pdf 檔案。
VitisAIExecutionProvider (AMD) 最小值:Adrenalin 版 25.6.3,附 NPU 驅動程式 32.00.0203.280
Max:Adrenalin 版本 25.9.1,搭配 NPU 驅動程式 32.00.0203.297
無需額外許可證