共用方式為


監視模型品質和端點健康情況

馬賽克 AI 模型服務提供進階工具,以監視模型及其部署的品質和健康情況。 下表概述每個可用的監視工具。

工具 說明 用途 存取權限
服務記錄 擷取來自模型服務端點的stdoutstderr串流。 適用於在模型部署期間進行除錯。 使用 logging.warning(...)logging.error(...) 立即顯示在日誌中。 使用 [服務 UI] 中的 [ 記錄] 索引標籤 來存取。 記錄會即時串流,並可透過 API 匯出。
組建記錄 顯示處理程序的輸出,其會自動為服務端點的模型建立生產就緒的 Python 環境。 適用於診斷模型部署和相依性問題。 在 [建置記錄] 索引標籤的 [記錄] 底下完成模型部署建置時可用。記錄可以透過 API 導出。 這些日誌最多可保留三十 (30) 天。
端點健康情況計量 提供基礎結構計量的深入解析,例如延遲、要求率、錯誤率、CPU 使用量和記憶體使用量。 理解服務基礎結構的效能和健康情況非常重要。 在過去 14 天內,服務 UI 中預設為可用。 數據也可以即時串流至可觀察性工具。
已啟用 AI 閘道的推斷資料表 針對提供自定義模型、外部模型或布建輸送量工作負載的端點,自動將在線預測要求和響應記錄到 Unity 目錄所管理的 Delta 數據表中。 使用此工具來監視和偵錯模型品質或響應、產生定型數據集,或進行合規性稽核。 當使用服務 UI 或 REST API 啟用 AI 閘道 功能時,可以針對現有和新模型提供端點啟用。

小提示

利用這些監控工具找出效能瓶頸並優化你的端點。 欲了解完整的優化策略,請參閱 「優化生產模型服務端點」。

其他資源