다음을 통해 공유


Microsoft.CognitiveServices/accounts/projects에 대해 지원되는 메트릭

다음 표에서는 Microsoft.CognitiveServices/accounts/projects 리소스 종류에 사용할 수 있는 메트릭을 나열합니다.

테이블 제목

메트릭 - Azure Portal에 표시되는 메트릭 표시 이름입니다.
Rest API의 이름 - REST API에서 참조되는 메트릭 이름입니다.
단위 - 측정 단위입니다.
집계 - 기본 집계 형식입니다. 유효한 값: 평균, 최소값, 최대값, 합계, 개수입니다.
크기 - 해당 메트릭에 사용할 수 있는 크기입니다.
시간 그레인 - 메트릭이 샘플링되는 간격을 나타냅니다. 예를 들어, PT1M은 메트릭이 1분마다, PT30M은 30분마다, PT1H는 1시간마다 샘플링됨을 나타냅니다.
DS 내보내기 - 진단 설정을 통해 메트릭을 Azure Monitor 로그로 내보낼 수 있는지 여부입니다.

메트릭을 내보내는 방법에 대한 자세한 내용은 - 데이터 수집 규칙을 사용하여 메트릭 내보내기 및 Azure Monitor에서 진단 설정 만들기를 참조하세요.

메트릭 보존에 관한 자세한 내용은 Azure Monitor 메트릭 개요를 참조하세요.

범주: AI 에이전트

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
에이전트 이벤트(미리 보기)

이 프로젝트의 AI 에이전트에 대한 이벤트 수입니다.
AgentEvents 수량 Count, Total(Sum), Average, Maximum, Minimum EventType PT1M 아니오
에이전트 입력 토큰(미리 보기)

이 프로젝트의 AI 에이전트에 대한 입력 토큰 수입니다.
AgentInputTokens 수량 합계(합계), 평균, 최대, 최소 AgentId, ModelNameTokenType PT1M 아니오
에이전트 사용자 메시지(미리 보기)

이 프로젝트의 AI 에이전트 사용자 메시지에 대한 이벤트 수입니다.
AgentMessages 수량 Count, Total(Sum), Average, Maximum, Minimum EventType, ThreadId PT1M 아니오
에이전트 출력 토큰(미리 보기)

이 프로젝트의 AI 에이전트에 대한 출력 토큰 수입니다.
AgentOutputTokens 수량 합계(합계), 평균, 최대, 최소 AgentId, ModelNameTokenType PT1M 아니오
에이전트 응답(미리 보기)

이 프로젝트의 AI 에이전트에 의한 응답 수입니다.
AgentResponses 수량 Count, Total(Sum), Average, Maximum, Minimum AgentId, ModelNameResponseStatus PT1M 아니오
에이전트 실행(미리 보기)

이 프로젝트의 AI 에이전트에 의한 실행 수입니다.
AgentRuns 수량 Count, Total(Sum), Average, Maximum, Minimum AgentId, ModelName, RunStatus, StatusCode, ThreadIdStreamType PT1M 아니오
에이전트 스레드(미리 보기)

이 프로젝트의 AI 에이전트 스레드에 대한 이벤트 수입니다.
AgentThreads 수량 Count, Total(Sum), Average, Maximum, Minimum EventType PT1M 아니오
에이전트 도구 호출(미리 보기)

이 프로젝트에서 AI 에이전트가 수행한 도구 호출 수입니다.
AgentToolCalls 수량 Count, Total(Sum), Average, Maximum, Minimum AgentId, ModelNameToolName PT1M 아니오
에이전트 사용 인덱싱된 파일(미리 보기)

이 프로젝트의 검색과 같은 AI 에이전트 사용을 위해 인덱싱된 파일 수입니다.
AgentUsageIndexedFiles 수량 Count, Total(Sum), Average, Maximum, Minimum ErrorCode, StatusVectorStoreId PT1M 아니오

범주: 모델 - HTTP 요청

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
모델 가용성 속도

다음 계산을 사용한 가용성 비율: (총 호출 - 서버 오류)/총 호출 수입니다. 서버 오류에는 HTTP 응답 >=500이 포함됩니다.
ModelAvailabilityRate 백분율 최소값, 최대값, 평균값 Region, ModelDeploymentName, ModelNameModelVersion PT1M 아니오
모델 요청

일정 기간 동안 모델 API에 대한 호출 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
ModelRequests 수량 합계(총합) ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, ModelVersionStatusCode PT1M Yes

범주: 모델 - 대기 시간

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
토큰 간 시간

스트리밍 요청의 경우 모델 토큰 생성 속도(밀리초 단위)입니다. PTU 및 PTU 관리형 배포에 적용됩니다.
NormalizedTimeBetweenTokens 밀리초 최대, 최소, 평균 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M Yes
정규화된 첫 번째 바이트 시간

스트리밍 및 비 스트리밍 요청의 경우 모델에서 요청을 수행한 후 응답 데이터의 첫 번째 바이트를 수신하는 데 걸리는 시간이며 토큰별로 정규화됩니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
NormalizedTimeToFirstToken 밀리초 최대, 최소, 평균 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M Yes
마지막 바이트까지의 시간

스트리밍 및 비 스트리밍 요청의 경우 모델에서 요청을 수행한 후 응답 데이터의 마지막 바이트가 수신되는 데 걸리는 시간입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
TimeToLastByte 밀리초 최대, 최소, 평균 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M Yes
응답 시간

스트리밍 요청에 권장되는 대기 시간(응답성) 측정입니다. PTU 및 PTU 관리형 배포에 적용됩니다. API 게이트웨이에서 측정한 대로 사용자가 프롬프트를 보낸 후 첫 번째 응답이 표시되는 데 걸린 시간으로 계산됩니다. 이 숫자는 프롬프트 크기가 증가하거나 캐시 적중 크기가 감소함에 따라 증가합니다. 응답 메트릭에 대한 시간을 분석하기 위해 필터를 추가하거나 ModelDeploymentName, ModelName 및 ModelVersion 차원으로 분할을 적용할 수 있습니다.

참고: 측정된 대기 시간은 동시 호출 및 전체 워크로드 패턴을 포함한 여러 요소에 크게 의존하므로 이 메트릭은 근사치입니다. 또한 클라이언트와 API 엔드포인트 사이에 있을 수 있는 클라이언트 쪽 대기 시간을 고려하지 않습니다. 최적의 대기 시간 추적을 위해서는 자체 로깅을 참조하세요.
TimeToResponse 밀리초 최소값, 최대값, 평균값 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, ModelVersionStatusCode PT1M Yes
초당 토큰 수

지정된 모델 응답의 생성 속도를 열거합니다. 생성된 총 토큰은 토큰을 생성하는 시간(초)으로 나뉩니다. PTU 및 PTU 관리형 배포에 적용됩니다.
TokensPerSecond 수량 최대, 최소, 평균 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M Yes

범주: 모델 - 사용량

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
오디오 입력 토큰

OpenAI 모델에서 처리된 오디오 프롬프트 토큰(입력)의 수입니다. PTU 관리형 모델 배포에 적용됩니다.
AudioInputTokens 수량 합계(총합) ModelDeploymentName, ModelName, ModelVersionRegion PT1M Yes
오디오 출력 토큰

OpenAI 모델에서 생성된 오디오 프롬프트 토큰(출력) 수입니다. PTU 관리형 모델 배포에 적용됩니다.
AudioOutputTokens 수량 합계(총합) ModelDeploymentName, ModelName, ModelVersionRegion PT1M Yes
입력 토큰

모델에서 처리된 프롬프트 토큰(입력)의 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
InputTokens 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelNameModelVersion PT1M Yes
출력 토큰

OpenAI 모델에서 생성된 토큰 수(출력)입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
OutputTokens 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelNameModelVersion PT1M Yes
프로비전된 사용률

프로비저닝된 관리형 배포의 사용률%(사용된 CPU/배포된 CPU) x 100으로 계산됩니다. 사용률이 100%보다 크거나 같으면 호출이 제한되고 오류 코드 429가 반환됩니다.
ProvisionedUtilization 백분율 최소값, 최대값, 평균값 Region, ModelDeploymentName, ModelNameModelVersion PT1M 아니오
총 토큰

모델에서 처리된 유추 토큰 수입니다. 프롬프트 토큰(입력)과 생성된 토큰(출력)으로 계산됩니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
TotalTokens 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelNameModelVersion PT1M Yes

다음 단계