다음 표에서는 Microsoft.CognitiveServices/accounts/projects 리소스 종류에 사용할 수 있는 메트릭을 나열합니다.
테이블 제목
메트릭 - Azure Portal에 표시되는 메트릭 표시 이름입니다.
Rest API의 이름 - REST API에서 참조되는 메트릭 이름입니다.
단위 - 측정 단위입니다.
집계 - 기본 집계 형식입니다. 유효한 값: 평균, 최소값, 최대값, 합계, 개수입니다.
크기 - 해당 메트릭에 사용할 수 있는 크기입니다.
시간 그레인 - 메트릭이 샘플링되는 간격을 나타냅니다. 예를 들어, PT1M은 메트릭이 1분마다, PT30M은 30분마다, PT1H는 1시간마다 샘플링됨을 나타냅니다.
DS 내보내기 - 진단 설정을 통해 메트릭을 Azure Monitor 로그로 내보낼 수 있는지 여부입니다.
메트릭을 내보내는 방법에 대한 자세한 내용은 - 데이터 수집 규칙을 사용하여 메트릭 내보내기 및 Azure Monitor에서 진단 설정 만들기를 참조하세요.
메트릭 보존에 관한 자세한 내용은 Azure Monitor 메트릭 개요를 참조하세요.
범주: AI 에이전트
| Metric | REST API의 이름 | 단위 | Aggregation | 치수 | 시간 입자 | DS 데이터 내보내기 |
|---|---|---|---|---|---|---|
|
에이전트 이벤트(미리 보기) 이 프로젝트의 AI 에이전트에 대한 이벤트 수입니다. |
AgentEvents |
수량 | Count, Total(Sum), Average, Maximum, Minimum | EventType |
PT1M | 아니오 |
|
에이전트 입력 토큰(미리 보기) 이 프로젝트의 AI 에이전트에 대한 입력 토큰 수입니다. |
AgentInputTokens |
수량 | 합계(합계), 평균, 최대, 최소 |
AgentId, ModelNameTokenType |
PT1M | 아니오 |
|
에이전트 사용자 메시지(미리 보기) 이 프로젝트의 AI 에이전트 사용자 메시지에 대한 이벤트 수입니다. |
AgentMessages |
수량 | Count, Total(Sum), Average, Maximum, Minimum |
EventType, ThreadId |
PT1M | 아니오 |
|
에이전트 출력 토큰(미리 보기) 이 프로젝트의 AI 에이전트에 대한 출력 토큰 수입니다. |
AgentOutputTokens |
수량 | 합계(합계), 평균, 최대, 최소 |
AgentId, ModelNameTokenType |
PT1M | 아니오 |
|
에이전트 응답(미리 보기) 이 프로젝트의 AI 에이전트에 의한 응답 수입니다. |
AgentResponses |
수량 | Count, Total(Sum), Average, Maximum, Minimum |
AgentId, ModelNameResponseStatus |
PT1M | 아니오 |
|
에이전트 실행(미리 보기) 이 프로젝트의 AI 에이전트에 의한 실행 수입니다. |
AgentRuns |
수량 | Count, Total(Sum), Average, Maximum, Minimum |
AgentId, ModelName, RunStatus, StatusCode, ThreadIdStreamType |
PT1M | 아니오 |
|
에이전트 스레드(미리 보기) 이 프로젝트의 AI 에이전트 스레드에 대한 이벤트 수입니다. |
AgentThreads |
수량 | Count, Total(Sum), Average, Maximum, Minimum | EventType |
PT1M | 아니오 |
|
에이전트 도구 호출(미리 보기) 이 프로젝트에서 AI 에이전트가 수행한 도구 호출 수입니다. |
AgentToolCalls |
수량 | Count, Total(Sum), Average, Maximum, Minimum |
AgentId, ModelNameToolName |
PT1M | 아니오 |
|
에이전트 사용 인덱싱된 파일(미리 보기) 이 프로젝트의 검색과 같은 AI 에이전트 사용을 위해 인덱싱된 파일 수입니다. |
AgentUsageIndexedFiles |
수량 | Count, Total(Sum), Average, Maximum, Minimum |
ErrorCode, StatusVectorStoreId |
PT1M | 아니오 |
범주: 모델 - HTTP 요청
| Metric | REST API의 이름 | 단위 | Aggregation | 치수 | 시간 입자 | DS 데이터 내보내기 |
|---|---|---|---|---|---|---|
|
모델 가용성 속도 다음 계산을 사용한 가용성 비율: (총 호출 - 서버 오류)/총 호출 수입니다. 서버 오류에는 HTTP 응답 >=500이 포함됩니다. |
ModelAvailabilityRate |
백분율 | 최소값, 최대값, 평균값 |
Region, ModelDeploymentName, ModelNameModelVersion |
PT1M | 아니오 |
|
모델 요청 일정 기간 동안 모델 API에 대한 호출 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. |
ModelRequests |
수량 | 합계(총합) |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, ModelVersionStatusCode |
PT1M | Yes |
범주: 모델 - 대기 시간
| Metric | REST API의 이름 | 단위 | Aggregation | 치수 | 시간 입자 | DS 데이터 내보내기 |
|---|---|---|---|---|---|---|
|
토큰 간 시간 스트리밍 요청의 경우 모델 토큰 생성 속도(밀리초 단위)입니다. PTU 및 PTU 관리형 배포에 적용됩니다. |
NormalizedTimeBetweenTokens |
밀리초 | 최대, 최소, 평균 |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion |
PT1M | Yes |
|
정규화된 첫 번째 바이트 시간 스트리밍 및 비 스트리밍 요청의 경우 모델에서 요청을 수행한 후 응답 데이터의 첫 번째 바이트를 수신하는 데 걸리는 시간이며 토큰별로 정규화됩니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. |
NormalizedTimeToFirstToken |
밀리초 | 최대, 최소, 평균 |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion |
PT1M | Yes |
|
마지막 바이트까지의 시간 스트리밍 및 비 스트리밍 요청의 경우 모델에서 요청을 수행한 후 응답 데이터의 마지막 바이트가 수신되는 데 걸리는 시간입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. |
TimeToLastByte |
밀리초 | 최대, 최소, 평균 |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion |
PT1M | Yes |
|
응답 시간 스트리밍 요청에 권장되는 대기 시간(응답성) 측정입니다. PTU 및 PTU 관리형 배포에 적용됩니다. API 게이트웨이에서 측정한 대로 사용자가 프롬프트를 보낸 후 첫 번째 응답이 표시되는 데 걸린 시간으로 계산됩니다. 이 숫자는 프롬프트 크기가 증가하거나 캐시 적중 크기가 감소함에 따라 증가합니다. 응답 메트릭에 대한 시간을 분석하기 위해 필터를 추가하거나 ModelDeploymentName, ModelName 및 ModelVersion 차원으로 분할을 적용할 수 있습니다. 참고: 측정된 대기 시간은 동시 호출 및 전체 워크로드 패턴을 포함한 여러 요소에 크게 의존하므로 이 메트릭은 근사치입니다. 또한 클라이언트와 API 엔드포인트 사이에 있을 수 있는 클라이언트 쪽 대기 시간을 고려하지 않습니다. 최적의 대기 시간 추적을 위해서는 자체 로깅을 참조하세요. |
TimeToResponse |
밀리초 | 최소값, 최대값, 평균값 |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, ModelVersionStatusCode |
PT1M | Yes |
|
초당 토큰 수 지정된 모델 응답의 생성 속도를 열거합니다. 생성된 총 토큰은 토큰을 생성하는 시간(초)으로 나뉩니다. PTU 및 PTU 관리형 배포에 적용됩니다. |
TokensPerSecond |
수량 | 최대, 최소, 평균 |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion |
PT1M | Yes |
범주: 모델 - 사용량
| Metric | REST API의 이름 | 단위 | Aggregation | 치수 | 시간 입자 | DS 데이터 내보내기 |
|---|---|---|---|---|---|---|
|
오디오 입력 토큰 OpenAI 모델에서 처리된 오디오 프롬프트 토큰(입력)의 수입니다. PTU 관리형 모델 배포에 적용됩니다. |
AudioInputTokens |
수량 | 합계(총합) |
ModelDeploymentName, ModelName, ModelVersionRegion |
PT1M | Yes |
|
오디오 출력 토큰 OpenAI 모델에서 생성된 오디오 프롬프트 토큰(출력) 수입니다. PTU 관리형 모델 배포에 적용됩니다. |
AudioOutputTokens |
수량 | 합계(총합) |
ModelDeploymentName, ModelName, ModelVersionRegion |
PT1M | Yes |
|
입력 토큰 모델에서 처리된 프롬프트 토큰(입력)의 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. |
InputTokens |
수량 | 합계(총합) |
ApiName, Region, ModelDeploymentName, ModelNameModelVersion |
PT1M | Yes |
|
출력 토큰 OpenAI 모델에서 생성된 토큰 수(출력)입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. |
OutputTokens |
수량 | 합계(총합) |
ApiName, Region, ModelDeploymentName, ModelNameModelVersion |
PT1M | Yes |
|
프로비전된 사용률 프로비저닝된 관리형 배포의 사용률%(사용된 CPU/배포된 CPU) x 100으로 계산됩니다. 사용률이 100%보다 크거나 같으면 호출이 제한되고 오류 코드 429가 반환됩니다. |
ProvisionedUtilization |
백분율 | 최소값, 최대값, 평균값 |
Region, ModelDeploymentName, ModelNameModelVersion |
PT1M | 아니오 |
|
총 토큰 모델에서 처리된 유추 토큰 수입니다. 프롬프트 토큰(입력)과 생성된 토큰(출력)으로 계산됩니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. |
TotalTokens |
수량 | 합계(총합) |
ApiName, Region, ModelDeploymentName, ModelNameModelVersion |
PT1M | Yes |