Copilot Studio Kit는 테스트 결과를 분석하기 위한 포괄적인 인터페이스를 제공합니다.
테스트 실행 세부 정보
에이전트 테스트 실행 인터페이스는 테스트 실행의 상태를 보여 줍니다.
| Status | Description |
|---|---|
| 실행 상태 | Direct Line API를 사용하여 에이전트 구성에 대해 각 개별 에이전트 테스트를 실행하고 해당 에이전트 테스트 결과 레코드를 만드는 기본 프로세스입니다. |
| App Insights 보강 상태 | 관련 에이전트 구성 레코드에서 Azure Application Insights를 사용하여 보강 을 사용하도록 설정한 경우에만 실행됩니다. |
| 생성된 답변 분석 | 관련 에이전트 구성 레코드에서 생성된 답변 분석을 사용하도록 설정한 경우에만 실행됩니다. |
| Dataverse 보강 상태 | 관련 에이전트 구성 레코드에서 대화 내용으로 보강 을 사용하도록 설정된 경우에만 실행됩니다. |
Copilot Studio Kit에서 에이전트 구성 설정에 대해 더 알아보세요.
다음 이미지는 테스트 실행의 세부 정보를 볼 수 있는 테스트 실행 인터페이스를 보여줍니다.
집계된 결과
클라우드 흐름이 실행되면 시스템은 집계된 결과를 계산합니다.
| 집계된 결과 | Description |
|---|---|
| # 테스트 | 테스트 결과 수입니다. |
| 성공률(%) | 총 테스트 결과 수와 비교하여 성공 결과가 있는 테스트 결과 레코드의 백분율입니다. |
| 평균 대기 시간(밀리초) | 에이전트가 테스트 발화를 받은 후 메시지를 보내는 평균 시간(밀리초)입니다. |
| # 성공 | 성공 결과가 있는 테스트 결과 레코드 수입니다. |
| # 실패 | 실패한 결과가 있는 테스트 결과 레코드 수입니다. |
| # 보류 중 | 보류 중인 결과가 있는 테스트 결과 레코드의 수입니다. |
| # 알 수 없음 | 알 수 없는 결과가 있는 테스트 결과 레코드 수입니다. |
| # 오류 | 오류 결과가 있는 테스트 결과 레코드 수입니다. |
자세한 결과
단계가 완료된 후에만 일부 결과를 사용할 수 있으므로 각 단계를 완료한 후에 결과를 분석합니다. 예를 들어 토픽 일치 테스트는 이 단계에서만 트리거된 토픽 이름에 대한 정보를 제공하므로 Dataverse 보강이 완전히 실행되어야 합니다.
결과 보기를 편집하여 결과를 개별적으로 조정할 수 있습니다.
각 결과에는 결과에 대한 설명으로 자동으로 채워진 결과 이유 섹션이 있습니다. AI 생성 평가의 경우 인간 검토를 권장합니다. "응답에 대한 AI 생성 평가입니다." 검토해 주세요. 테스트 진행자는 이 특성을 사용하여 테스트에 고유한 코멘트와 비고를 추가할 수 있습니다.
다음 각 테스트 유형에 대해 결과 필터를 사용하여 특정 형식의 결과만 볼 수 있습니다.
- 생성 답변 결과
- 응답 일치 결과
- 항목 일치 결과
- 첨부 파일 결과
에이전트 테스트 결과 세부 정보
에이전트 테스트 결과 양식은 각 개별 테스트 실행에 대한 세부 정보를 제공합니다. 시스템에서 이러한 레코드를 자동으로 만듭니다.
| 열 이름 | Description |
|---|---|
| 대화 ID | Direct Line API에서 제공하는 대화의 ID입니다. |
| 에이전트 테스트 실행 | 레코드와 관련된 테스트를 실행합니다. |
| 에이전트 테스트 | 레코드와 관련된 테스트. 빠른 보기 양식에서 테스트 세부 정보를 볼 수 있습니다. |
| 결과 | 결과: Success, Failed, Unknown, ErrorPending. |
| Explanation | 결과에 대한 자동 생성된 설명입니다. |
| 대기 시간(ms) | 에이전트가 테스트 발화를 받은 후 메시지를 다시 보내는 데 걸리는 시간(밀리초)입니다. |
| 보낸 메시지 | 사용자가 보내는 메시지의 타임스탬프입니다. |
| 응답 수신됨 | 에이전트가 보내는 메시지의 타임스탬프입니다. |
| 응답 | 에이전트가 보내는 문자 메시지입니다. |
| App Insights 결과 | Azure Application Insights의 생성 응답 결과입니다( Azure Application Insights를 사용하여 보강 을 사용하는 경우). |
| 트리거된 토픽 ID | Dataverse에서 트리거된 토픽에 대한 Chatbot 하위 구성 요소 레코드의 고유 식별자입니다( 대화 내용으로 보강 을 사용하는 경우). |
| 트리거된 토픽/이벤트 | 트리거된 토픽의 이름입니다( 대화 내용으로 보강을 사용하도록 설정된 경우). IntentCandidates여러 항목이 일치하는 경우. 대화형 부스팅 및 대체의 경우, UnknownIntent. |
| 인식된 의도 점수 | 의도 인식이 발생하면 상위 의도의 점수입니다. |
| 대화 대화 내용 | 전체 대화 대본 JSON 파일 첨부( 대화 대본으로 보강이 활성화되고 전체 대본 복사가 예로 설정된 경우). |
| 제안 작업 | 사용 가능한 경우 에이전트가 반환하고 해당 응답과 연결하는 제안된 작업의 JSON입니다. |
| Attachments | 사용 가능한 경우 에이전트가 반환하고 해당 응답과 연결하는 첨부 파일 배열의 JSON입니다. |
| 인용 | 생성된 답변의 경우 에이전트가 답변을 생성하는 데 사용하는 인용의 JSON 배열입니다( 대화 내용으로 보강 을 사용하도록 설정된 경우). |
대본 검토
대화록으로 보강하기를 활성화하고 전체 대화록 복사를 예로 설정하면, 테스트 결과에 전체 대화록이 포함됩니다. 테스트 결과를 분석할 때 함께 제공되는 시각화와 함께 JSON 형식의 자세한 대본 보기에 대한 대본 탭으로 이동합니다.
다중 턴 테스트 결과 분석
결과 보기에는 다른 테스트 유형과 함께 다중 턴 테스트가 표시됩니다. 결과 열에 전체 결과(성공 또는 실패)가 표시됩니다. 대화 ID 값을 선택하여 멀티턴 테스트의 세부 사항과 해당 테스트를 구성하는 하위 테스트 목록을 확인하세요.
다중 회전 테스트 결과의 상세 보기에서 개별 하위 테스트 결과를 확인하고, 그 세부 내용을 탐색할 수 있습니다. 다중 회전 테스트의 결과는 중요 표시된 하위 테스트의 결과에 좌우됩니다. 비중요 하위 테스트는 실패할 수 있으며 다중 회전 테스트 케이스는 다음 테스트 케이스로 진행됩니다. 중요한 하위 테스트 중 하나라도 실패하면, 해당 다중 회전에 대한 테스트 실행이 중단되고, 테스트가 실패로 표시됩니다. 모든 중요한 하위 테스트 성공하면 다중 회전 테스트의 결과는 성공입니다.
다중 회전 테스트 케이스는 생성 오케스트레이터에 정보를 제공하기 때문에 비임계 테스트를 포함할 수 있습니다. 테스트 사례에 대한 정확한 응답은 중요하지 않으며 다음의 중요한 테스트만 중요합니다.
다중 턴 테스트(및 다중 턴 테스트 결과)에는 응답 일치, 첨부 파일, 항목 일치, 생성 답변과 같은 일반적인 테스트 유형이 포함될 수 있습니다.