다음을 통해 공유


테스트 실행 및 결과 보기

[이 문서는 시험판 설명서이므로 변경될 수 있습니다.]

테스트 세트 결과를 활용하면 에이전트의 행동을 최적화하고 에이전트가 비즈니스 및 품질 요구사항을 충족하는지 검증할 수 있습니다. 에이전트를 개선하면서 여러 번 테스트 세트를 실행해 결과를 비교할 수도 있습니다.

테스트 결과는 Copilot Studio에서 89일간 확인할 수 있습니다. 테스트 결과를 더 오래 저장하려면 결과를 CSV 파일로 내보내 세요.

중요합니다

이 문서는 Microsoft Copilot Studio 프리뷰 설명서를 포함하며 변경될 수 있습니다.

미리 보기 기능은 프로덕션용이 아니며 기능이 제한되었을 수 있습니다. 이러한 기능은 공식 릴리스 이전에 제공되므로 사용자가 조기에 액세스하고 피드백을 제공할 수 있습니다.

프로덕션이 가능한 에이전트를 빌드하는 경우 Microsoft Copilot Studio 개요를 참조하세요.

테스트 집합 실행

테스트 세트를 만든 후에는 시간과 반복에 따른 결과를 비교 하기 위해 실행하거나 다시 실행할 수 있습니다. 검사는 몇 분까지 걸릴 수 있습니다. 한 번에 한 번에 한 번의 테스트를 할 수 있습니다.

중요합니다

사용자 인증을 사용하는 에이전트 평가는 Microsoft Copilot Studio 커넥터를 통해 접근해야 합니다. 관리자가 이 연결을 끄면 평가 도구를 사용해 테스트를 실행할 수 없습니다. 자세한 내용은 Copilot Studio 커넥터 및 데이터 그룹을 참조하세요.

  1. 에이전트의 평가 페이지로 가세요.

  2. 다음 작업 중 하나를 수행하여 테스트를 실행하세요:

    • 테스트 세트를 생성 하거나 편집 한 끝에 ' 평가'를 선택하세요.
    • 최근 결과 섹션에서는 다음 방법 중 하나를 통해 검사 결과를 평가할 수 있습니다:
      • 평가하려는 테스트 결과 위에 마우스를 올리고 세 개의 점을 선택한 후 다시 테스트 세트 평가를 선택하세요.
      • 테스트 결과를 선택해 열고, 평가 요약 창에서 세 개의 점(...)을 선택한 후 다시 테스트 세트 평가를 선택하세요.

    테스트 세트의 사용자 프로필에 연결이 끊겼거나 사용자 프로필이 없으면 연결 관리 대화 화면이 나타납니다. 테스트 시 사용자 프로필을 꼭 사용할 필요는 없습니다. 하지만 프로필을 사용한다면 모든 연결이 정상 작동해야 합니다. 연결 수정에 관한 정보는 사용자 프로필 및 연결 관리(Manage User Profiles and connections)를 참조하세요.

평가는 몇 분이 소요될 수 있습니다. 테스트 결과가 준비되면 Copilot Studio에 알림이 표시됩니다.

검사 결과를 자세히 살펴보세요

테스트 집합을 사용하여 평가를 실행할 때마다 Copilot Studio:

  1. 연결된 사용자 계정을 사용하여 에이전트와의 대화를 시뮬레이션하고 테스트 사례의 각 질문을 에이전트에 보냅니다.

  2. 에이전트의 응답을 수집합니다.

  3. 각 대응의 성공 여부를 측정하고 분석합니다. 각 테스트 사례는 테스트 사례의 기준에 따라 통과 또는 실패를 받습니다.

  4. 테스트 집합의 통과/율에 따라 통과율 점수를 할당합니다.

각 테스트 세트의 합격률 은 에이전트의 평가 페이지, 최근 결과에서 확인할 수 있습니다. 더 많은 테스트 집합 실행을 보려면 모두 보기를 선택합니다.

이전 평가 목록을 보여 주는 스크린샷

테스트 케이스에 대한 자세한 분석을 참조하세요

테스트 결과를 열면 테스트 실행 내역, 테스트에서 사용된 쿼리 목록, 에이전트의 응답 방식, 합격 또는 불합 격 점수를 볼 수 있습니다.

목록에서 테스트 케이스를 선택하여 각 응답에 대한 상세한 평가를 확인할 수 있습니다.

완료된 평가 내의 테스트 사례 목록을 보여 주는 스크린샷

평가에는 예상 및 실제 반응, 검사 결과의 근거, 그리고 대리인이 대응하기 위해 사용한 지식, 주제, 도구들이 포함됩니다.

인용된 지식이나 주제를 선택해 열어보세요.

테스트 사례의 자세한 결과 및 평가를 보여 주는 스크린샷.

검사 결과 비교하기

한 버전의 에이전트를 테스트해 변경 전후의 성능 변화를 확인하는 것이 좋습니다. 같은 테스트 세트의 두 번의 실행을 비교하려면 비교 도구를 사용할 수 있습니다.

비교를 보려면 같은 테스트 세트를 최소 두 번 실행해야 합니다.

  1. 에이전트의 평가 페이지에서 비교 기준으로 사용할 테스트 실행을 최근테스트 결과에서 열어보세요.

  2. ' 비교 드 롭다운'을 선택한 후, 현재 열린 테스트 결과와 비교하고 싶은 테스트 실행 시간과 날짜를 선택하세요.

Compare with 드롭다운을 보여주는 스크린샷입니다.

테스트 케이스 목록에서는 화살표가 실패에서 통과 로 바뀌어 개선되었거나, 통과에서 실패로 변경되어 감소한 테스트 케이스 결과를 나타냅니다.

테스트 케이스를 선택하여 자세한 내용을 확인하세요. 평가 요약 창에서는 현재 테스트 실행 결과가 상단에 표시되어 있는 테스트 점수를 직접 비교할 수 있습니다.

두 테스트 세트의 비교 결과를 보여주는 스크린샷입니다.

테스트 결과 내보내기

테스트 결과는 CSV 파일로 내보낼 수 있습니다. 파일에는 각 테스트 케이스에 대한 질문, 예상 응답(해당되는 경우), 테스트 방법, 합격 점수(해당되는 경우), 에이전트의 응답, 테스트 결과, 분석 등이 나열되어 있습니다.

  1. 에이전트의 평가 페이지로 가세요.
  2. 최근 결과 섹션에서는 다음 방법 중 하나를 통해 테스트 결과를 내보낼 수 있습니다:
    • 내보내고 싶은 테스트 케이스 위에 마우스를 올리고, 세 개의 점을 선택한 후 '테스트 결과 내보내기'를 선택하세요.
    • 테스트 케이스를 선택해 열고, 평가 요약 창에서 세 개의 점(...)을 선택한 후 테스트 결과 내보내기를 선택하세요.

테스트 결과는 테스트 세트 이름 이.csv때 다운로드됩니다.