모델의 성능을 수동으로 평가
생성형 AI 앱 개발의 초기 단계에서는 신속하게 실험하고 반복하려고 할 것입니다. 프롬프트 흐름을 사용하여 만든 선택한 언어 모델 및 앱이 요구 사항을 충족하는지 쉽게 평가하려면 Microsoft Foundry 포털에서 모델 및 흐름을 수동으로 평가할 수 있습니다.
모델과 앱이 이미 프로덕션에 들어갔더라도 수동 평가는 성능 평가의 중요한 부분입니다. 수동 평가는 사람이 수행하므로 자동화된 메트릭에서는 놓칠 수 있는 인사이트를 제공할 수 있습니다.
Microsoft Foundry 포털에서 선택한 모델 및 앱을 수동으로 평가하는 방법을 살펴보겠습니다.
테스트 프롬프트 준비
수동 평가 프로세스를 시작하려면 앱이 처리해야 할 질문과 작업 범위를 반영하는 다양한 테스트 프롬프트 집합을 준비하는 것이 필수적입니다. 이러한 프롬프트에는 일반적인 사용자 질문, 예외 사례, 잠재적인 실패 지점을 포함한 다양한 시나리오가 포함되어야 합니다. 이렇게 하면 앱의 성능을 종합적으로 평가하고 개선이 필요한 분야를 파악할 수 있습니다.
채팅 플레이그라운드에서 선택된 모델 테스트
채팅 애플리케이션을 개발하는 경우 언어 모델을 사용하여 응답을 생성합니다. 여러 언어 모델을 사용하여 궁극적으로 사용자 질문에 대한 응답을 생성할 수 있는 채팅 애플리케이션의 논리를 캡슐화하는 프롬프트 흐름을 개발하여 채팅 애플리케이션을 만듭니다.
앱의 응답을 테스트하기 전에 선택한 언어 모델의 응답을 테스트하여 개별 모델이 예상대로 작동하는지 확인할 수 있습니다. 채팅 플레이그라운드에서 상호 작용하여 Microsoft Foundry 포털에서 배포한 모델을 테스트할 수 있습니다.
채팅 플레이그라운드는 초기 개발에 이상적입니다. 프롬프트를 입력하고 모델이 어떻게 반응하는지 확인하고 프롬프트나 시스템 메시지를 조정하여 개선할 수 있습니다. 변경 내용을 적용한 후에는 프롬프트를 다시 테스트하여 모델 성능이 실제로 개선되었는지 평가할 수 있습니다.
수동 평가로 여러 프롬프트 평가
채팅 플레이그라운드는 시작 쉬운 방법입니다. 여러 개의 프롬프트를 더욱 빠르게 수동으로 평가하려면 수동 평가 기능을 사용하면 됩니다. 이 기능을 사용하면 여러 질문이 있는 데이터 세트를 업로드하고, 선택적으로 예상 응답을 추가하여 더 큰 테스트 데이터 세트에서 모델의 성능을 평가할 수 있습니다.
모델의 응답을 '좋아요' 또는 '싫어요' 기능으로 평가할 수 있습니다. 전반적인 평가에 따라 입력 프롬프트, 시스템 메시지, 모델 또는 모델 매개 변수를 변경하여 모델을 개선해 볼 수 있습니다.
수동 평가를 사용하면 다양한 테스트 데이터 세트를 기반으로 모델의 성능을 보다 신속하게 평가하고 테스트 결과에 따라 모델을 개선할 수 있습니다.
개별 모델을 수동으로 평가한 후, 프롬프트 흐름을 통해 해당 모델을 채팅 애플리케이션에 통합할 수 있습니다. 프롬프트 흐름을 사용하여 만든 모든 흐름은 수동이나 자동으로 평가할 수도 있습니다. 다음으로 흐름의 평가를 살펴보겠습니다.