모델 성능 평가
모델의 효율성과 안정성을 보장하기 위해서는 다양한 단계에서 모델의 성능을 평가하는 것이 중요합니다. 모델을 평가해야 하는 다양한 옵션을 살펴보기 전에 평가할 수 있는 애플리케이션의 측면을 살펴보겠습니다.
생성형 AI 앱 개발 시 채팅 애플리케이션에서 언어 모델을 사용하여 응답을 생성합니다. 애플리케이션에 통합할 모델을 결정하는 데 도움이 되도록 개별 언어 모델의 성능을 평가할 수 있습니다.
입력(1)은 언어 모델(2)에 제공되며 응답은 출력(3)으로 생성됩니다. 그런 다음 입력, 출력을 분석하고 선택적으로 미리 정의된 예상 출력과 비교하여 모델을 평가합니다.
생성 AI 앱을 개발할 때 언어 모델을 채팅 흐름에 통합할 수 있습니다.
채팅 흐름을 사용하면 여러 언어 모델과 Python 코드를 결합할 수 있는 실행 가능한 흐름을 오케스트레이션할 수 있습니다. 흐름은 입력(1)을 예상하고, 다양한 노드(2)를 실행하여 처리하고, 출력(3)을 생성합니다. 전체 채팅 흐름 및 개별 구성 요소를 평가할 수 있습니다.
솔루션을 평가할 때 개별 모델 테스트를 시작하고 최종적으로 전체 채팅 흐름을 테스트하여 생성형 AI 앱에서 예상대로 작동하는지 확인할 수 있습니다.
모델 및 채팅 흐름 또는 생성형 AI 앱 평가에 대한 몇 가지 방법을 살펴보겠습니다.
모델 기준
모델 벤치마크는 모델 및 데이터 세트 간에 공개적으로 사용할 수 있는 메트릭입니다. 이러한 벤치마크는 모델이 다른 모델을 기준으로 수행하는 방식을 이해하는 데 도움이 됩니다. 일반적으로 사용되는 벤치마크는 다음과 같습니다.
- 정확도: 모델 생성 텍스트를 데이터 세트에 따라 정답과 비교합니다. 생성된 텍스트가 응답과 정확히 일치하는 경우 결과는 1이고, 그렇지 않으면 0입니다.
- 일관성: 모델 출력이 매끄럽게 흐르고, 자연스럽게 읽히며, 인간과 유사한 언어와 유사한지 여부를 측정합니다.
- 유창성: 생성된 텍스트가 문법 규칙, 구문 구조 및 어휘의 적절한 사용을 얼마나 잘 준수하는지 평가하여 언어적으로 정확하고 자연스러운 응답을 생성합니다.
- GPT 유사성: 지상 진리 문장(또는 문서)과 AI 모델에서 생성된 예측 문장 간의 의미 체계 유사성을 정량화합니다.
Microsoft Foundry 포털에서 모델을 배포하기 전에 사용 가능한 모든 모델에 대한 모델 벤치마크를 탐색할 수 있습니다.
수동 평가
수동 평가에는 모델 응답의 품질을 평가하는 사람이 포함됩니다. 이 방법은 컨텍스트 관련성 및 사용자 만족도와 같이 자동화된 메트릭이 놓칠 수 있는 측면에 대한 인사이트를 제공합니다. 인간 평가자는 관련성, 정보 제공 및 참여와 같은 기준에 따라 응답을 평가할 수 있습니다.
AI 지원 메트릭
AI 지원 메트릭은 고급 기술을 사용하여 모델 성능을 평가합니다. 이러한 메트릭에는 다음이 포함될 수 있습니다.
생성 품질 메트릭: 이러한 메트릭은 창의성, 일관성 및 원하는 스타일 또는 톤 준수와 같은 요소를 고려하여 생성된 텍스트의 전반적인 품질을 평가합니다.
위험 및 안전 메트릭: 이러한 메트릭은 모델의 출력과 관련된 잠재적 위험 및 안전 문제를 평가합니다. 모델이 유해하거나 편향된 콘텐츠를 생성하지 않도록 합니다.
자연어 처리 메트릭
NLP(자연어 처리) 메트릭도 모델 성능을 평가하는 데 유용합니다. 이러한 지표 중 하나는 F1 점수로, 생성된 답변과 실측 자료 답변 간에 공유된 단어 수의 비율을 측정합니다. F1 점수는 정밀도 및 회수가 중요한 텍스트 분류 및 정보 검색과 같은 작업에 유용합니다. 다른 일반적인 NLP 메트릭은 다음과 같습니다.
- BLEU: BLEU(Bilingual Evaluation Understudy) 메트릭
- METEOR: 명시적 순서를 사용하여 번역 평가 메트릭
- ROUGE: ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
이러한 모든 메트릭은 모델 생성 응답의 겹침 수준과 지상 진리(예상 응답)를 정량화하는 데 사용됩니다.