이 페이지에서는 벤치마크를 사용하여 지니 공간의 정확도를 평가하는 방법을 설명합니다.
개요
벤치마크를 사용하면 Genie의 전반적인 응답 정확도를 평가하기 위해 실행할 수 있는 테스트 질문 집합을 만들 수 있습니다. 가장 자주 묻는 사용자 질문을 다루는 잘 설계된 벤치마크 집합은 지니 공간을 다듬을 때 그 정확도를 평가하는 데 도움이 됩니다. 각 지니 공간에는 최대 500개의 벤치마크 질문이 포함될 수 있습니다.
벤치마크 질문은 새 대화로 실행됩니다. Genie 대화 스레드와 동일한 맥락을 가지고 있지 않습니다. 각 질문은 제공된 예제 SQL 및 SQL 함수를 포함하여 공간에 정의된 지침을 사용하여 새 쿼리로 처리됩니다.
벤치마크 질문 추가
벤치마크 질문은 사용자가 묻는 일반적인 질문을 관용구로 사용하는 다양한 방법을 반영해야 합니다. 이를 사용하여 질문 구문 또는 다른 질문 형식의 변형에 대한 Genie의 응답을 확인할 수 있습니다.
벤치마크 질문을 만들 때 선택적으로 결과 집합이 정답인 SQL 쿼리를 포함할 수 있습니다. 벤치마크를 실행하는 동안 SQL 쿼리의 결과 집합과 Genie에서 생성된 결과 집합을 비교하여 정확도를 평가합니다. 또한 벤치마크에 대한 골드 표준 답변으로 Unity 카탈로그 SQL 함수를 사용할 수 있습니다.
벤치마크 질문을 추가하려면 다음을 수행합니다.
지니 공간 위쪽에서 벤치마크를 클릭합니다.
벤치마크 추가를 클릭합니다.
질문 필드에 테스트할 벤치마크 질문을 입력합니다.
(선택 사항) 질문에 대답하는 SQL 쿼리를 제공합니다. Unity 카탈로그 SQL 함수를 포함하여 SQL Answer 텍스트 필드에 입력하여 사용자 고유의 쿼리를 작성할 수 있습니다. 또는 Genie가 SQL 쿼리를 작성하도록 SQL 생성을 클릭합니다. 입력한 질문에 정확하게 대답하는 SQL 문을 사용합니다.
참고
이 단계는 권장됩니다. 이 예제 SQL 문을 포함하는 질문만 정확도를 자동으로 평가할 수 있습니다. SQL 답변이 포함되지 않은 모든 질문은 점수를 매기기 위해 수동 검토가 필요합니다. SQL 생성 단추를 사용하는 경우 문을 검토하여 질문에 정확하게 답하고 있는지 확인합니다.
(선택 사항) 실행 클릭하여 쿼리를 실행하고 결과를 봅니다.
편집을 마쳤으면 벤치마크 추가를 클릭합니다.
저장한 후 질문을 업데이트하려면
연필 아이콘을 클릭하여 업데이트 질문 대화 상자를 엽니다.
벤치마크를 사용하여 대체 질문 구문 테스트
Genie 공간의 정확도를 평가할 때 실제 시나리오를 반영하도록 테스트를 구성하는 것이 중요합니다. 사용자는 다른 방법으로 동일한 질문을 할 수 있습니다. Databricks는 동일한 질문의 여러 구문을 추가하고 벤치마크 테스트에서 동일한 예제 SQL을 사용하여 정확도를 완전히 평가하는 것이 좋습니다. 대부분의 지니 공간에는 동일한 질문의 2~4개 구문이 포함되어야 합니다.
벤치마크 질문 실행
Genie 공간에서 CAN EDIT 권한이 있는 사용자는 언제든지 벤치마크 평가를 실행할 수 있습니다. 모든 벤치마크 질문을 실행하거나 테스트할 질문의 하위 집합을 선택할 수 있습니다.
각 질문에 대해 Genie는 입력을 해석하고 SQL을 생성하며 결과를 반환합니다. 생성된 SQL 및 결과는 벤치마크 질문에 정의된 SQL 답변 과 비교됩니다.
모든 벤치마크 질문을 실행하려면 다음을 수행합니다.
- 지니 공간 위쪽에서 벤치마크를 클릭합니다.
- 벤치마크 실행을 클릭하여 테스트 실행을 시작합니다.
벤치마크 질문의 하위 집합을 실행하려면 다음을 수행합니다.
- 지니 공간 위쪽에서 벤치마크를 클릭합니다.
- 테스트하려는 질문 옆에 있는 확인란을 선택합니다.
- 선택한 실행을 클릭하여 선택한 질문에 대한 테스트 실행을 시작합니다.
이전 벤치마크 결과에서 질문의 하위 집합을 선택하고 해당 특정 질문을 다시 실행하여 개선 사항을 테스트할 수도 있습니다.
페이지에서 벗어나면 벤치마크가 계속 실행됩니다. 실행이 완료되면 평가 탭에서 결과를 확인할 수 있습니다.
등급 해석
다음 기준에 따라 Genie 응답의 등급이 결정됩니다.
| Condition | Rating |
|---|---|
| Genie는 제공된 SQL 답변과 정확히 일치하는 SQL을 생성합니다. | 좋다 |
| Genie는 SQL Answer에서 생성한 결과 집합과 정확히 일치하는 결과 집합을 생성합니다. | 좋다 |
| Genie는 SQL Answer 와 동일한 데이터를 사용하여 결과 집합을 생성하지만 다르게 정렬됩니다. | 좋다 |
| Genie는 SQL Answer와 동일한 4개의 유효 자릿수로 반올림되는 숫자 값으로 결과 집합을 생성합니다. | 좋다 |
| Genie는 빈 결과 집합을 생성하거나 오류를 반환하는 SQL을 생성합니다. | 나쁘다 |
| Genie는 SQL Answer에서 생성된 결과 집합과 비교하여 추가 열을 포함하는 결과 집합을 생성합니다. | 나쁘다 |
| Genie는 SQL Answer에서 생성된 단일 셀 결과와 다른 단일 셀 결과를 생성합니다. | 나쁘다 |
수동 검토 필요: Genie가 정확성을 평가할 수 없거나 Genie에서 생성된 쿼리 결과에 제공된 SQL Answer의 결과와 정확히 일치하지 않는 경우 응답이 이 레이블로 표시됩니다. SQL 답변이 포함되지 않은 벤치마크 질문은 수동으로 검토해야 합니다.
벤치마크 평가에 액세스하기
모든 벤치마크 평가에 액세스하여 시간 경과에 따른 Genie 공간의 정확도를 추적할 수 있습니다. 공간의 벤치마크를 열면 평가 탭에 타임스탬프가 지정된 평가 실행 목록이 표시됩니다. 평가 실행이 없으면 벤치마크 질문 추가 또는 벤치마크 질문 실행을 참조하세요.
평가 탭에는 다음 범주에 보고된 평가 및 성능에 대한 개요가 표시됩니다.
평가 이름: 평가 실행이 발생한 시기를 나타내는 타임스탬프입니다. 타임스탬프를 클릭하여 해당 평가에 대한 세부 정보를 확인합니다. 실행 상태: 평가가 완료, 일시 중지 또는 실패했는지 여부를 나타냅니다. 평가 실행에 미리 정의된 SQL 답변이 없는 벤치마크 질문이 포함된 경우 이 열에서 검토용으로 표시됩니다. 정확도: 모든 벤치마크 질문에 대한 정확도의 숫자 평가입니다. 수동 검토가 필요한 평가 실행의 경우 해당 질문을 검토한 후에만 정확도 측정값이 나타납니다. 작성자: 평가를 실행한 사용자의 이름을 나타냅니다.
개별 평가 검토
개별 평가를 검토하여 각 응답을 자세히 살펴볼 수 있습니다. 질문에 대한 평가를 편집하고 수동 검토가 필요한 항목을 업데이트할 수 있습니다.
개별 평가를 검토하려면 다음을 수행합니다.
지니 공간 위쪽에서 벤치마크를 클릭합니다.
평가 이름 열에서 평가의 타임스탬프를 클릭하면 해당 테스트 실행에 대한 자세한 보기가 열립니다.
화면 왼쪽의 질문 목록을 사용하여 각 질문에 대한 자세한 보기를 볼 수 있습니다.
모델 출력 응답을 검토하고 실측 자료 응답과 비교합니다.
잘못된 것으로 평가된 결과의 경우 결과가 잘못된 것으로 평가된 이유를 설명하는 설명이 나타납니다. 이렇게 하면 생성된 출력과 예상된 지상 진리 간의 특정 차이점을 이해할 수 있습니다.
참고
이러한 응답의 결과는 1주일 동안 평가 세부 정보에 표시됩니다. 1주일 후에는 결과가 더 이상 표시되지 않습니다. 생성된 SQL 문과 예제 SQL 문이 남아 있습니다.
기준 데이터 업데이트를 클릭하여 응답을 이 질문에 대한 새로운 기준 데이터로 저장합니다. 이것은 지상 진실이 존재하지 않거나 응답이 기존 지상 진리 진술보다 더 낫거나 더 정확한 경우에 유용합니다.
레이블에서
을 클릭하여 평가를 편집합니다.각 결과를 Good 또는 Bad 표시하여 이 평가에 대한 정확한 점수를 얻습니다.