Udostępnij przez


Ulepszanie testowania agenta za pomocą zestawu Copilot Studio Kit

Zestaw Power CAT Copilot Studio Kit to przyjazna dla użytkownika aplikacja, która umożliwia weryfikowanie odpowiedzi agenta. Obejmuje również natywne funkcje, takie jak eksportowanie i importowanie programu Excel na potrzeby tworzenia i aktualizacji zbiorczych.

Konfigurowanie, uruchamianie i analizowanie

Skonfiguruj i uruchom testy przeciwko interfejsom API Copilot Studio (API Direct Line), aby ocenić odpowiedzi agenta w porównaniu z oczekiwanymi wynikami.

Aby wzbogacić wyniki, pobierz dodatkowe punkty danych z usług takich jak Azure Application Insights i Dataverse, analizując zapisy transkrypcji rozmów (na przykład dokładne nazwy wywołanych tematów i wyniki rozpoznawania intencji).

W przypadku odpowiedzi generowanych przez sztuczną inteligencję, które są z natury niedeterministyczne, użyj monitów, aby porównać wygenerowaną odpowiedź z przykładową odpowiedzią lub instrukcjami walidacji.

Diagram przedstawiający składniki platformy Azure i platformy Power Platform związane z testowaniem i analizą interfejsów API direct line programu Copilot Studio, w tym usług Azure Application Insights, AI Builder i Dataverse.

Typy testów

Narzędzie obsługuje następujące typy testów:

  • Dopasowanie odpowiedzi
  • Załączniki, takie jak karty adaptacyjne
  • Dopasowanie tematu (wymaga usługi Dataverse)
  • Generowanie odpowiedzi (wymaga narzędzia AI Builder do analizy odpowiedzi i usługi Application Insights, aby uzyskać szczegółowe informacje o tym, dlaczego nie wygenerowano odpowiedzi)
  • Typ testu wielozmianowego to specjalny typ testu. Składa się z zestawu przypadków testowych zwykłych typów uruchamianych w określonej kolejności w tym samym kontekście konwersacji. Testy wielozadaniowe służą do testowania scenariuszy od początku do końca, oraz do testowania agentów niestandardowych przy użyciu generatywnej orkiestracji.
  • Walidacja planu umożliwia twórcom sprawdzenie, czy ich agenty niestandardowe korzystające z generatywnej orkiestracji zawierają oczekiwane narzędzia. Zamiast oceniać, co mówi agent, ten typ testu sprawdza, czy plan dynamiczny agenta obejmuje oczekiwane narzędzia (narzędzia, akcje i połączonych agentów) do wstępnie określonego progu.

Dowiedz się więcej o typach testów w temacie Konfigurowanie testów w zestawie Copilot Studio.

Zrzut ekranu przedstawiający szczegóły wyniku przebiegu testu, w tym grafikę przedstawiającą współczynnik powodzenia i opóźnienie dla wszystkich przebiegów testów.

Następny krok