Zautomatyzowane oceny

Ukończone

Zautomatyzowane oceny w portalu Microsoft Foundry umożliwiają ocenę jakości i bezpieczeństwa zawartości modeli, zestawów danych lub przepływów monitów.

Dane do ewaluacji

Aby ocenić model, potrzebujesz zestawu danych podpowiedzi i odpowiedzi (a opcjonalnie oczekiwanych odpowiedzi jako "rzeczywista prawda"). Ten zestaw danych można skompilować ręcznie lub użyć danych wyjściowych z istniejącej aplikacji; ale przydatnym sposobem rozpoczęcia pracy jest użycie modelu AI w celu wygenerowania zestawu monitów i odpowiedzi związanych z określonym tematem. Następnie możesz edytować wygenerowane monity i odpowiedzi, aby odzwierciedlić żądane dane wyjściowe, i użyć ich jako punktu odniesienia do oceny odpowiedzi z innego modelu.

Zrzut ekranu przedstawiający dane ewaluacyjne generowane przez sztuczną inteligencję.

Metryki oceny

Automatyczna ocena umożliwia wybór ewaluatorów, których chcesz, aby oceniali odpowiedzi modelu, oraz określenie metryk, które ci ewaluatorzy powinni obliczać. Istnieją ewaluatory, które ułatwiają mierzenie:

  • Jakość sztucznej inteligencji: jakość odpowiedzi modelu jest mierzona przy użyciu modeli sztucznej inteligencji w celu oceny ich pod kątem metryk, takich jak spójność i istotność , oraz używanie standardowych metryk NLP, takich jak wynik F1, BLEU, METEOR i ROUGE na podstawie prawdy podstawowej (w postaci oczekiwanego tekstu odpowiedzi)
  • Ryzyko i bezpieczeństwo: ewaluatorzy, którzy oceniają odpowiedzi dotyczące kwestii bezpieczeństwa treści, w tym przemocy, nienawiści, treści seksualnych i treści związanych z samookaleczeniami.