Zautomatyzowane oceny
Zautomatyzowane oceny w portalu Microsoft Foundry umożliwiają ocenę jakości i bezpieczeństwa zawartości modeli, zestawów danych lub przepływów monitów.
Dane do ewaluacji
Aby ocenić model, potrzebujesz zestawu danych podpowiedzi i odpowiedzi (a opcjonalnie oczekiwanych odpowiedzi jako "rzeczywista prawda"). Ten zestaw danych można skompilować ręcznie lub użyć danych wyjściowych z istniejącej aplikacji; ale przydatnym sposobem rozpoczęcia pracy jest użycie modelu AI w celu wygenerowania zestawu monitów i odpowiedzi związanych z określonym tematem. Następnie możesz edytować wygenerowane monity i odpowiedzi, aby odzwierciedlić żądane dane wyjściowe, i użyć ich jako punktu odniesienia do oceny odpowiedzi z innego modelu.
Metryki oceny
Automatyczna ocena umożliwia wybór ewaluatorów, których chcesz, aby oceniali odpowiedzi modelu, oraz określenie metryk, które ci ewaluatorzy powinni obliczać. Istnieją ewaluatory, które ułatwiają mierzenie:
- Jakość sztucznej inteligencji: jakość odpowiedzi modelu jest mierzona przy użyciu modeli sztucznej inteligencji w celu oceny ich pod kątem metryk, takich jak spójność i istotność , oraz używanie standardowych metryk NLP, takich jak wynik F1, BLEU, METEOR i ROUGE na podstawie prawdy podstawowej (w postaci oczekiwanego tekstu odpowiedzi)
- Ryzyko i bezpieczeństwo: ewaluatorzy, którzy oceniają odpowiedzi dotyczące kwestii bezpieczeństwa treści, w tym przemocy, nienawiści, treści seksualnych i treści związanych z samookaleczeniami.