Obserwowalność w generatywnej sztucznej inteligencji

Uwaga / Notatka

Ten dokument odnosi się do portalu Microsoft Foundry (klasycznego).

🔄 Przejdź do dokumentacji Microsoft Foundry (nowej), jeśli korzystasz z nowego portalu.

Uwaga / Notatka

Ten dokument odnosi się do portalu Microsoft Foundry (nowy).

Ważne

Elementy oznaczone jako (wersja zapoznawcza) w tym artykule są aktualnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

W dzisiejszym świecie opartym na sztucznej inteligencji operacje generowania sztucznej inteligencji (GenAIOps) rewolucjonizują sposób tworzenia i wdrażania inteligentnych systemów przez organizacje. Ponieważ firmy coraz częściej używają agentów i aplikacji sztucznej inteligencji do przekształcania podejmowania decyzji, ulepszania środowisk klientów i innowacji paliwowych, jeden element ma kluczowe znaczenie: solidne struktury oceny. Ocena nie jest tylko punktem kontrolnym. Jest to podstawa jakości i zaufania do aplikacji sztucznej inteligencji. Bez rygorystycznej oceny i monitorowania systemy sztucznej inteligencji mogą tworzyć zawartość:

Wymyślone lub oderwane od rzeczywistości
Nieistotne lub niespójne
Szkodliwe w utrwalaniu zagrożeń i stereotypów dotyczących zawartości
Niebezpieczne w rozprzestrzenianiu dezinformacji
Luki w zabezpieczeniach

Jest to miejsce, w którym obserwacja staje się niezbędna. Te możliwości mierzą zarówno częstotliwość, jak i dotkliwość zagrożeń w danych wyjściowych sztucznej inteligencji, umożliwiając zespołom systematyczne rozwiązywanie problemów z jakością, bezpieczeństwem i ochroną w całym procesie tworzenia AI — od wybrania odpowiedniego modelu do monitorowania wydajności, jakości i bezpieczeństwa produkcyjnych.

Co to jest obserwowanie?

Możliwość obserwowania sztucznej inteligencji odnosi się do możliwości monitorowania, zrozumienia i rozwiązywania problemów z systemami sztucznej inteligencji w całym cyklu życia. Obejmuje zbieranie i analizowanie sygnałów, takich jak metryki oceny, dzienniki, ślady i dane wyjściowe modelu i agenta w celu uzyskania wglądu w wydajność, jakość, bezpieczeństwo i kondycję operacyjną.

Co to są ewaluatory?

Ewaluatorzy to wyspecjalizowane narzędzia, które mierzą jakość, bezpieczeństwo i niezawodność odpowiedzi sztucznej inteligencji. Wdrażając systematyczne oceny w całym cyklu projektowania sztucznej inteligencji, zespoły mogą identyfikować i rozwiązywać potencjalne problemy, zanim będą miały wpływ na użytkowników. Następujące obsługiwane ewaluatory zapewniają kompleksowe możliwości oceny w różnych typach aplikacji sztucznej inteligencji i problemach:

Ogólne przeznaczenie

Oceniacz	Przeznaczenie	Dane wejściowe
Spójność	Mierzy spójność logiczną i przepływ odpowiedzi.	Zapytanie, odpowiedź
Płynność	Mierzy jakość i czytelność języka naturalnego.	Odpowiedź
QA	Mierzy kompleksowo różne aspekty jakości w odpowiedzi na pytania.	Zapytanie, kontekst, odpowiedź, prawda naziemna

Aby dowiedzieć się więcej, zobacz Ewaluatory ogólnego przeznaczenia.

Podobieństwo tekstowe

Oceniacz	Przeznaczenie	Dane wejściowe
Podobieństwo	Pomiar podobieństwa tekstowego wspomaganego przez sztuczną inteligencję.	Zapytanie, kontekst, prawda podstawy
Wynik F1	Średnia harmoniczna precyzji i kompletności w tokenie nakłada się między odpowiedzią a prawem podstawy.	Odpowiedź, prawda naziemna
BLEU	Wynik BLEU dla miar jakości tłumaczenia mierzy nakładanie się n-gramów między odpowiedzią a wynikiem referencyjnym.	Odpowiedź, prawda naziemna
GLEU	Google-BLEU wariant oceny na poziomie zdania mierzy nakładanie się n-gramów między odpowiedzią a rzeczywistą wartością referencyjną.	Odpowiedź, prawda naziemna
ROUGE	Recall-Oriented Zastępstwo dla oceny zrozumienia ogólnego mierzy nakładanie się n-gramów między odpowiedzią a prawdą referencyjną.	Odpowiedź, prawda naziemna
METEOR	Metryka oceny tłumaczenia z jawnym porządkowaniem mierzy nakładanie się n-gramów między odpowiedzią a prawdą referencyjną.	Odpowiedź, prawda naziemna

Aby dowiedzieć się więcej, zobacz Textual similarity evaluators (Osoby ewaluacyjne podobieństwa tekstowe)

RAG (pobieranie rozszerzonej generacji)

Oceniacz	Przeznaczenie	Dane wejściowe
Odzyskiwanie	Mierzy sposób efektywnego pobierania istotnych informacji przez system.	Zapytanie, kontekst
Pobieranie dokumentu (wersja zapoznawcza)	Mierzy dokładność wyników wyszukiwania, biorąc pod uwagę prawdę gruntową.	Prawdziwe dane, odzyskane dokumenty
Uziemienie	Mierzy, jak spójna jest odpowiedź w odniesieniu do pobranego kontekstu.	Zapytanie (opcjonalne), kontekst, odpowiedź
Groundedness Pro (wersja zapoznawcza)	Mierzy, czy odpowiedź jest zgodna z kontekstem pobranym.	Zapytanie, kontekst, odpowiedź
Znaczenie	Mierzy, jak odpowiednia jest odpowiedź w odniesieniu do zapytania.	Zapytanie, odpowiedź
Kompletność odpowiedzi (wersja zapoznawcza)	Mierzy, w jakim stopniu odpowiedź jest kompletna (nie brakuje kluczowych informacji) w odniesieniu do podstawowej prawdy.	Odpowiedź, prawda naziemna

Aby dowiedzieć się więcej, zobacz Retrieval-augmented Generation (RAG) evaluators (Retrieval-augmented Generation) evaluators (RAG).

Bezpieczeństwo i zabezpieczenia (wersja zapoznawcza)

Oceniacz	Przeznaczenie	Dane wejściowe
Nienawiść i niesprawiedliwość	Identyfikuje stronniczą, dyskryminującą lub nienawistną zawartość.	Zapytanie, odpowiedź
Seksualny	Identyfikuje nieodpowiednią zawartość seksualną.	Zapytanie, odpowiedź
Przemoc	Wykrywa brutalne treści lub podżeganie.	Zapytanie, odpowiedź
Samookaleczenia	Wykrywa zawartość promującą i opisującą samookaleczanie.	Zapytanie, odpowiedź
Bezpieczeństwo zawartości	Kompleksowa ocena różnych kwestii związanych z bezpieczeństwem.	Zapytanie, odpowiedź
Materiały chronione	Wykrywa nieautoryzowane użycie praw autorskich lub chronionych treści.	Zapytanie, odpowiedź
Luka w zabezpieczeniach dotycząca kodu	Identyfikuje problemy z zabezpieczeniami w wygenerowanych kodzie.	Zapytanie, odpowiedź
Nieuzasadnione atrybuty	Wykrywa sprośne lub halucynowane informacje wywnioskowane z interakcji użytkownika.	Zapytanie, kontekst, odpowiedź

Aby dowiedzieć się więcej, zobacz Risk and safety evaluators (Osoby ewaluacyjne dotyczące ryzyka i bezpieczeństwa).

Agenci (wersja zapoznawcza)

Oceniacz	Przeznaczenie	Dane wejściowe
Rozwiązywanie intencji	Mierzy, jak dokładnie agent identyfikuje intencje użytkownika i adresuje je.	Zapytanie, odpowiedź
Zgodność zadania	Mierzy, jak dobrze agent realizuje zidentyfikowane zadania.	Zapytanie, odpowiedź, definicje narzędzi (opcjonalnie)
Dokładność wywołań narzędzi	Mierzy, jak dobrze agent wybiera i wywołuje odpowiednie narzędzia.	Wykonywanie zapytań, wywołań odpowiedzi lub narzędzi, definicji narzędzi

Oceniacz	Przeznaczenie	Dane wejściowe
Zgodność zadania	Sprawdza, czy agent realizuje określone zadania zgodnie z instrukcjami systemowymi.	Zapytania, odpowiedź, definicje narzędzi (opcjonalnie)
Ukończenie zadania	Mierzy, czy agent pomyślnie zakończył zakończenie żądanego zadania.	Zapytania, odpowiedź, definicje narzędzi (opcjonalnie)
Rozwiązywanie intencji	Mierzy, jak dokładnie agent identyfikuje intencje użytkownika i adresuje je.	Zapytania, odpowiedź, definicje narzędzi (opcjonalnie)
Efektywność nawigacji w zadaniach	Określa, czy sekwencja kroków agenta jest zgodna z optymalną lub oczekiwaną ścieżką do mierzenia wydajności.	Odpowiedź, prawda naziemna
Dokładność wywołań narzędzi	Mierzy ogólną jakość wywołań narzędzi, w tym wybór, poprawność parametrów i wydajność.	Zapytanie, definicje narzędzi, wywołania narzędzi (opcjonalnie), odpowiedź
Wybór narzędzia	Mierzy, czy agent wybrał najbardziej odpowiednie i wydajne narzędzia dla zadania.	Zapytanie, definicje narzędzi, wywołania narzędzi (opcjonalnie), odpowiedź
Dokładność danych wejściowych narzędzi	Sprawdza, czy wszystkie parametry wywołania narzędzia są poprawne z rygorystycznymi kryteriami, takimi jak uziemienia, typ, format, kompletność i odpowiedniość.	Zapytania, odpowiedź, definicje narzędzi
Wykorzystanie wyników narzędzia	Mierzy, czy agent prawidłowo interpretuje i używa danych wyjściowych narzędzia kontekstowo w odpowiedziach i kolejnych wywołaniach.	Zapytania, odpowiedź, definicje narzędzi (opcjonalnie)
Powodzenie wywołania narzędzia	Ocenia, czy wszystkie wywołania narzędzi zostały wykonane pomyślnie bez błędów technicznych.	Odpowiedź, definicje narzędzi (opcjonalnie)

Aby dowiedzieć się więcej, zobacz Ewaluatory agentów.

Klasyfikatory usługi Azure OpenAI (wersja zapoznawcza)

Oceniacz	Przeznaczenie	Dane wejściowe
Etykietka modelu	Klasyfikuje zawartość przy użyciu niestandardowych wytycznych i etykiet.	Zapytanie, odpowiedź, prawda podstawy
Kontroler łańcuchów	Wykonuje elastyczne walidacje tekstu i dopasowywanie wzorców.	Odpowiedź
Podobieństwo tekstu	Ocenia jakość tekstu lub określa bliskość semantyczną.	Odpowiedź, prawda naziemna
Oceniacz Modelu	Generuje wyniki liczbowe (dostosowany zakres) dla zawartości na podstawie niestandardowych wytycznych.	Zapytanie, odpowiedź, prawda podstawy

Aby dowiedzieć się więcej, zobacz Azure OpenAI Graders .Aby dowiedzieć się więcej, zobacz Azure OpenAI Graders.

Ewaluatorzy w cyklu życia programowania

Dzięki użyciu tych ewaluatorów strategicznie w całym cyklu projektowania zespoły mogą tworzyć bardziej niezawodne, bezpieczne i skuteczne aplikacje sztucznej inteligencji, które spełniają potrzeby użytkowników, jednocześnie minimalizując potencjalne zagrożenia.

Trzy etapy oceny GenAIOps

Metodyka GenAIOps używa następujących trzech etapów.

Wybór modelu podstawowego

Przed utworzeniem aplikacji należy wybrać odpowiednią podstawę. Ta początkowa ocena ułatwia porównywanie różnych modeli na podstawie:

Jakość i dokładność: Jak istotne i spójne są odpowiedzi modelu?
Wydajność zadania: Czy model efektywnie obsługuje określone przypadki użycia?
Zagadnienia etyczne: Czy model jest wolny od szkodliwych uprzedzeń?
Profil bezpieczeństwa: Jakie jest ryzyko generowania niebezpiecznej zawartości?

Dostępne narzędzia: test porównawczy firmy Microsoft Foundry do porównywania modeli na publicznych zestawach danych lub własnych danych oraz zestawu SDK oceny usługi Azure AI na potrzeby testowania określonych punktów końcowych modelu.

Ocena przedprodukcyjna

Po wybraniu modelu podstawowego następnym krokiem jest utworzenie agenta lub aplikacji sztucznej inteligencji. Przed wdrożeniem w środowisku produkcyjnym dokładne testowanie jest niezbędne, aby upewnić się, że agent lub aplikacja sztucznej inteligencji jest gotowa do użycia w świecie rzeczywistym.

Ocena przedprodukcyjna obejmuje:

Testowanie przy użyciu zestawów danych oceny: te zestawy danych symulują realistyczne interakcje użytkowników, aby upewnić się, że agent sztucznej inteligencji działa zgodnie z oczekiwaniami.
Identyfikowanie przypadków brzegowych: znajdowanie scenariuszy, w których jakość odpowiedzi agenta sztucznej inteligencji może obniżyć lub wygenerować niepożądane dane wyjściowe.
Ocena niezawodności: Zapewnienie, że agent sztucznej inteligencji może obsłużyć szereg zmian wejściowych bez znaczących spadków jakości lub bezpieczeństwa.
Mierzenie kluczowych metryk: Metryki, takie jak zgodność zadań, uzasadnienie odpowiedzi, istotność i bezpieczeństwo, są oceniane w celu potwierdzenia gotowości do produkcji.

Etap przedprodukcyjny działa jako ostateczna kontrola jakości, zmniejszając ryzyko wdrożenia agenta lub aplikacji sztucznej inteligencji, który nie spełnia żądanych standardów wydajności lub bezpieczeństwa.

Narzędzia do oceny i podejścia:

Przynieś własne dane: możesz ocenić agentów AI i aplikacje w przedprodukcji, używając własnych danych ewaluacyjnych za pomocą obsługiwanych ewaluatorów, w tym jakość, bezpieczeństwo i ewaluatory niestandardowe, i przeglądać wyniki za pośrednictwem portalu Foundry. Użyj kreatora oceny rozwiązania Foundry lub obsługiwanych ewaluatorów zestawu AZURE AI Evaluation SDK , w tym jakości generowania, bezpieczeństwa lub niestandardowych ewaluatorów. Wyświetlanie wyników przy użyciu portalu Foundry.
Symulatory i agent zespołu red teamingu sztucznej inteligencji: jeśli nie masz danych ewaluacyjnych (testowych), symulatory z Azure AI Evaluation SDK mogą pomóc, generując zapytania związane z tematem lub krytyczne. Te symulatory testują odpowiedź modelu na zapytania odpowiednie do sytuacji lub ataków (skrajne przypadki).
- Zespół czerwony sztucznej inteligencji symuluje złożone ataki adwersarza na system AI, stosując szeroki wachlarz ataków z zakresu bezpieczeństwa i ochrony, korzystając z otwartego frameworku Microsoft dla narzędzia do identyfikacji ryzyka w Pythonie, PyRIT.
- Niepożądane symulatory wprowadzają statyczne zapytania, które naśladują potencjalne zagrożenia bezpieczeństwa lub ataki bezpieczeństwa, takie jak próby złamania systemu, pomagając zidentyfikować ograniczenia i przygotować model pod kątem nieoczekiwanych warunków.
- Symulatory odpowiednie dla kontekstu generują typowe, istotne konwersacje, których oczekujesz od użytkowników do testowania jakości odpowiedzi. Za pomocą symulatorów odpowiednich kontekstowo można ocenić metryki, takie jak uziemienie, istotność, spójność i płynność wygenerowanych odpowiedzi.
Zautomatyzowane skanowania przy użyciu czerwonego agenta tworzenia zespołu sztucznej inteligencji zwiększają ocenę ryzyka przedprodukcyjnego, systematycznie testując aplikacje sztucznej inteligencji pod kątem ryzyka. Ten proces obejmuje symulowane scenariusze ataku w celu zidentyfikowania słabych stron w odpowiedziach modelu przed wdrożeniem w świecie rzeczywistym. Uruchamiając testy red teaming dla sztucznej inteligencji, można wykryć i zminimalizować potencjalne problemy z bezpieczeństwem przed wdrożeniem. To narzędzie jest zalecane do użycia z procesami z udziałem człowieka w pętli, takimi jak konwencjonalny przegląd zespołu czerwonego w sztucznej inteligencji, aby przyspieszyć identyfikację ryzyka i pomoc w ocenie przeprowadzanej przez eksperta.

Alternatywnie możesz również użyć portalu Foundry do testowania generowanych aplikacji sztucznej inteligencji.

Możesz korzystać z własnych danych: możesz ocenić aplikacje sztucznej inteligencji w środowisku przedprodukcyjnym przy użyciu obsługiwanych ewaluatorów, takich jak jakość generowania, bezpieczeństwo lub niestandardowe ewaluatory, i wyświetlić wyniki za pośrednictwem portalu Foundry. Użyj kreatora oceny rozwiązania Foundry lub ewaluatorów obsługiwanych przez zestaw SDK Oceny Sztucznej Inteligencji Platformy Azure, w tym jakości generowania, bezpieczeństwa lub niestandardowych ewaluatorów, a następnie wyświetl wyniki za pośrednictwem portalu Foundry.
Symulatory i czerwony agent tworzenia zespołu sztucznej inteligencji: jeśli nie masz danych ewaluacyjnych (danych testowych), symulatory mogą pomóc, generując zapytania dotyczące tematu lub niepożądane. Te symulatory testują odpowiedź modelu na zapytania odpowiednie do sytuacji lub ataków (skrajne przypadki).

Zespół czerwony sztucznej inteligencji symuluje złożone ataki adwersarza na system AI, stosując szeroki wachlarz ataków z zakresu bezpieczeństwa i ochrony, korzystając z otwartego frameworku Microsoft dla narzędzia do identyfikacji ryzyka w Pythonie, PyRIT.

Automatyczne skanowanie przy użyciu agenta do tworzenia czerwonych zespołów AI poprawia ocenę ryzyka przedprodukcyjnego, systematycznie testując aplikacje sztucznej inteligencji pod kątem ryzyka. Ten proces obejmuje symulowane scenariusze ataku w celu zidentyfikowania słabych stron w odpowiedziach modelu przed wdrożeniem w świecie rzeczywistym. Uruchamiając testy red teaming dla sztucznej inteligencji, można wykryć i zminimalizować potencjalne problemy z bezpieczeństwem przed wdrożeniem. To narzędzie jest zalecane do użycia z procesami z udziałem człowieka w pętli, takimi jak konwencjonalny przegląd zespołu czerwonego w sztucznej inteligencji, aby przyspieszyć identyfikację ryzyka i pomoc w ocenie przeprowadzanej przez eksperta.

Alternatywnie możesz również użyć portalu Foundry do testowania generowanych aplikacji sztucznej inteligencji.

Po dokonaniu zadowalających wyników możesz wdrożyć aplikację sztucznej inteligencji w środowisku produkcyjnym.

Monitorowanie po produkcji

Po wdrożeniu ciągłe monitorowanie zapewnia, że aplikacja sztucznej inteligencji utrzymuje jakość w rzeczywistych warunkach.

Metryki operacyjne: regularny pomiar kluczowych metryk operacyjnych agenta sztucznej inteligencji.
Ciągła ocena: umożliwia ocenę jakości i bezpieczeństwa ruchu produkcyjnego z częstotliwością próbkowania.
Zaplanowana ocena: umożliwia zaplanowaną jakość i ocenę bezpieczeństwa przy użyciu zestawu danych testowego w celu wykrywania dryfu w podstawowych systemach.
Zaplanowane testy typu red teaming: zapewniają zaplanowane możliwości testowania w celu wyszukiwania luk w zabezpieczeniach i bezpieczeństwie.
Alerty usługi Azure Monitor: akcja Swift w przypadku wystąpienia szkodliwych lub nieodpowiednich danych wyjściowych. Skonfiguruj alerty dotyczące ciągłej oceny, aby otrzymywać powiadomienia, gdy wyniki oceny spadną poniżej progu szybkości przekazywania w środowisku produkcyjnym.

Skuteczne monitorowanie pomaga zachować zaufanie użytkowników i umożliwia szybkie rozwiązanie problemu.

Możliwość obserwacji zapewnia kompleksowe możliwości monitorowania niezbędne dla współczesnych złożonych i szybko zmieniających się krajobrazów sztucznej inteligencji. Bezproblemowo zintegrowane z usługą Azure Monitor Application Insights to rozwiązanie umożliwia ciągłe monitorowanie wdrożonych aplikacji sztucznej inteligencji w celu zapewnienia optymalnej wydajności, bezpieczeństwa i jakości w środowiskach produkcyjnych.

Panel obserwacyjny Foundry dostarcza wgląd w metryki krytyczne w czasie rzeczywistym. Umożliwia zespołom szybkie identyfikowanie i rozwiązywanie problemów z wydajnością, problemów z bezpieczeństwem lub degradacji jakości.

W przypadku aplikacji opartych na agentach platforma Foundry oferuje ulepszone możliwości ciągłej oceny. Te możliwości mogą zapewnić lepszy wgląd w metryki jakości i bezpieczeństwa. Mogą one stworzyć niezawodny ekosystem monitorowania, który dostosowuje się do dynamicznego charakteru aplikacji sztucznej inteligencji przy zachowaniu wysokich standardów wydajności i niezawodności.

Stale monitorując zachowanie aplikacji sztucznej inteligencji w środowisku produkcyjnym, można utrzymywać wysokiej jakości środowiska użytkownika i szybko rozwiązywać wszelkie problemy, które występują.

Budowanie zaufania dzięki systematycznej ocenie

GenAIOps ustanawia niezawodny proces zarządzania aplikacjami sztucznej inteligencji w całym cyklu życia. Dzięki wdrożeniu dokładnej oceny na każdym etapie — od wyboru modelu przez wdrożenie i poza nią — zespoły mogą tworzyć rozwiązania sztucznej inteligencji, które nie są tylko zaawansowane, ale wiarygodne i bezpieczne.

Ściągawka dotycząca oceny

Przeznaczenie	Proces	Parametry, wskazówki i przykłady
Co oceniasz?	Identyfikowanie lub tworzenie odpowiednich ewaluatorów	- Przykładowy notes dotyczący jakości i wydajności - Jakość odpowiedzi agentów - Bezpieczeństwo i zabezpieczenia (przykładowy notes bezpieczeństwa i zabezpieczeń) - Niestandardowy (Niestandardowy przykładowy notes)
Jakich danych należy użyć?	Przekazywanie lub generowanie odpowiedniego zestawu danych	- Ogólny symulator pomiaru jakości i wydajności (Przykładowy notes ogólnego symulatora) - Symulator antagonistyczny dla oceny bezpieczeństwa i ochrony (przykładowy notes symulatora antagonistycznego) — Agent AI do czerwonego zespołu do uruchamiania automatycznych skanów w celu oceny bezpieczeństwa i luk w zabezpieczeniach (przykładowy notes agenta AI do czerwonego zespołu)
Jak uruchamiać oceny w zestawie danych?	Uruchamianie oceny	- Oceny agentów - Uruchamianie chmury zdalnej - Uruchamianie lokalne
Jak działa mój model/aplikacja?	Analizowanie wyników	- Wyświetlanie zagregowanych wyników, wyświetlanie szczegółów, szczegóły oceny, porównywanie przebiegów oceny
Jak mogę ulepszyć?	Wprowadzanie zmian w modelu, aplikacji lub ewaluatorach	- Jeśli wyniki oceny nie były zgodne z opiniami ludzkimi, dostosuj ewaluatora. - Jeśli wyniki oceny są dostosowane do opinii człowieka, ale nie spełniają progów jakości/bezpieczeństwa, zastosuj ukierunkowane środki zaradcze. Przykład środków zaradczych do zastosowania: Bezpieczeństwo zawartości sztucznej inteligencji platformy Azure

Przeznaczenie	Proces	Parametry, wskazówki i przykłady
Co oceniasz?	Identyfikowanie lub tworzenie odpowiednich ewaluatorów	- RAG Quality - Jakość agentów - Bezpieczeństwo i zabezpieczenia (przykładowy notes bezpieczeństwa i zabezpieczeń) - Niestandardowy (Niestandardowy przykładowy notes)
Jakich danych należy użyć?	Przekazywanie lub generowanie odpowiedniego zestawu danych	- Generowanie syntetycznych zestawów danych — Agent AI do czerwonego zespołu do uruchamiania automatycznych skanów w celu oceny bezpieczeństwa i luk w zabezpieczeniach (przykładowy notes agenta AI do czerwonego zespołu)
Jak uruchamiać oceny w zestawie danych?	Uruchamianie oceny	- Oceny agentów - Uruchamianie chmury zdalnej
Jak działa mój model/aplikacja?	Analizowanie wyników	- Wyświetlanie zagregowanych wyników, wyświetlanie szczegółów, szczegóły oceny, porównywanie przebiegów oceny
Jak mogę ulepszyć?	Wprowadzanie zmian w modelu, aplikacji lub ewaluatorach	- Jeśli wyniki oceny nie były zgodne z opiniami ludzkimi, dostosuj ewaluatora. - Jeśli wyniki oceny są dostosowane do opinii człowieka, ale nie spełniają progów jakości/bezpieczeństwa, zastosuj ukierunkowane środki zaradcze. Przykład środków zaradczych do zastosowania: Bezpieczeństwo zawartości sztucznej inteligencji platformy Azure

Korzystanie z własnej sieci wirtualnej na potrzeby oceny

Dla potrzeb izolacji sieci można udostępnić własną sieć wirtualną w celu oceny. Aby dowiedzieć się więcej, zobacz Jak skonfigurować link prywatny.

Uwaga / Notatka

Dane oceny są wysyłane do usługi Application Insights, jeśli usługa Application Insights jest połączona. Obsługa sieci wirtualnej dla usługi Application Insights i śledzenia nie jest dostępna.

Ważne

Aby zapobiec błędom podczas uruchamiania oceny i red teamingu, przypisz rolę Użytkownika Azure AI do tożsamości zarządzanej projektu podczas początkowej konfiguracji projektu.

Obsługa regionów sieci wirtualnej

Możliwość tworzenia własnej sieci wirtualnej do celów oceny jest dostępna we wszystkich regionach z wyjątkiem Centralnych Indii, Azji Wschodniej, Europy Północnej i Kataru Centralnego.

Obsługa regionów

Obecnie niektóre ewaluatory wspomagane przez sztuczną inteligencję są dostępne tylko w następujących regionach:

Rejon	Nienawiść i niesprawiedliwość, seksualność, przemoc, samookaleczenia, atak pośredni, luki w zabezpieczeniach kodu, nieuzasadnione atrybuty	Groundedness Pro	Materiał chroniony
Wschodnie stany USA 2	Wsparte	Wsparte	Wsparte
Szwecja Środkowa	Wsparte	Wsparte	N/A
Północno-środkowe stany USA	Wsparte	N/A	N/A
Francja Środkowa	Wsparte	N/A	N/A
Szwajcaria Zachodnia	Wsparte	N/A	N/A

Obsługa regionu oceny środowiska testowego agenta

Rejon	Status
Wschodnie stany USA	Wsparte
Wschodnie stany USA 2	Wsparte
Zachodnie stany USA	Wsparte
Zachodnie stany USA 2	Wsparte
Zachodnie stany USA 3	Wsparte
Francja Środkowa	Wsparte
Norwegia Wschodnia	Wsparte
Szwecja Środkowa	Wsparte

Ceny

Funkcje obserwacji, takie jak oceny ryzyka i bezpieczeństwa i oceny ciągłe, są rozliczane na podstawie użycia, jak pokazano na naszej stronie cennika platformy Azure.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-11-18

Udostępnij przez

Obserwowalność w generatywnej sztucznej inteligencji

Co to jest obserwowanie?

Co to są ewaluatory?

Ogólne przeznaczenie

Podobieństwo tekstowe

RAG (pobieranie rozszerzonej generacji)

Bezpieczeństwo i zabezpieczenia (wersja zapoznawcza)

Agenci (wersja zapoznawcza)

Klasyfikatory usługi Azure OpenAI (wersja zapoznawcza)

Ewaluatorzy w cyklu życia programowania

Trzy etapy oceny GenAIOps

Wybór modelu podstawowego

Ocena przedprodukcyjna

Monitorowanie po produkcji

Budowanie zaufania dzięki systematycznej ocenie

Ściągawka dotycząca oceny

Korzystanie z własnej sieci wirtualnej na potrzeby oceny

Obsługa regionów sieci wirtualnej

Obsługa regionów

Obsługa regionu oceny środowiska testowego agenta

Ceny

Treści powiązane

Sprzężenie zwrotne

Dodatkowe źródła