Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Uwaga / Notatka
Ten dokument odnosi się do portalu Microsoft Foundry (klasycznego).
🔄 Przejdź do dokumentacji Microsoft Foundry (nowej), jeśli korzystasz z nowego portalu.
Uwaga / Notatka
Ten dokument odnosi się do portalu Microsoft Foundry (nowy).
Ważne
Elementy oznaczone jako (wersja zapoznawcza) w tym artykule są aktualnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.
W dzisiejszym świecie opartym na sztucznej inteligencji operacje generowania sztucznej inteligencji (GenAIOps) rewolucjonizują sposób tworzenia i wdrażania inteligentnych systemów przez organizacje. Ponieważ firmy coraz częściej używają agentów i aplikacji sztucznej inteligencji do przekształcania podejmowania decyzji, ulepszania środowisk klientów i innowacji paliwowych, jeden element ma kluczowe znaczenie: solidne struktury oceny. Ocena nie jest tylko punktem kontrolnym. Jest to podstawa jakości i zaufania do aplikacji sztucznej inteligencji. Bez rygorystycznej oceny i monitorowania systemy sztucznej inteligencji mogą tworzyć zawartość:
- Wymyślone lub oderwane od rzeczywistości
- Nieistotne lub niespójne
- Szkodliwe w utrwalaniu zagrożeń i stereotypów dotyczących zawartości
- Niebezpieczne w rozprzestrzenianiu dezinformacji
- Luki w zabezpieczeniach
Jest to miejsce, w którym obserwacja staje się niezbędna. Te możliwości mierzą zarówno częstotliwość, jak i dotkliwość zagrożeń w danych wyjściowych sztucznej inteligencji, umożliwiając zespołom systematyczne rozwiązywanie problemów z jakością, bezpieczeństwem i ochroną w całym procesie tworzenia AI — od wybrania odpowiedniego modelu do monitorowania wydajności, jakości i bezpieczeństwa produkcyjnych.
Co to jest obserwowanie?
Możliwość obserwowania sztucznej inteligencji odnosi się do możliwości monitorowania, zrozumienia i rozwiązywania problemów z systemami sztucznej inteligencji w całym cyklu życia. Obejmuje zbieranie i analizowanie sygnałów, takich jak metryki oceny, dzienniki, ślady i dane wyjściowe modelu i agenta w celu uzyskania wglądu w wydajność, jakość, bezpieczeństwo i kondycję operacyjną.
Co to są ewaluatory?
Ewaluatorzy to wyspecjalizowane narzędzia, które mierzą jakość, bezpieczeństwo i niezawodność odpowiedzi sztucznej inteligencji. Wdrażając systematyczne oceny w całym cyklu projektowania sztucznej inteligencji, zespoły mogą identyfikować i rozwiązywać potencjalne problemy, zanim będą miały wpływ na użytkowników. Następujące obsługiwane ewaluatory zapewniają kompleksowe możliwości oceny w różnych typach aplikacji sztucznej inteligencji i problemach:
Ogólne przeznaczenie
| Oceniacz | Przeznaczenie | Dane wejściowe |
|---|---|---|
| Spójność | Mierzy spójność logiczną i przepływ odpowiedzi. | Zapytanie, odpowiedź |
| Płynność | Mierzy jakość i czytelność języka naturalnego. | Odpowiedź |
| QA | Mierzy kompleksowo różne aspekty jakości w odpowiedzi na pytania. | Zapytanie, kontekst, odpowiedź, prawda naziemna |
Aby dowiedzieć się więcej, zobacz Ewaluatory ogólnego przeznaczenia.
Podobieństwo tekstowe
| Oceniacz | Przeznaczenie | Dane wejściowe |
|---|---|---|
| Podobieństwo | Pomiar podobieństwa tekstowego wspomaganego przez sztuczną inteligencję. | Zapytanie, kontekst, prawda podstawy |
| Wynik F1 | Średnia harmoniczna precyzji i kompletności w tokenie nakłada się między odpowiedzią a prawem podstawy. | Odpowiedź, prawda naziemna |
| BLEU | Wynik BLEU dla miar jakości tłumaczenia mierzy nakładanie się n-gramów między odpowiedzią a wynikiem referencyjnym. | Odpowiedź, prawda naziemna |
| GLEU | Google-BLEU wariant oceny na poziomie zdania mierzy nakładanie się n-gramów między odpowiedzią a rzeczywistą wartością referencyjną. | Odpowiedź, prawda naziemna |
| ROUGE | Recall-Oriented Zastępstwo dla oceny zrozumienia ogólnego mierzy nakładanie się n-gramów między odpowiedzią a prawdą referencyjną. | Odpowiedź, prawda naziemna |
| METEOR | Metryka oceny tłumaczenia z jawnym porządkowaniem mierzy nakładanie się n-gramów między odpowiedzią a prawdą referencyjną. | Odpowiedź, prawda naziemna |
Aby dowiedzieć się więcej, zobacz Textual similarity evaluators (Osoby ewaluacyjne podobieństwa tekstowe)
RAG (pobieranie rozszerzonej generacji)
| Oceniacz | Przeznaczenie | Dane wejściowe |
|---|---|---|
| Odzyskiwanie | Mierzy sposób efektywnego pobierania istotnych informacji przez system. | Zapytanie, kontekst |
| Pobieranie dokumentu (wersja zapoznawcza) | Mierzy dokładność wyników wyszukiwania, biorąc pod uwagę prawdę gruntową. | Prawdziwe dane, odzyskane dokumenty |
| Uziemienie | Mierzy, jak spójna jest odpowiedź w odniesieniu do pobranego kontekstu. | Zapytanie (opcjonalne), kontekst, odpowiedź |
| Groundedness Pro (wersja zapoznawcza) | Mierzy, czy odpowiedź jest zgodna z kontekstem pobranym. | Zapytanie, kontekst, odpowiedź |
| Znaczenie | Mierzy, jak odpowiednia jest odpowiedź w odniesieniu do zapytania. | Zapytanie, odpowiedź |
| Kompletność odpowiedzi (wersja zapoznawcza) | Mierzy, w jakim stopniu odpowiedź jest kompletna (nie brakuje kluczowych informacji) w odniesieniu do podstawowej prawdy. | Odpowiedź, prawda naziemna |
Aby dowiedzieć się więcej, zobacz Retrieval-augmented Generation (RAG) evaluators (Retrieval-augmented Generation) evaluators (RAG).
Bezpieczeństwo i zabezpieczenia (wersja zapoznawcza)
| Oceniacz | Przeznaczenie | Dane wejściowe |
|---|---|---|
| Nienawiść i niesprawiedliwość | Identyfikuje stronniczą, dyskryminującą lub nienawistną zawartość. | Zapytanie, odpowiedź |
| Seksualny | Identyfikuje nieodpowiednią zawartość seksualną. | Zapytanie, odpowiedź |
| Przemoc | Wykrywa brutalne treści lub podżeganie. | Zapytanie, odpowiedź |
| Samookaleczenia | Wykrywa zawartość promującą i opisującą samookaleczanie. | Zapytanie, odpowiedź |
| Bezpieczeństwo zawartości | Kompleksowa ocena różnych kwestii związanych z bezpieczeństwem. | Zapytanie, odpowiedź |
| Materiały chronione | Wykrywa nieautoryzowane użycie praw autorskich lub chronionych treści. | Zapytanie, odpowiedź |
| Luka w zabezpieczeniach dotycząca kodu | Identyfikuje problemy z zabezpieczeniami w wygenerowanych kodzie. | Zapytanie, odpowiedź |
| Nieuzasadnione atrybuty | Wykrywa sprośne lub halucynowane informacje wywnioskowane z interakcji użytkownika. | Zapytanie, kontekst, odpowiedź |
Aby dowiedzieć się więcej, zobacz Risk and safety evaluators (Osoby ewaluacyjne dotyczące ryzyka i bezpieczeństwa).
Agenci (wersja zapoznawcza)
| Oceniacz | Przeznaczenie | Dane wejściowe |
|---|---|---|
| Rozwiązywanie intencji | Mierzy, jak dokładnie agent identyfikuje intencje użytkownika i adresuje je. | Zapytanie, odpowiedź |
| Zgodność zadania | Mierzy, jak dobrze agent realizuje zidentyfikowane zadania. | Zapytanie, odpowiedź, definicje narzędzi (opcjonalnie) |
| Dokładność wywołań narzędzi | Mierzy, jak dobrze agent wybiera i wywołuje odpowiednie narzędzia. | Wykonywanie zapytań, wywołań odpowiedzi lub narzędzi, definicji narzędzi |
| Oceniacz | Przeznaczenie | Dane wejściowe |
|---|---|---|
| Zgodność zadania | Sprawdza, czy agent realizuje określone zadania zgodnie z instrukcjami systemowymi. | Zapytania, odpowiedź, definicje narzędzi (opcjonalnie) |
| Ukończenie zadania | Mierzy, czy agent pomyślnie zakończył zakończenie żądanego zadania. | Zapytania, odpowiedź, definicje narzędzi (opcjonalnie) |
| Rozwiązywanie intencji | Mierzy, jak dokładnie agent identyfikuje intencje użytkownika i adresuje je. | Zapytania, odpowiedź, definicje narzędzi (opcjonalnie) |
| Efektywność nawigacji w zadaniach | Określa, czy sekwencja kroków agenta jest zgodna z optymalną lub oczekiwaną ścieżką do mierzenia wydajności. | Odpowiedź, prawda naziemna |
| Dokładność wywołań narzędzi | Mierzy ogólną jakość wywołań narzędzi, w tym wybór, poprawność parametrów i wydajność. | Zapytanie, definicje narzędzi, wywołania narzędzi (opcjonalnie), odpowiedź |
| Wybór narzędzia | Mierzy, czy agent wybrał najbardziej odpowiednie i wydajne narzędzia dla zadania. | Zapytanie, definicje narzędzi, wywołania narzędzi (opcjonalnie), odpowiedź |
| Dokładność danych wejściowych narzędzi | Sprawdza, czy wszystkie parametry wywołania narzędzia są poprawne z rygorystycznymi kryteriami, takimi jak uziemienia, typ, format, kompletność i odpowiedniość. | Zapytania, odpowiedź, definicje narzędzi |
| Wykorzystanie wyników narzędzia | Mierzy, czy agent prawidłowo interpretuje i używa danych wyjściowych narzędzia kontekstowo w odpowiedziach i kolejnych wywołaniach. | Zapytania, odpowiedź, definicje narzędzi (opcjonalnie) |
| Powodzenie wywołania narzędzia | Ocenia, czy wszystkie wywołania narzędzi zostały wykonane pomyślnie bez błędów technicznych. | Odpowiedź, definicje narzędzi (opcjonalnie) |
Aby dowiedzieć się więcej, zobacz Ewaluatory agentów.
Klasyfikatory usługi Azure OpenAI (wersja zapoznawcza)
| Oceniacz | Przeznaczenie | Dane wejściowe |
|---|---|---|
| Etykietka modelu | Klasyfikuje zawartość przy użyciu niestandardowych wytycznych i etykiet. | Zapytanie, odpowiedź, prawda podstawy |
| Kontroler łańcuchów | Wykonuje elastyczne walidacje tekstu i dopasowywanie wzorców. | Odpowiedź |
| Podobieństwo tekstu | Ocenia jakość tekstu lub określa bliskość semantyczną. | Odpowiedź, prawda naziemna |
| Oceniacz Modelu | Generuje wyniki liczbowe (dostosowany zakres) dla zawartości na podstawie niestandardowych wytycznych. | Zapytanie, odpowiedź, prawda podstawy |
Aby dowiedzieć się więcej, zobacz Azure OpenAI Graders .Aby dowiedzieć się więcej, zobacz Azure OpenAI Graders.
Ewaluatorzy w cyklu życia programowania
Dzięki użyciu tych ewaluatorów strategicznie w całym cyklu projektowania zespoły mogą tworzyć bardziej niezawodne, bezpieczne i skuteczne aplikacje sztucznej inteligencji, które spełniają potrzeby użytkowników, jednocześnie minimalizując potencjalne zagrożenia.
Trzy etapy oceny GenAIOps
Metodyka GenAIOps używa następujących trzech etapów.
Wybór modelu podstawowego
Przed utworzeniem aplikacji należy wybrać odpowiednią podstawę. Ta początkowa ocena ułatwia porównywanie różnych modeli na podstawie:
- Jakość i dokładność: Jak istotne i spójne są odpowiedzi modelu?
- Wydajność zadania: Czy model efektywnie obsługuje określone przypadki użycia?
- Zagadnienia etyczne: Czy model jest wolny od szkodliwych uprzedzeń?
- Profil bezpieczeństwa: Jakie jest ryzyko generowania niebezpiecznej zawartości?
Dostępne narzędzia: test porównawczy firmy Microsoft Foundry do porównywania modeli na publicznych zestawach danych lub własnych danych oraz zestawu SDK oceny usługi Azure AI na potrzeby testowania określonych punktów końcowych modelu.
Ocena przedprodukcyjna
Po wybraniu modelu podstawowego następnym krokiem jest utworzenie agenta lub aplikacji sztucznej inteligencji. Przed wdrożeniem w środowisku produkcyjnym dokładne testowanie jest niezbędne, aby upewnić się, że agent lub aplikacja sztucznej inteligencji jest gotowa do użycia w świecie rzeczywistym.
Ocena przedprodukcyjna obejmuje:
- Testowanie przy użyciu zestawów danych oceny: te zestawy danych symulują realistyczne interakcje użytkowników, aby upewnić się, że agent sztucznej inteligencji działa zgodnie z oczekiwaniami.
- Identyfikowanie przypadków brzegowych: znajdowanie scenariuszy, w których jakość odpowiedzi agenta sztucznej inteligencji może obniżyć lub wygenerować niepożądane dane wyjściowe.
- Ocena niezawodności: Zapewnienie, że agent sztucznej inteligencji może obsłużyć szereg zmian wejściowych bez znaczących spadków jakości lub bezpieczeństwa.
- Mierzenie kluczowych metryk: Metryki, takie jak zgodność zadań, uzasadnienie odpowiedzi, istotność i bezpieczeństwo, są oceniane w celu potwierdzenia gotowości do produkcji.
Etap przedprodukcyjny działa jako ostateczna kontrola jakości, zmniejszając ryzyko wdrożenia agenta lub aplikacji sztucznej inteligencji, który nie spełnia żądanych standardów wydajności lub bezpieczeństwa.
Narzędzia do oceny i podejścia:
Przynieś własne dane: możesz ocenić agentów AI i aplikacje w przedprodukcji, używając własnych danych ewaluacyjnych za pomocą obsługiwanych ewaluatorów, w tym jakość, bezpieczeństwo i ewaluatory niestandardowe, i przeglądać wyniki za pośrednictwem portalu Foundry. Użyj kreatora oceny rozwiązania Foundry lub obsługiwanych ewaluatorów zestawu AZURE AI Evaluation SDK , w tym jakości generowania, bezpieczeństwa lub niestandardowych ewaluatorów. Wyświetlanie wyników przy użyciu portalu Foundry.
Symulatory i agent zespołu red teamingu sztucznej inteligencji: jeśli nie masz danych ewaluacyjnych (testowych), symulatory z Azure AI Evaluation SDK mogą pomóc, generując zapytania związane z tematem lub krytyczne. Te symulatory testują odpowiedź modelu na zapytania odpowiednie do sytuacji lub ataków (skrajne przypadki).
- Zespół czerwony sztucznej inteligencji symuluje złożone ataki adwersarza na system AI, stosując szeroki wachlarz ataków z zakresu bezpieczeństwa i ochrony, korzystając z otwartego frameworku Microsoft dla narzędzia do identyfikacji ryzyka w Pythonie, PyRIT.
- Niepożądane symulatory wprowadzają statyczne zapytania, które naśladują potencjalne zagrożenia bezpieczeństwa lub ataki bezpieczeństwa, takie jak próby złamania systemu, pomagając zidentyfikować ograniczenia i przygotować model pod kątem nieoczekiwanych warunków.
- Symulatory odpowiednie dla kontekstu generują typowe, istotne konwersacje, których oczekujesz od użytkowników do testowania jakości odpowiedzi. Za pomocą symulatorów odpowiednich kontekstowo można ocenić metryki, takie jak uziemienie, istotność, spójność i płynność wygenerowanych odpowiedzi.
Zautomatyzowane skanowania przy użyciu czerwonego agenta tworzenia zespołu sztucznej inteligencji zwiększają ocenę ryzyka przedprodukcyjnego, systematycznie testując aplikacje sztucznej inteligencji pod kątem ryzyka. Ten proces obejmuje symulowane scenariusze ataku w celu zidentyfikowania słabych stron w odpowiedziach modelu przed wdrożeniem w świecie rzeczywistym. Uruchamiając testy red teaming dla sztucznej inteligencji, można wykryć i zminimalizować potencjalne problemy z bezpieczeństwem przed wdrożeniem. To narzędzie jest zalecane do użycia z procesami z udziałem człowieka w pętli, takimi jak konwencjonalny przegląd zespołu czerwonego w sztucznej inteligencji, aby przyspieszyć identyfikację ryzyka i pomoc w ocenie przeprowadzanej przez eksperta.
Alternatywnie możesz również użyć portalu Foundry do testowania generowanych aplikacji sztucznej inteligencji.
Możesz korzystać z własnych danych: możesz ocenić aplikacje sztucznej inteligencji w środowisku przedprodukcyjnym przy użyciu obsługiwanych ewaluatorów, takich jak jakość generowania, bezpieczeństwo lub niestandardowe ewaluatory, i wyświetlić wyniki za pośrednictwem portalu Foundry. Użyj kreatora oceny rozwiązania Foundry lub ewaluatorów obsługiwanych przez zestaw SDK Oceny Sztucznej Inteligencji Platformy Azure, w tym jakości generowania, bezpieczeństwa lub niestandardowych ewaluatorów, a następnie wyświetl wyniki za pośrednictwem portalu Foundry.
Symulatory i czerwony agent tworzenia zespołu sztucznej inteligencji: jeśli nie masz danych ewaluacyjnych (danych testowych), symulatory mogą pomóc, generując zapytania dotyczące tematu lub niepożądane. Te symulatory testują odpowiedź modelu na zapytania odpowiednie do sytuacji lub ataków (skrajne przypadki).
Zespół czerwony sztucznej inteligencji symuluje złożone ataki adwersarza na system AI, stosując szeroki wachlarz ataków z zakresu bezpieczeństwa i ochrony, korzystając z otwartego frameworku Microsoft dla narzędzia do identyfikacji ryzyka w Pythonie, PyRIT.
Automatyczne skanowanie przy użyciu agenta do tworzenia czerwonych zespołów AI poprawia ocenę ryzyka przedprodukcyjnego, systematycznie testując aplikacje sztucznej inteligencji pod kątem ryzyka. Ten proces obejmuje symulowane scenariusze ataku w celu zidentyfikowania słabych stron w odpowiedziach modelu przed wdrożeniem w świecie rzeczywistym. Uruchamiając testy red teaming dla sztucznej inteligencji, można wykryć i zminimalizować potencjalne problemy z bezpieczeństwem przed wdrożeniem. To narzędzie jest zalecane do użycia z procesami z udziałem człowieka w pętli, takimi jak konwencjonalny przegląd zespołu czerwonego w sztucznej inteligencji, aby przyspieszyć identyfikację ryzyka i pomoc w ocenie przeprowadzanej przez eksperta.
Alternatywnie możesz również użyć portalu Foundry do testowania generowanych aplikacji sztucznej inteligencji.
Po dokonaniu zadowalających wyników możesz wdrożyć aplikację sztucznej inteligencji w środowisku produkcyjnym.
Monitorowanie po produkcji
Po wdrożeniu ciągłe monitorowanie zapewnia, że aplikacja sztucznej inteligencji utrzymuje jakość w rzeczywistych warunkach.
Po wdrożeniu ciągłe monitorowanie zapewnia, że aplikacja sztucznej inteligencji utrzymuje jakość w rzeczywistych warunkach.
- Metryki operacyjne: regularny pomiar kluczowych metryk operacyjnych agenta sztucznej inteligencji.
- Ciągła ocena: umożliwia ocenę jakości i bezpieczeństwa ruchu produkcyjnego z częstotliwością próbkowania.
- Zaplanowana ocena: umożliwia zaplanowaną jakość i ocenę bezpieczeństwa przy użyciu zestawu danych testowego w celu wykrywania dryfu w podstawowych systemach.
- Zaplanowane testy typu red teaming: zapewniają zaplanowane możliwości testowania w celu wyszukiwania luk w zabezpieczeniach i bezpieczeństwie.
- Alerty usługi Azure Monitor: akcja Swift w przypadku wystąpienia szkodliwych lub nieodpowiednich danych wyjściowych. Skonfiguruj alerty dotyczące ciągłej oceny, aby otrzymywać powiadomienia, gdy wyniki oceny spadną poniżej progu szybkości przekazywania w środowisku produkcyjnym.
Skuteczne monitorowanie pomaga zachować zaufanie użytkowników i umożliwia szybkie rozwiązanie problemu.
Możliwość obserwacji zapewnia kompleksowe możliwości monitorowania niezbędne dla współczesnych złożonych i szybko zmieniających się krajobrazów sztucznej inteligencji. Bezproblemowo zintegrowane z usługą Azure Monitor Application Insights to rozwiązanie umożliwia ciągłe monitorowanie wdrożonych aplikacji sztucznej inteligencji w celu zapewnienia optymalnej wydajności, bezpieczeństwa i jakości w środowiskach produkcyjnych.
Panel obserwacyjny Foundry dostarcza wgląd w metryki krytyczne w czasie rzeczywistym. Umożliwia zespołom szybkie identyfikowanie i rozwiązywanie problemów z wydajnością, problemów z bezpieczeństwem lub degradacji jakości.
W przypadku aplikacji opartych na agentach platforma Foundry oferuje ulepszone możliwości ciągłej oceny. Te możliwości mogą zapewnić lepszy wgląd w metryki jakości i bezpieczeństwa. Mogą one stworzyć niezawodny ekosystem monitorowania, który dostosowuje się do dynamicznego charakteru aplikacji sztucznej inteligencji przy zachowaniu wysokich standardów wydajności i niezawodności.
Stale monitorując zachowanie aplikacji sztucznej inteligencji w środowisku produkcyjnym, można utrzymywać wysokiej jakości środowiska użytkownika i szybko rozwiązywać wszelkie problemy, które występują.
Budowanie zaufania dzięki systematycznej ocenie
GenAIOps ustanawia niezawodny proces zarządzania aplikacjami sztucznej inteligencji w całym cyklu życia. Dzięki wdrożeniu dokładnej oceny na każdym etapie — od wyboru modelu przez wdrożenie i poza nią — zespoły mogą tworzyć rozwiązania sztucznej inteligencji, które nie są tylko zaawansowane, ale wiarygodne i bezpieczne.
Ściągawka dotycząca oceny
| Przeznaczenie | Proces | Parametry, wskazówki i przykłady |
|---|---|---|
| Co oceniasz? | Identyfikowanie lub tworzenie odpowiednich ewaluatorów |
-
Przykładowy notes dotyczący jakości i wydajności - Jakość odpowiedzi agentów - Bezpieczeństwo i zabezpieczenia (przykładowy notes bezpieczeństwa i zabezpieczeń) - Niestandardowy (Niestandardowy przykładowy notes) |
| Jakich danych należy użyć? | Przekazywanie lub generowanie odpowiedniego zestawu danych |
-
Ogólny symulator pomiaru jakości i wydajności (Przykładowy notes ogólnego symulatora) - Symulator antagonistyczny dla oceny bezpieczeństwa i ochrony (przykładowy notes symulatora antagonistycznego) — Agent AI do czerwonego zespołu do uruchamiania automatycznych skanów w celu oceny bezpieczeństwa i luk w zabezpieczeniach (przykładowy notes agenta AI do czerwonego zespołu) |
| Jak uruchamiać oceny w zestawie danych? | Uruchamianie oceny |
-
Oceny agentów - Uruchamianie chmury zdalnej - Uruchamianie lokalne |
| Jak działa mój model/aplikacja? | Analizowanie wyników | - Wyświetlanie zagregowanych wyników, wyświetlanie szczegółów, szczegóły oceny, porównywanie przebiegów oceny |
| Jak mogę ulepszyć? | Wprowadzanie zmian w modelu, aplikacji lub ewaluatorach | - Jeśli wyniki oceny nie były zgodne z opiniami ludzkimi, dostosuj ewaluatora. - Jeśli wyniki oceny są dostosowane do opinii człowieka, ale nie spełniają progów jakości/bezpieczeństwa, zastosuj ukierunkowane środki zaradcze. Przykład środków zaradczych do zastosowania: Bezpieczeństwo zawartości sztucznej inteligencji platformy Azure |
| Przeznaczenie | Proces | Parametry, wskazówki i przykłady |
|---|---|---|
| Co oceniasz? | Identyfikowanie lub tworzenie odpowiednich ewaluatorów |
-
RAG Quality - Jakość agentów - Bezpieczeństwo i zabezpieczenia (przykładowy notes bezpieczeństwa i zabezpieczeń) - Niestandardowy (Niestandardowy przykładowy notes) |
| Jakich danych należy użyć? | Przekazywanie lub generowanie odpowiedniego zestawu danych |
-
Generowanie syntetycznych zestawów danych — Agent AI do czerwonego zespołu do uruchamiania automatycznych skanów w celu oceny bezpieczeństwa i luk w zabezpieczeniach (przykładowy notes agenta AI do czerwonego zespołu) |
| Jak uruchamiać oceny w zestawie danych? | Uruchamianie oceny |
-
Oceny agentów - Uruchamianie chmury zdalnej |
| Jak działa mój model/aplikacja? | Analizowanie wyników | - Wyświetlanie zagregowanych wyników, wyświetlanie szczegółów, szczegóły oceny, porównywanie przebiegów oceny |
| Jak mogę ulepszyć? | Wprowadzanie zmian w modelu, aplikacji lub ewaluatorach | - Jeśli wyniki oceny nie były zgodne z opiniami ludzkimi, dostosuj ewaluatora. - Jeśli wyniki oceny są dostosowane do opinii człowieka, ale nie spełniają progów jakości/bezpieczeństwa, zastosuj ukierunkowane środki zaradcze. Przykład środków zaradczych do zastosowania: Bezpieczeństwo zawartości sztucznej inteligencji platformy Azure |
Korzystanie z własnej sieci wirtualnej na potrzeby oceny
Dla potrzeb izolacji sieci można udostępnić własną sieć wirtualną w celu oceny. Aby dowiedzieć się więcej, zobacz Jak skonfigurować link prywatny.
Uwaga / Notatka
Dane oceny są wysyłane do usługi Application Insights, jeśli usługa Application Insights jest połączona. Obsługa sieci wirtualnej dla usługi Application Insights i śledzenia nie jest dostępna.
Ważne
Aby zapobiec błędom podczas uruchamiania oceny i red teamingu, przypisz rolę Użytkownika Azure AI do tożsamości zarządzanej projektu podczas początkowej konfiguracji projektu.
Obsługa regionów sieci wirtualnej
Możliwość tworzenia własnej sieci wirtualnej do celów oceny jest dostępna we wszystkich regionach z wyjątkiem Centralnych Indii, Azji Wschodniej, Europy Północnej i Kataru Centralnego.
Obsługa regionów
Obecnie niektóre ewaluatory wspomagane przez sztuczną inteligencję są dostępne tylko w następujących regionach:
| Rejon | Nienawiść i niesprawiedliwość, seksualność, przemoc, samookaleczenia, atak pośredni, luki w zabezpieczeniach kodu, nieuzasadnione atrybuty | Groundedness Pro | Materiał chroniony |
|---|---|---|---|
| Wschodnie stany USA 2 | Wsparte | Wsparte | Wsparte |
| Szwecja Środkowa | Wsparte | Wsparte | N/A |
| Północno-środkowe stany USA | Wsparte | N/A | N/A |
| Francja Środkowa | Wsparte | N/A | N/A |
| Szwajcaria Zachodnia | Wsparte | N/A | N/A |
Obsługa regionu oceny środowiska testowego agenta
| Rejon | Status |
|---|---|
| Wschodnie stany USA | Wsparte |
| Wschodnie stany USA 2 | Wsparte |
| Zachodnie stany USA | Wsparte |
| Zachodnie stany USA 2 | Wsparte |
| Zachodnie stany USA 3 | Wsparte |
| Francja Środkowa | Wsparte |
| Norwegia Wschodnia | Wsparte |
| Szwecja Środkowa | Wsparte |
Ceny
Funkcje obserwacji, takie jak oceny ryzyka i bezpieczeństwa i oceny ciągłe, są rozliczane na podstawie użycia, jak pokazano na naszej stronie cennika platformy Azure.