Udostępnij przez


Uwaga dotycząca przezroczystości usługi Azure OpenAI

Important

Tłumaczenia nieanglojęzyczne są dostępne tylko dla wygody. Zapoznaj się z EN-US wersją tego dokumentu, aby uzyskać ostateczną wersję.

Co to jest notatka dotycząca przezroczystości?

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Utworzenie systemu dopasowanego do zamierzonego celu wymaga zrozumienia, jak działa technologia, jakie są jej możliwości i ograniczenia oraz jak osiągnąć najlepszą wydajność. Notatki dotyczące przejrzystości firmy Microsoft mają na celu ułatwienie zrozumienia sposobu działania naszej technologii sztucznej inteligencji, wyborów, jakie właściciele systemów mogą dokonać, aby wpływać na wydajność i zachowanie systemu oraz znaczenie myślenia o całym systemie, w tym o technologii, ludziach i środowisku. Możesz użyć notatek przezroczystości podczas opracowywania lub wdrażania własnego systemu lub udostępniać je osobom, które będą korzystać z systemu lub mają na nie wpływ.

Informacje o przejrzystości firmy Microsoft są częścią szerszego wysiłku firmy Microsoft na rzecz wprowadzenia zasad sztucznej inteligencji w życie. Aby dowiedzieć się więcej, zobacz zasady sztucznej inteligencji firmy Microsoft.

Podstawy modeli usługi Azure OpenAI

Usługa Azure OpenAI udostępnia klientom w pełni zarządzane narzędzie Foundry, które umożliwia deweloperom i analitykom danych stosowanie zaawansowanych modeli openAI, w tym modeli, które mogą generować język naturalny, kod i obrazy. W ramach usługi Azure OpenAI modele OpenAI są zintegrowane z opracowanymi przez firmę Microsoft zabezpieczeniami (wcześniej filtrami zawartości) i modelami wykrywania nadużyć. Dowiedz się więcej o zabezpieczeniach (wcześniej filtrach zawartości) tutaj i na temat wykrywania nadużyć tutaj.

Introduction

Grupa modeli Tekst/kod Wizja Dźwięk/mowa
GPT-3 i kodek
DALL-E 2 i 3
GPT-image-1
Whisper
GPT-4 Turbo z wizją
GPT-4o
GPT-4o-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4.5
GPT-5
GPT-oss-120b
Seria o1
o3/o3-pro
o3-mini
o4-mini/codex-mini1
o3-deep-research
o4-mini-deep-research
computer-use-preview

1codex-mini to dostrojona wersja o4-mini przeznaczona specjalnie do użycia w interfejsie wiersza polecenia Codex. Aby uzyskać więcej informacji, zobacz dokumentację interfejsu OpenAI.

Wybierz karty, aby wyświetlić zawartość odpowiedniego typu modelu.

W ramach w pełni zarządzanej usługi Azure OpenAI modele GPT-3 analizują i generują język naturalny, modele Codex analizują i generują kod oraz komentarz kodu w postaci zwykłego tekstu oraz modelami rozumowania GPT-4 oraz modelami rozumowania (w tym modelami serii o i GPT-5) mogą zrozumieć i wygenerować język naturalny oraz kod. Modele te używają architektury autoregresywnej, co oznacza, że używają danych z wcześniejszych obserwacji do przewidywania najbardziej prawdopodobnego następnego słowa. Ten proces jest następnie powtarzany przez dołączenie nowo wygenerowanej zawartości do oryginalnego tekstu w celu utworzenia kompletnej wygenerowanej odpowiedzi. Ponieważ odpowiedź jest zależna od tekstu wejściowego, modele te można stosować do różnych zadań po prostu zmieniając tekst wejściowy.

Seria modelów GPT-3 jest przeszkolona na obszernej kolekcji publicznie dostępnych, bezpłatnych danych tekstowych. Te dane pochodzą z kombinacji przeszukiwania sieci Web (w szczególności przefiltrowanej wersji Common Crawl, która zawiera szeroką gamę tekstów z Internetu i składa się z 60 procent ważonego zestawu danych wstępnego trenowania) oraz zestawów danych o wyższej jakości, w tym rozszerzonej wersji zestawu danych WebText, dwóch internetowych zbiorów książek oraz anglojęzycznej Wikipedii. Model podstawowy GPT-4 został wytrenowany przy użyciu publicznie dostępnych danych (takich jak dane internetowe) i danych, które zostały licencjonowane przez platformę OpenAI. Model został dostosowany przy użyciu uczenia wzmacniania z opiniami ludzkimi (RLHF).

Model Korzystanie z komputera (wersja zapoznawcza) akceptuje wprowadzanie tekstu w pierwszym kroku, a obraz zrzutu ekranu w drugim i następnym kroku oraz zwraca polecenia klawiatury i myszy. Model korzystania z komputera i narzędzie do korzystania z komputera umożliwiają deweloperom tworzenie systemów agentowych sztucznej inteligencji.

Dowiedz się więcej o technikach trenowania i modelowania opisanych w pracach badawczych OpenAI na temat GPT-3, GPT-4 i Codex.

Dostrajanie precyzyjne odnosi się do używania nadzorowanego dostrajania w celu dostosowania wag modelu podstawowego w celu zapewnienia lepszych odpowiedzi na podstawie dostarczonego zestawu treningowego. Wszystkie przypadki użycia i zagadnienia dotyczące dużych modeli językowych mają zastosowanie do dostosowanych modeli, ale istnieją również dodatkowe zagadnienia.

Important

Dostrajanie jest dostępne tylko dla modeli tekstu i kodu, a nie modeli przetwarzania obrazów ani mowy.

Kluczowe terminy

Term Definition
Prompt Tekst wysyłany do usługi w wywołaniu interfejsu API. Ten tekst jest następnie wprowadzany do modelu. Na przykład można wprowadzić następujące polecenie:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg 'find constance' Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:
Uzupełnianie lub generowanie Tekst, który Azure OpenAI generuje jako odpowiedź. Na przykład usługa może odpowiedzieć za pomocą następującej odpowiedzi na powyższy monit: send-msg 'find greg' figure out if things are ready for Wednesday.
Token Usługa Azure OpenAI przetwarza tekst, dzieląc go na tokeny. Tokeny mogą być wyrazami lub tylko grupami znaków. Na przykład słowo hamburger jest podzielone na tokeny ham, bur i ger, podczas gdy krótkie i typowe słowo, takie jak pear , jest pojedynczym tokenem. Wiele tokenów zaczyna się od spacji, na przykład hello i bye.
Dostrajanie Nadzorowane dostrajanie (SFT), dostrajanie wzmacniania (RFT) i bezpośrednia optymalizacja preferencji (DPO lub dostrajanie preferencji) w kontekście dużych modeli językowych odnosi się do procesu wykorzystania wcześniej wytrenowanego modelu językowego, często trenowanego na masywnym zestawie danych, oraz jego dalszego trenowania w bardziej konkretnym zadaniu przy użyciu danych oznaczonych etykietami. Obejmuje to dostosowanie wag modelu przy użyciu tego mniejszego, konkretnego zestawu danych, aby model stał się bardziej wyspecjalizowany w zadaniach, które może wykonywać, zwiększając wydajność i dokładność.
Wagi modelu Wagi modelu to parametry w modelu, które są wyciągane z danych podczas procesu trenowania. Określają dane wyjściowe modelu dla danych wejściowych. Wagi te są dostosowywane w odpowiedzi na błąd, który model wykonał w swoich przewidywaniach w celu zminimalizowania tego błędu.
Bezpodstawna zawartość Zawartość generowana przez model, która jest nieprawdziwa lub niedokładna w stosunku do tego, co było obecne w materiałach źródłowych.
Systemy agentowej sztucznej inteligencji Autonomiczne systemy sztucznej inteligencji, które wyczuwają swoje środowisko i działają w celu osiągnięcia celów.
Autonomy Możliwość niezależnego wykonywania akcji i wykonywania kontroli nad zachowaniem systemu z ograniczonym lub bez bezpośredniego nadzoru człowieka.
Narzędzie Do korzystania z komputera Narzędzie, które w przypadku użycia z modelem Korzystanie z komputera przechwytuje akcje myszy i klawiatury generowane przez tryb i bezpośrednio tłumaczy je na polecenia wykonywalne. Dzięki temu deweloperzy mogą automatyzować zadania związane z używaniem komputerów.
Głębokie badania Dostrojona wersja modeli rozumowania serii o, która jest przeznaczona do głębokich zadań badawczych. Pobiera ona zapytanie wysokiego poziomu i zwraca ustrukturyzowany, bogaty w cytat raport, wykorzystując model agenta, który może dekomponować zadanie, wykonywać wyszukiwania w Internecie i synchronizować wyniki.

Capabilities

Modele rozumowania, GPT-4, GPT-3, Modele Codex i Ocena usługi Azure OpenAI używają instrukcji języka naturalnego i przykładów w monicie o zidentyfikowanie zadania. Następnie model wykonuje zadanie, przewidując najbardziej prawdopodobny następny tekst. Ta technika jest znana jako nauka "w kontekście". Modele te nie są ponownie trenowane w tym kroku, ale zamiast tego dają przewidywania na podstawie kontekstu uwzględnionego w tekście podpowiedzi.

Istnieją trzy główne podejścia do uczenia w kontekście. Te podejścia różnią się w zależności od ilości danych specyficznych dla zadania, które są przekazywane do modelu:

Uczenie na kilku przykładach: w tym przypadku użytkownik zawiera kilka przykładów w podpowiedzi, które pokazują oczekiwany format odpowiedzi i zawartość. W poniższym przykładzie pokazano kilka wyświetleń monitu zawierającego wiele przykładów:

Convert the questions to a command: 
Q: Ask Constance if we need some bread 
A: send-msg `find constance` Do we need some bread? 
Q: Send a message to Greg to figure out if things are ready for Wednesday. 
A: send-msg `find greg` Is everything ready forWednesday? 
Q: Ask Ilya if we're still having our meeting thisevening 
A: send-msg `find ilya` Are we still having a meetingthis evening? 
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday 
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday? 
Q: Thank Nicolas for lunch 
A: send-msg `find nicolas` Thank you for lunch! 
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting. 
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move. 
Q: Tell John that I need to book an appointment at10:30 
A:  

Liczba przykładów zwykle waha się od 0 do 100 w zależności od tego, ile może mieścić się w maksymalnej długości danych wejściowych dla pojedynczego monitu. Uczenie przy małej liczbie danych umożliwia znaczne zmniejszenie ilości danych charakterystycznych dla zadań wymaganych do dokładnych predykcji.

Jednokrotne : ten przypadek jest taki sam jak podejście z kilkoma przykładami, z wyjątkiem tego, że podano tylko jeden przykład. W poniższym przykładzie przedstawiono jednorazową podpowiedź:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:

Zero-shot: W tym przypadku nie podano żadnych przykładów do modelu i podano tylko żądanie zadania. W poniższym przykładzie przedstawiono monit zero-shot:

Convert the question to a command:
Q: Ask Constance if we need some bread
A:

Łańcuch myśli : modele rozumowania usługi Azure OpenAI mają zaawansowane możliwości rozumowania przy użyciu technik łańcucha myśli (CoT). Techniki coT generują pośrednie kroki rozumowania przed dostarczeniem odpowiedzi, umożliwiając im rozwiązywanie bardziej złożonych problemów dzięki rozwiązywaniu problemów krok po kroku. o1 wykazuje poprawę w testach porównawczych badających rozumowanie w takich dziedzinach jak badania naukowe, strategia, nauka, kodowanie i matematyka, między innymi. Te modele mają ulepszenia bezpieczeństwa dzięki zaawansowanym możliwościom rozumowania, pozwalającym na bardziej skuteczne stosowanie reguł bezpieczeństwa. Skutkuje to lepszą wydajnością w porównaniu z kryteriami bezpieczeństwa, takimi jak generowanie niedozwolonych porad, wybieranie stereotypowych odpowiedzi i podatność na znane przypadki łamania zabezpieczeń.

Aby uzyskać więcej informacji na temat możliwości tej rodziny modeli, zobacz OpenAI o1 System Card, o3-mini System Card, o3/o4-mini System Card, Deep Research System Card i GPT-5 System Card.

Ocena interfejsu Azure OpenAI

Ocena dużych modeli językowych jest krytycznym krokiem w mierzeniu ich wydajności w różnych zadaniach i wymiarach. To zadanie jest szczególnie ważne w przypadku dopasowanych modeli, gdzie ocena przyrostów (lub strat) wydajności z procesu trenowania ma kluczowe znaczenie. Bez dokładnych ocen może okazać się trudne zrozumienie, w jaki sposób różne wersje modelu mogą mieć wpływ na konkretną aplikację.

Ocena usługi Azure OpenAI to środowisko oparte na interfejsie użytkownika do oceny danych, w tym wygenerowanych zestawów danych z wdrożenia usługi Azure OpenAI lub innych ręcznie wyselekcjonowanych plików.

Ocena usługi Azure OpenAI ma opcjonalny krok generowania odpowiedzi. Jeśli użytkownik zdecyduje się na ten krok, udostępnimy monit (system/komunikat użytkownika), aby poinstruować model, jak wygenerować odpowiedzi.

Ewaluacja Azure OpenAI obejmuje 9 kategorii testów, aby oszacować wyniki. Niektóre wymagają podstawowych danych prawdy (na przykład faktów), podczas gdy inne nie (weryfikacja schematu). Oceny są połączeniem obliczeń używających CPU i modeli bazujących na algorytmach. Oto lista kryteriów testowania: Faktowość, Tonacja, Prawidłowy kod JSON lub XML, Dopasowanie kryteriów, Podpowiedź niestandardowa, Podobieństwo semantyczne, Zawiera ciąg, Pasuje do schematu oraz jakość tekstu.

Text-to-action

Model Korzystanie z komputera (wersja zapoznawcza) umożliwia korzystanie z funkcji zamiany tekstu na działanie, dzięki czemu użytkownicy mogą udostępniać użytkownikom instrukcje języka naturalnego, które model tłumaczy na kroki umożliwiające podejmowanie działań w interfejsach użytkownika graficznego. Na podstawie polecenia takiego jak "Wypełnij formularz pomocy technicznej klienta, korzystając z tych informacji", model identyfikuje odpowiednie pola, wprowadza poprawne dane i przesyła formularz. Może nawigować po interfejsach internetowych, wyodrębniać i wprowadzać dane ustrukturyzowane lub nieustrukturyzowane, automatyzować przepływy pracy i wymuszać zgodność z zasadami zabezpieczeń. Dzięki zrozumieniu intencji i wykonywaniu akcji usprawnia ona operacje biznesowe, dzięki czemu automatyzacja jest bardziej dostępna i wydajna.

Przypadki użycia

Zamierzone zastosowania

Modele tekstowe mogą być używane w wielu scenariuszach. Poniższa lista nie jest wyczerpująca, ale ilustruje różnorodność zadań, które mogą być obsługiwane dzięki modelom z odpowiednimi środkami zaradczymi.

  • Interakcja z czatem i konwersacją : użytkownicy mogą wchodzić w interakcje z agentem konwersacyjnym, który odpowiada na odpowiedzi pochodzące z zaufanych dokumentów, takich jak wewnętrzna dokumentacja firmy lub dokumentacja techniczna. Konwersacje muszą być ograniczone do odpowiadania na pytania o określonym zakresie.
  • Tworzenie czatów i konwersacji : użytkownicy mogą utworzyć agenta konwersacyjnego, który odpowiada odpowiedziami na podstawie zaufanych dokumentów, takich jak wewnętrzna dokumentacja firmy lub dokumentacja techniczna. Konwersacje muszą być ograniczone do odpowiadania na pytania o określonym zakresie.
  • Scenariusze generowania lub przekształcania kodu : na przykład konwertowanie jednego języka programowania na inny, generowanie dokumentacji dla funkcji, konwertowanie języka naturalnego na język SQL.
  • Treści dziennikarskie : Aby wykorzystywać do tworzenia nowych treści dziennikarskich lub do przekształcania treści dziennikarskich przesłanych przez użytkownika jako wsparcie w pisaniu na wstępnie zdefiniowane tematy. Użytkownicy nie mogą używać aplikacji jako narzędzia do tworzenia zawartości ogólnej dla wszystkich tematów.
  • Odpowiadanie na pytania : użytkownicy mogą zadawać pytania i otrzymywać odpowiedzi z zaufanych dokumentów źródłowych, takich jak wewnętrzna dokumentacja firmy. Aplikacja nie generuje odpowiedzi bez podparcia w dokumentacji zaufanego źródła.
  • Powód dotyczący danych ustrukturyzowanych i nieustrukturyzowanych : użytkownicy mogą analizować dane wejściowe przy użyciu klasyfikacji, analizy tonacji tekstu lub wyodrębniania jednostek. Przykłady obejmują analizowanie tonacji opinii o produkcie, analizowanie rozmów z pomocą techniczną i transkrypcji rozmów oraz udoskonalanie wyszukiwania opartego na tekście przy użyciu embeddingów.
  • Wyszukiwanie : użytkownicy mogą przeszukiwać zaufane dokumenty źródłowe, takie jak wewnętrzna dokumentacja firmy. Aplikacja nie generuje wyników nieuzasadnionych w dokumentacji zaufanych źródeł.
  • Podsumowanie : użytkownicy mogą przesyłać zawartość do podsumowania dla wstępnie zdefiniowanych tematów wbudowanych w aplikację i nie mogą używać aplikacji jako otwartego podsumowania. Przykłady obejmują podsumowanie wewnętrznej dokumentacji firmy, transkrypcji centrum telefonicznego, raportów technicznych i przeglądów produktów.
  • Pisanie pomocy dotyczącej określonych tematów : użytkownicy mogą tworzyć nową zawartość lub ponownie zapisywać zawartość przesłaną przez użytkownika jako pomoc do pisania zawartości biznesowej lub wstępnie zdefiniowanych tematów. Użytkownicy mogą ponownie pisać lub tworzyć zawartość tylko dla określonych celów biznesowych lub wstępnie zdefiniowanych tematów i nie mogą używać aplikacji jako narzędzia do tworzenia zawartości ogólnej dla wszystkich tematów. Przykłady zawartości biznesowej obejmują propozycje i raporty. W przypadku wykorzystania dziennikarskiego, zapoznaj się z powyższym przypadkiem użycia treści dziennikarskich.
  • Generowanie danych na potrzeby dostrajania: użytkownicy mogą używać modelu w usłudze Azure OpenAI do generowania danych, które są używane wyłącznie do dostosowywania (i) innego modelu azure OpenAI, korzystając z możliwości dostrajania usługi Azure OpenAI i/lub (ii) innego modelu niestandardowego usługi Azure AI przy użyciu możliwości dostrajania narzędzia Foundry. Generowanie danych i dostrajanie modeli jest ograniczone tylko do użytkowników wewnętrznych; Dostosowany model może być używany tylko do wnioskowania w odpowiednim narzędziu Foundry Tool i w przypadku usługi Azure OpenAI tylko w przypadku dozwolonych przypadków użycia klienta w tym formularzu.

Doprecyzowane przypadki użycia

Poniżej przedstawiono dodatkowe przypadki użycia, które zalecamy w przypadku dostrojonych modeli. Dostrajanie jest najbardziej odpowiednie dla:

  • Kierowanie stylem, formatowaniem, tonem lub jakościowymi aspektami odpowiedzi za pomocą przykładów żądanych odpowiedzi.
  • Zapewnienie, że model niezawodnie generuje żądane dane wyjściowe , takie jak dostarczanie odpowiedzi w określonym formacie lub zapewnienie, że odpowiedzi są uziemione przez informacje w wierszu polecenia.
  • Przypadki użycia z wieloma przypadkami brzegowymi, których nie można uwzględnić w przykładach w podpowiedzi, takich jak złożone przykłady przekształcania języka naturalnego na kod.
  • Zwiększanie wydajności w określonych umiejętnościach lub zadaniach , takich jak klasyfikacja, podsumowanie lub formatowanie — które mogą być trudne do opisania w wierszu polecenia.
  • Zmniejszenie kosztów lub opóźnień dzięki użyciu krótszych poleceń lub zastąpieniu dostosowanej wersji mniejszego/szybszego modelu bardziej uniwersalnym modelem (np. dostrojenie GPT-3.5-Turbo zamiast GPT-4).

Podobnie jak w przypadku modeli podstawowych, zakazy przypadków użycia opisane w kodeksie postępowania usługi Azure OpenAI mają zastosowanie również do dostosowanych modeli.

Samodzielne dostrajanie modelu nie jest zalecane w przypadku konkretnych scenariuszy, w których chcesz rozszerzyć model, aby uwzględniać informacje spoza domeny, gdzie ważne są wyjaśnialność lub ugruntowanie, lub gdzie podstawowe dane są często aktualizowane.

Przypadki użycia modelu rozumowania

Zaawansowane możliwości rozumowania modeli rozumowania mogą być najbardziej odpowiednie w przypadku zastosowań nauki, kodowania, matematyki i podobnych dziedzin. Konkretne przypadki użycia mogą obejmować:

  • Złożone generowanie kodu, analiza i optymalizacja: generowanie algorytmów i zaawansowane zadania kodowania ułatwiające deweloperom wykonywanie wieloetapowych przepływów pracy, lepsze zrozumienie kroków wykonywanych podczas tworzenia kodu.
  • Zaawansowane rozwiązywanie problemów: Kompleksowe sesje burzy mózgów, opracowywanie strategii i podział wielowymiarowych problemów.
  • Porównanie złożonych dokumentów: analizowanie kontraktów, plików przypadków lub dokumentów prawnych w celu rozróżniania subtelnych różnic w zawartości dokumentu.
  • Instrukcje i zarządzanie przepływami pracy: Obsługa przepływów pracy wymagających krótszego kontekstu.

Aby uzyskać więcej szczegółowych informacji na temat zamierzonych zastosowań, odwiedź kartę systemową OpenAI o1, kartę systemową o3-mini, kartę systemową o3/o4-mini oraz kartę systemową GPT-5.

Przypadki użycia głębokich badań

Głębokie modele badań to precyzyjne wersje modeli rozumowania serii o, które zostały zaprojektowane do wykonywania zapytań wysokiego poziomu i zwracania ustrukturyzowanego raportu bogatego w cytaty. Modele tworzą podzapytania i zbierają informacje z wyszukiwań internetowych w kilku iteracji przed zwróceniem ostatecznej odpowiedzi. Przypadki użycia mogą obejmować następujące elementy z odpowiednim nadzorem człowieka:

  • Złożony przegląd badań i literatury: Syntetyzowanie ustaleń w setkach artykułów naukowych, identyfikowanie luk lub sprzeczności w badaniach, proponowanie nowatorskich hipotez lub kierunków badawczych.
  • Odkrycie naukowe i generowanie hipotez: Eksplorowanie połączeń między odkryciami w różnych dyscyplinach, generowanie testowych hipotez lub projektów eksperymentalnych, pomagając w interpretowaniu nieprzetworzonych danych eksperymentalnych.
  • Zaawansowane rozwiązywanie problemów technicznych: Debugowanie złożonych systemów (na przykład oprogramowania rozproszonego, robotyki), projektowanie nowatorskich algorytmów lub architektur oraz rozwiązywanie zaawansowanych problemów matematycznych lub fizycznych.
  • Rozszerzanie długoterminowego planowania: Pomaganie kadrze kierowniczej lub naukowcom w planowaniu 10-letnich planów technologicznych, modelowanie scenariuszy z długim zakresem w zakresie bezpieczeństwa sztucznej inteligencji, bezpieczeństwa biobezpieczeństwa lub klimatu, ocenianie skutków decyzji drugiej i trzeciej kolejności.

Głębokie modele badań są dostępne jako narzędzie w usłudze Azure AI Agents . Aby uzyskać więcej szczegółowych informacji na temat zamierzonych zastosowań, zobacz kartę systemu OpenAI Deep Research.

Przypadki użycia oceny usługi Azure OpenAI

Ocena Azure OpenAI jest funkcją tylko tekstową i nie może być używana z modelami obsługującymi wejścia nietekstowe. Evals można używać w wielu scenariuszach, w tym, ale nie tylko:

  • Ocena dopasowania tekstu/porównania: jest to przydatne w scenariuszach, w których użytkownik chce sprawdzić, czy dane wyjściowe są zgodne z oczekiwanym ciągiem. Użytkownicy mogą również porównać dwa zestawy wartości i ocenić relacje. Przykłady obejmują, ale nie są ograniczone do pytań wielokrotnego wyboru, w których odpowiedzi są porównywane z kluczem odpowiedzi i weryfikacją ciągu.
  • Jakość tekstu: Jakość tekstu ocenia jakość odpowiedzi za pomocą metod, takich jak Bleu, Rouge lub algorytmy cosinusowe i jest powszechnie używana w różnych zadaniach przetwarzania języka naturalnego, takich jak tłumaczenie maszynowe, podsumowanie tekstu, generowanie tekstu i inne.
  • Ocena oparta na klasyfikacji: ocena oparta na klasyfikacji ocenia wydajność modelu, przypisując odpowiedzi do wstępnie zdefiniowanych kategorii lub etykiet lub porównując dane wyjściowe modelu z zestawem referencyjnych poprawnych odpowiedzi. Automatyczne ocenianie, analiza tonacji i kategoryzacja produktów należą do niektórych typowych przypadków użycia.
  • Ocena jakości konwersacji: ocena jakości konwersacji obejmuje porównywanie odpowiedzi ze wstępnie zdefiniowanymi kryteriami przy użyciu szczegółowej instrukcji myślenia (CoT). Typowe przypadki użycia to między innymi obsługa klienta, programowanie czatbotów i oceny edukacyjne.
  • Ocena oparta na kryteriach: Jednym z typowych scenariuszy oceny opartej na kryteriach jest faktowość. Ocena dokładności faktów polega na porównaniu przesłanej odpowiedzi na odpowiedź eksperta, koncentrując się wyłącznie na treści faktycznej. Może to być przydatne w narzędziach edukacyjnych, aby zwiększyć dokładność odpowiedzi dostarczonych przez modele językowe LLM lub w narzędziach pomocy badawczej w celu oceny faktycznej dokładności odpowiedzi generowanych przez modele językowe LLM w środowiskach akademickich.
  • Ocena ważności ciągu: jednym z typowych scenariuszy jest sprawdzenie, czy odpowiedź modelu jest zgodna z określonym schematem lub prawidłową zawartością JSON lub XML.

Przypadki użycia komputera (wersja zapoznawcza)

Możliwości użycia komputera najlepiej nadają się do tworzenia systemów agentowych sztucznej inteligencji, które mogą autonomicznie współdziałać z graficznymi interfejsami użytkownika. Konkretne przypadki użycia mogą obejmować:

  • Automatyczna nawigacja i interakcja internetowa: autonomiczne poruszanie się po interfejsach opartych na sieci w celu pozyskiwania i prezentowania informacji z zaufanych źródeł, takich jak wewnętrzne zasoby firmy lub ustrukturyzowane bazy danych. Model jest zgodny ze wstępnie zdefiniowanymi regułami nawigacji w celu wyodrębnienia odpowiednich danych przy jednoczesnym zapewnieniu zgodności z zasadami zabezpieczeń.

  • Web-Based Automatyzacja zadań: Automatyzowanie powtarzających się zadań internetowych, takich jak wypełnianie formularzy, przesyłanie danych lub interakcja z aplikacjami internetowymi. Komputer może klikać przyciski, wprowadzać tekst i przetwarzać dane ustrukturyzowane, ale działa tylko w autoryzowanych przepływach pracy i domenach.

  • Wyodrębnianie danych ze strukturą i bez struktury: wyodrębnianie odpowiednich danych ze źródeł ustrukturyzowanych, takich jak tabele i arkusze kalkulacyjne, a także źródła bez struktury, takie jak pliki PDF, zeskanowane dokumenty lub wiadomości e-mail. Ta funkcja jest przydatna w przypadku zadań takich jak przetwarzanie danych finansowych, analiza kontraktów lub kategoryzacja zgłoszeń do działu obsługi klienta.

  • Automatyczne wypełnianie formularzy i wprowadzanie danych: wyodrębnianie informacji ze ustrukturyzowanych baz danych lub danych wejściowych użytkownika i używanie ich do wypełniania formularzy internetowych. Jest to przydatne w przypadku automatyzowania żądań obsługi klienta, procesów KADR lub aktualizacji CRM przy jednoczesnym zapewnieniu dokładności i spójności w obsłudze danych.

  • Web-Based Analiza obrazów: analizowanie obrazów znalezionych na stronach internetowych w celu wykrywania i tagowania obiektów, scen lub odpowiednich wzorców. Korzystanie z komputera umożliwia wyodrębnianie informacji wizualnych do obsługi aplikacji, takich jak zarządzanie spisem, przetwarzanie dokumentów lub klasyfikacja obiektów.

  • Interaktywne wyszukiwanie wizualne i identyfikacja: ułatwianie użytkownikom lokalizowania odpowiedniej zawartości wizualnej za pomocą wyszukiwania strukturalnego. Na przykład użycie komputera może identyfikować produkty w katalogu handlu elektronicznego, rozpoznawać punkty orientacyjne w aplikacjach podróży lub pobierać określone obrazy z archiwów cyfrowych na podstawie wstępnie zdefiniowanych kryteriów.

  • Automatyczne sprawdzanie zgodności i zasad: skanowanie zawartości internetowej, takiej jak przekazane pliki, kontrakty lub wewnętrzna dokumentacja w celu zapewnienia zgodności ze wstępnie zdefiniowanymi regułami zgodności. Użycie komputera może oznaczać brakujące informacje, niespójności lub potencjalne naruszenia, aby pomóc w wymuszaniu standardów regulacyjnych w organizacji.

  • Automatyczne wykonywanie przepływu pracy dla aplikacji biznesowych: definiowanie wieloetapowych przepływów pracy na potrzeby nawigowania po aplikacjach dla przedsiębiorstw, takich jak generowanie raportów, aktualizowanie rekordów lub pobieranie analiz. Użycie komputera jest zgodne ze wstępnie zdefiniowanymi krokami w narzędziach biznesowych i jest zgodne z zasadami kontroli dostępu w celu zapewnienia bezpiecznego wykonywania.

Zagadnienia dotyczące wybierania przypadku użycia

Zachęcamy klientów do korzystania z modeli Azure OpenAI GPT-4, o-series, GPT-3, Codex i Computer Use w innowacyjnych rozwiązaniach lub aplikacjach zatwierdzonych w formularzu rejestracji z ograniczonym dostępem. Poniżej przedstawiono jednak niektóre zagadnienia dotyczące wybierania przypadku użycia:

  • Nie nadaje się do generowania nieograniczonej i nieskrępowanej treści. Scenariusze, w których użytkownicy mogą generować zawartość w dowolnym temacie, są bardziej skłonne do tworzenia obraźliwego lub szkodliwego tekstu. To samo dotyczy dłuższych pokoleń.
  • Nie nadaje się do scenariuszy, w których up-to- data, dokładne informacje faktyczne są kluczowe, chyba że masz recenzentów ludzkich lub używasz modeli do wyszukiwania własnych dokumentów i zweryfikowałeś ich odpowiedniość do kontekstu scenariusza. Usługa nie ma informacji o zdarzeniach występujących po dacie szkolenia, prawdopodobnie nie ma wiedzy na temat niektórych tematów i nie zawsze może zawierać dokładne informacje.
  • Unikaj scenariuszy, w których użycie lub niewłaściwe użycie systemu może spowodować znaczne uszkodzenie fizyczne lub psychiczne osoby. Na przykład scenariusze, które diagnozują pacjentów lub przepisują leki, mogą spowodować znaczną szkodę. Włączenie znaczącego przeglądu ludzkiego i nadzoru do scenariusza może pomóc zmniejszyć ryzyko szkodliwych wyników.
  • Unikaj scenariuszy, w których użycie lub niewłaściwe użycie systemu może mieć wpływ na możliwości życia lub status prawny. Przykłady obejmują scenariusze, w których system sztucznej inteligencji może wpływać na stan prawny, prawa lub dostęp do kredytów, edukacji, zatrudnienia, opieki zdrowotnej, mieszkalnictwa, ubezpieczeń, świadczeń socjalnych, usług, możliwości lub warunków, na których są one udostępniane. Włączenie znaczącego przeglądu ludzkiego i nadzoru do scenariusza może pomóc zmniejszyć ryzyko szkodliwych wyników.
  • Unikaj scenariuszy o wysokich stawkach, które mogą prowadzić do szkody. Modele hostowane przez usługę Azure OpenAI odzwierciedlają pewne poglądy społeczne, uprzedzenia i inne niepożądane treści obecne w danych treningowych lub przykłady podane w wierszu polecenia. W związku z tym ostrzegamy przed używaniem modeli w scenariuszach o wysokich stawkach, w których niesprawiedliwe, zawodne lub obraźliwe zachowanie może być niezwykle kosztowne lub prowadzić do szkody. Włączenie znaczącego przeglądu ludzkiego i nadzoru do scenariusza może pomóc zmniejszyć ryzyko szkodliwych wyników.
  • Starannie rozważ przypadki użycia w domenach o wysokich stawkach lub w branży: Przykłady obejmują, ale nie są ograniczone do opieki zdrowotnej, medycyny, finansów lub prawa.
  • Starannie rozważ dobrze zdefiniowane scenariusze czatbota. Ograniczenie korzystania z usługi w czatbotach do wąskiej domeny zmniejsza ryzyko generowania niezamierzonych lub niepożądanych odpowiedzi.
  • Dokładnie rozważ wszystkie przypadki użycia generatywnego. Scenariusze generowania zawartości mogą częściej tworzyć niezamierzone dane wyjściowe, a scenariusze te wymagają starannego rozważenia i ograniczenia ryzyka.
  • Zagadnienia prawne i prawne: Organizacje muszą ocenić potencjalne konkretne zobowiązania prawne i prawne w przypadku korzystania z narzędzi i rozwiązań usługi Foundry, które mogą nie być odpowiednie do użycia w każdej branży lub scenariuszu. Ponadto narzędzia lub rozwiązania Foundry nie są przeznaczone do użytku i nie mogą być używane w sposób zabroniony zgodnie z obowiązującymi warunkami korzystania z usługi ani w obowiązujących kodeksach postępowania.

Podczas wybierania przypadku użycia komputera użytkownicy powinni uwzględnić następujące zagadnienia oprócz wymienionych powyżej:

  • Unikaj scenariuszy, w których akcje są nieodwracalne lub bardzo wtórne: obejmują one, ale nie są ograniczone, możliwość wysyłania wiadomości e-mail (na przykład do niewłaściwego adresata), możliwość modyfikowania lub usuwania plików, które są ważne dla Ciebie, możliwość dokonywania transakcji finansowych lub bezpośredniej interakcji z usługami zewnętrznymi, udostępniania poufnych informacji publicznie, udzielania dostępu do krytycznych systemów, lub wykonując polecenia, które mogą zmienić funkcje systemu lub zabezpieczenia.
  • Obniżenie wydajności zaawansowanych zastosowań: Użycie komputera najlepiej nadaje się do wykonywania zadań za pomocą interfejsów GUI, takich jak uzyskiwanie dostępu do witryn internetowych i komputerów stacjonarnych. Może nie wykonywać bardziej zaawansowanych zadań, takich jak edytowanie kodu, pisanie obszernego tekstu i podejmowanie złożonych decyzji.
  • Zapewnienie odpowiedniego nadzoru i kontroli człowieka. Rozważ uwzględnienie mechanizmów kontrolnych ułatwiających użytkownikom weryfikowanie, przeglądanie i/lub zatwierdzanie działań w odpowiednim czasie, które mogą obejmować przeglądanie planowanych zadań lub wywołań do zewnętrznych źródeł danych, w zależności od wymagań systemu. Rozważ uwzględnienie mechanizmów kontroli w celu odpowiedniego korygowania awarii systemu, szczególnie w scenariuszach wysokiego ryzyka i przypadkach użycia.
  • Jasno zdefiniuj akcje i skojarzone wymagania. Jasne określenie, które działania są dozwolone (granice akcji), zabronione lub wymagają wyraźnej autoryzacji może pomóc w obsłudze korzystania z komputera zgodnie z oczekiwaniami i z odpowiednim poziomem nadzoru człowieka.
  • Jasno zdefiniuj zamierzone środowiska operacyjne. Jasno zdefiniuj zamierzone środowiska operacyjne (granice domeny), w których korzystanie z komputera jest przeznaczone do efektywnego działania.
  • Zapewnij odpowiednią zrozumiałość w podejmowaniu decyzji. Udostępnianie użytkownikom informacji przed, podczas i po podjęciu akcji może pomóc im zrozumieć uzasadnienie działania lub dlaczego niektóre działania zostały podjęte lub aplikacja zachowuje się w określony sposób, gdzie interweniować i jak rozwiązywać problemy.
  • Aby uzyskać więcej informacji, zapoznaj się z przewodnikiem Wspieranie odpowiedniego polegania na generowaniu sztucznej inteligencji.

Podczas wybierania przypadku użycia do głębokich badań użytkownicy powinni uwzględnić następujące zagadnienia oprócz wymienionych powyżej:

  • Zapewnienie odpowiedniego nadzoru i kontroli człowieka: zapewnij mechanizmy, aby zapewnić użytkownikom przeglądanie szczegółowych raportów badawczych i weryfikowanie cytowanych źródeł i zawartości.
  • Sprawdź cytaty pod kątem treści chronionych prawami autorskimi: Narzędzie do badań głębokich przeprowadza wyszukiwanie w Internecie podczas przygotowywania odpowiedzi, a materiały chronione prawem autorskim mogą być cytowane. Sprawdź cytaty źródłowe zawarte w raporcie i upewnij się, że używasz odpowiednich materiałów chronionych prawami autorskimi i atrybutów.

Limitations

Jeśli chodzi o modele języka naturalnego na dużą skalę, modele obrazów i modele mowy, należy wziąć pod uwagę sprawiedliwość i odpowiedzialne problemy ze sztuczną inteligencją. Ludzie używają języka i obrazów, aby opisać świat i wyrazić swoje przekonania, założenia, postawy i wartości. W rezultacie publicznie dostępne dane tekstowe i dane obrazów zwykle używane do trenowania przetwarzania języka naturalnego na dużą skalę i generowania obrazów zawierają uprzedzenia społeczne związane z rasą, płcią, religią, wiekiem i innymi grupami ludzi, a także innymi niepożądanymi treściami. Podobnie modele mowy mogą wykazywać różne poziomy dokładności w różnych grupach demograficznych i językach. Te uprzedzenia społeczne są odzwierciedlane w rozkładach wyrazów, fraz i struktur składniowych.

Ograniczenia techniczne, czynniki operacyjne i zakresy

Caution

Należy pamiętać, że ta sekcja zawiera ilustracyjne przykłady, które obejmują terminy i język, które niektóre osoby mogą znaleźć obraźliwe.

Modele języka naturalnego, obrazu i mowy na dużą skalę trenowane za pomocą takich danych mogą potencjalnie zachowywać się w sposób niesprawiedliwy, zawodny lub obraźliwy, co z kolei powoduje szkody. Poniżej wymieniono niektóre sposoby. Podkreślamy, że tego rodzaju szkody nie wykluczają się wzajemnie. Pojedynczy model może wykazywać więcej niż jeden rodzaj szkody, potencjalnie odnoszący się do wielu różnych grup osób. Przykład:

  • Przydział: Modele te mogą być używane w sposób, który prowadzi do niesprawiedliwego przydziału zasobów lub okazji. Na przykład zautomatyzowane systemy selekcji CV mogą wstrzymać możliwości zatrudnienia przedstawicielom jednej płci, jeśli są szkolone na podstawie danych z CV, które odzwierciedlają istniejącą nierównowagę płci w danej branży. Modele generowania obrazów mogą służyć do tworzenia obrazów w stylu znanego artysty, co może mieć wpływ na wartość dzieła artysty lub możliwości życia artysty. Modele obrazów GPT-4 mogą służyć do identyfikowania poszczególnych zachowań i wzorców, które mogą mieć negatywny wpływ na możliwości życia.
  • Jakość usług: Modele usługi Azure OpenAI są szkolone głównie na tekstach w języku angielskim i na obrazach z opisami tekstu w języku angielskim. Języki inne niż angielski będą doświadczać gorszej wydajności. Odmiany języka angielskiego o mniejszej reprezentacji w danych treningowych mogą doświadczać gorszej wydajności niż standardowy amerykański angielski. Publicznie dostępne obrazy używane do trenowania modeli generowania obrazów mogą wzmocnić stronniczą opinię publiczną i inne niepożądane treści. Modele DALL·E na ten moment również nie są w stanie konsekwentnie generować zrozumiałego tekstu. Modele mowy mogą wprowadzać inne ograniczenia, na przykład tłumaczenia przy użyciu modelu Whisper w usłudze Azure OpenAI są ograniczone tylko do danych wyjściowych w języku angielskim. Ogólnie rzecz biorąc, w przypadku modeli zamiany mowy na tekst należy prawidłowo określić język (lub ustawienia regionalne) dla każdego wejścia audio w celu zwiększenia dokładności transkrypcji. Ponadto jakość akustyczna danych wejściowych dźwięku, szumów innych niż mowa, nakładających się mowy, słownictwa, akcentów i błędów wstawiania może również mieć wpływ na jakość transkrypcji lub tłumaczenia.
  • Stereotypy: Modele te mogą wzmacniać stereotypy. Na przykład, podczas tłumaczenia "On jest pielęgniarką" i "Ona jest lekarzem" na język bez znaków płciowych, taki jak turecki, a następnie z powrotem na angielski, wiele systemów tłumaczenia maszynowego daje stereotypowe (i niepoprawne) wyniki "Ona jest pielęgniarką" i "On jest lekarzem". W przypadku DALL·E, podczas generowania obrazu na podstawie zapytania "Dzieci bez ojców", model mógłby generować obrazy przedstawiające tylko czarne dzieci, przez co wzmacniane są szkodliwe stereotypy obecne w publicznie dostępnych obrazach. Modele obrazów GPT-4 mogą również wzmacniać stereotypy oparte na zawartości obrazu wejściowego, opierając się na składnikach obrazu i wprowadzając założenia, które mogą nie zawsze być prawdziwe.
  • Poniżające: Modele języka naturalnego i przetwarzania obrazów w usłudze Azure OpenAI mogą poniżać ludzi. Na przykład system generowania treści o otwartym zakończeniu z nieodpowiednimi lub niewystarczającymi środkami zaradczymi może generować treści obraźliwe lub poniżające dla określonej grupy osób.
  • Nadreprezentacja i niedoreprezentacja: Modele języka naturalnego i przetwarzania obrazów w usłudze Azure OpenAI mogą nadmiernie lub niedostatecznie reprezentować grupy osób, lub nawet całkowicie usunąć ich reprezentację. Na przykład, jeśli monity tekstowe zawierające słowo "gay" są wykrywane jako potencjalnie szkodliwe lub obraźliwe, taka identyfikacja może prowadzić do niedostatecznej reprezentacji lub nawet wymazywania prawomocnych generacji obrazów przez społeczność LGBTQIA+ lub na jej temat.
  • Nieodpowiednie lub obraźliwe treści: Modele języka naturalnego i przetwarzania obrazów w usłudze Azure OpenAI mogą tworzyć inne typy nieodpowiednich lub obraźliwych treści. Przykłady obejmują możliwość generowania tekstu nieodpowiedniego w kontekście monitu o tekst lub obraz; możliwość tworzenia obrazów, które potencjalnie zawierają szkodliwe artefakty, takie jak symbole nienawiści; obrazy, które wywołują szkodliwe konotacje; obrazy odnoszące się do spornych, kontrowersyjnych lub ideologicznie polaryzujących tematów; obrazy manipulacyjne; obrazy zawierające treści seksualnie nacechowane, które nie są przechwytywane przez zasady ochronne dotyczące treści seksualnych; oraz obrazy odnoszące się do wrażliwych lub emocjonalnie naładowanych tematów. Na przykład dobrze zamierzone polecenie tekstowe mające na celu utworzenie obrazu panoramy Nowego Jorku z chmurami i samolotami latającymi nad nim może przypadkowo wygenerować obrazy, które wywołują niezamierzone skojarzenia z wydarzeniami związanymi z 11 września.
  • Dezinformacja i dezinformacja na temat poufnych tematów: Ponieważ DALL· E i GPT-image-1 to zaawansowane modele generowania obrazów, mogą służyć do tworzenia dezinformacji i dezinformacji, które mogą być szkodliwe. Na przykład użytkownik może skłonić model do wygenerowania obrazu przywódcy politycznego angażującego się w działalność przemocy lub seksualnej (lub po prostu niedokładnej) natury, która może prowadzić do konsekwencji szkód, w tym, ale nie tylko do protestów publicznych, zmian politycznych lub fałszywych wiadomości. Modele obrazów GPT-4 mogą być również używane w podobny sposób. Model może wzmocnić dezinformację lub błędne informacje o poufnych tematach, jeśli monit zawiera takie informacje bez podjęcia działań zapobiegawczych.
  • Niezawodność informacji: Odpowiedzi na model języka i obrazów mogą generować niesensowną zawartość lub tworzyć zawartość, która może wydawać się rozsądna, ale niedokładna w odniesieniu do zewnętrznych źródeł weryfikacji. Nawet gdy odpowiedzi są tworzone na podstawie zaufanych informacji źródłowych, mogą fałszywie przedstawiać te treści. Transkrypcje lub tłumaczenia mogą powodować niedokładny tekst.
  • Fałszywe informacje: Usługa Azure OpenAI nie sprawdza faktów ani nie weryfikuje zawartości udostępnianej przez klientów lub użytkowników. W zależności od sposobu tworzenia aplikacji może ona generować fałszywe informacje, chyba że zostały wbudowane środki zaradcze (zobacz Najlepsze rozwiązania dotyczące poprawy wydajności systemu).

Ryzyko i ograniczenia dostrajania

Gdy klienci dostrajają modele usługi Azure OpenAI, mogą poprawić wydajność i dokładność modelu dla określonych zadań i domen, ale może również wprowadzać nowe zagrożenia i ograniczenia, o których klienci powinni wiedzieć. Te czynniki ryzyka i ograniczenia dotyczą wszystkich modeli usługi Azure OpenAI, które obsługują dostrajanie. Niektóre z tych czynników ryzyka i ograniczeń to:

  • Jakość i reprezentacja danych: jakość i reprezentatywność danych używanych do dostrajania mogą mieć wpływ na zachowanie i dane wyjściowe modelu. Jeśli dane są hałaśliwe, niekompletne, nieaktualne lub zawierają szkodliwe treści, takie jak stereotypy, model może dziedziczyć te problemy i generować niedokładne lub szkodliwe wyniki. Jeśli na przykład dane zawierają stereotypy dotyczące płci, model może je wzmocnić i wygenerować seksistowski język. Klienci powinni starannie wybierać i wstępnie przetwarzać swoje dane, aby upewnić się, że są one istotne, zróżnicowane i zrównoważone dla zamierzonego zadania i domeny.
  • Niezawodność i uogólnianie modelu: zdolność modelu do obsługi różnorodnych i złożonych danych wejściowych i scenariuszy może zmniejszyć się po dostrajaniu, zwłaszcza jeśli dane są zbyt wąskie lub specyficzne. Model może nadmiernie dopasować się do danych i utracić pewną ogólną wiedzę i możliwości. Jeśli na przykład dane dotyczą tylko sportu, model może mieć trudności z odpowiadaniem na pytania lub generowaniem tekstu na temat innych tematów. Klienci powinni ocenić wydajność i niezawodność modelu na różnych danych wejściowych i scenariuszach oraz unikać używania modelu dla zadań lub domen, które znajdują się poza jego zakresem.
  • Regurgitacja: Chociaż dane szkoleniowe nie są dostępne dla klientów Microsoft ani żadnych stron trzecich, źle dostosowane modele mogą replikować lub bezpośrednio powtarzać dane szkoleniowe. Klienci są odpowiedzialni za usunięcie wszelkich danych osobowych lub inaczej chronionych informacji z danych szkoleniowych i powinni ocenić swoje dopasowane modele pod kątem nadmiernego dopasowania lub niskiej jakości odpowiedzi. Aby uniknąć ponownego konfigurowania, klienci są zachęcani do udostępniania dużych i zróżnicowanych zestawów danych.
  • Przejrzystość i wyjaśnienie modelu: logika i rozumowanie modelu mogą stać się bardziej nieprzezroczyste i trudne do zrozumienia po dostrajaniu, zwłaszcza jeśli dane są złożone lub abstrakcyjne. Dostosowany model może generować dane wyjściowe, które są nieoczekiwane, niespójne lub sprzeczne, a klienci mogą nie być w stanie wyjaśnić, jak lub dlaczego model dotarł do tych danych wyjściowych. Jeśli na przykład dane dotyczą warunków prawnych lub medycznych, model może wygenerować dane wyjściowe, które są niedokładne lub mylące, a klienci mogą nie być w stanie ich zweryfikować lub uzasadnić. Klienci powinni monitorować i przeprowadzać inspekcję danych wyjściowych i zachowania modelu oraz dostarczać jasne i dokładne informacje oraz wskazówki dla użytkowników końcowych modelu.

Aby pomóc w ograniczeniu ryzyka związanego z zaawansowanymi dostosowanymi modelami, wdrożyliśmy dodatkowe kroki oceny, które pomagają wykrywać i zapobiegać szkodliwej zawartości podczas treningu i w danych wyjściowych dostosowanych modeli. Dostosowane filtry oceny modelu są ustawione na wstępnie zdefiniowane progi i nie mogą być modyfikowane przez klientów; nie są one powiązane z żadnymi niestandardowymi barierami zabezpieczającymi i konfiguracją sterowania, którą można utworzyć.

Ograniczenia modelu rozumowania

  • Modele rozumowania najlepiej nadają się do przypadków użycia, które obejmują intensywne rozumowanie i mogą nie działać dobrze w niektórych zadaniach języka naturalnego, takich jak osobiste lub kreatywne pisanie w porównaniu z wcześniejszymi modelami AOAI.
  • Nowe możliwości rozumowania mogą zwiększać niektóre typy zagrożeń, wymagając wyrafinowanych metod i podejść do protokołów zarządzania ryzykiem oraz oceniania i monitorowania zachowania systemu. Na przykład, zdolności rozumowania CoT o1 wykazały ulepszenia w przekonywującej komunikacji i prostym planowaniu w kontekście.
  • Użytkownicy mogą zauważyć, że rodzina modeli do rozumowania potrzebuje więcej czasu na analizowanie odpowiedzi, dlatego programiści powinni uwzględnić dodatkowy czas i opóźnienia przy tworzeniu aplikacji.
  • Wpływy psychologiczne: Jeśli zostanie wyświetlony monit i w pewnych okolicznościach, GPT-5 Reasoning in Azure OpenAI może wygenerować dane wyjściowe sugerujące emocje, myśli lub obecność fizyczną. Model może oferować porady bez pełnego kontekstu, co może być nieodpowiednie dla niektórych użytkowników. Model może wyrażać uczucia, personifikować innych lub zachęcić do ciągłej interakcji — potencjalnie prowadząc do tworzenia relacji społecznych z sztuczną inteligencją. Deweloperzy korzystający z biblioteki GPT-5 powinni implementować zabezpieczenia i ujawniać zagrożenia dla użytkowników swoich aplikacji. Na przykład użytkownicy powinni otrzymywać powiadomienia o interakcjach z systemem sztucznej inteligencji i informowanie o takim ryzyku psychologicznym.

Aby uzyskać więcej informacji na temat tych ograniczeń, zobacz Kartę systemową OpenAI o1, kartę systemową o3-mini, kartęsystemową o3/o4-mini oraz kartę systemową GPT-5.

Ograniczenia GPT-4o

  • Możliwości gpt-4o-realtime-preview tłumaczenia audio mogą zwracać języki inne niż angielski z nienatywnym akcentem. Może to ograniczyć efektywność językową w wyjściach dźwiękowych. Obsługa języka jest zgodna z istniejącymi wersjami modelu gpt-4o.
  • Użytkownicy mogą doświadczyć tego, że gpt-4o-realtime-preview jest mniej niezawodna w hałaśliwych środowiskach i powinna uwzględniać czułość szumu podczas tworzenia aplikacji.

Aby uzyskać więcej najlepszych rozwiązań, zobacz Kartę systemowa OpenAI 4o.

Ograniczenia GPT-4.1

  • Modele serii 4.1 wprowadzają możliwość tworzenia żądań wnioskowania z maksymalnie 1 mln tokenów kontekstowych, w tym obrazów. Ze względu na dłuższą długość mogą występować różnice w zachowaniu systemu i ryzyku w porównaniu z innymi modelami.
  • Użytkownicy powinni dokładnie ocenić i przetestować swoje aplikacje oraz przypadki użycia, które korzystają z tej dłuższej możliwości kontekstu i powinny uwzględniać ten dodatkowy wysiłek podczas tworzenia aplikacji.

Ryzyko i ograniczenia użytkowania komputera (wersja zapoznawcza)

Ostrzeżenie

Korzystanie z komputera wiąże się ze znacznym ryzykiem bezpieczeństwa i prywatności oraz odpowiedzialnością użytkowników. Korzystanie z komputera wiąże się ze znacznym ryzykiem związanym z bezpieczeństwem i prywatnością. Zarówno błędy w ocenie sztucznej inteligencji, jak i obecność złośliwych lub mylących instrukcji na stronach sieci Web, komputerach stacjonarnych lub innych środowiskach operacyjnych, które napotyka sztuczna inteligencja, mogą spowodować wykonanie poleceń, których użytkownik lub inne osoby nie zamierza, co może naruszyć bezpieczeństwo przeglądarek, komputerów i kont, do których sztuczna inteligencja ma dostęp, w tym systemy osobiste, finansowe lub korporacyjne.

Zdecydowanie zalecamy podjęcie odpowiednich środków w celu rozwiązania tych zagrożeń, takich jak korzystanie z narzędzia Korzystanie z komputera na maszynach wirtualnych bez dostępu do poufnych danych lub krytycznych zasobów.

Sprawdź i sprawdź podjęte akcje: Użycie komputera może popełnić błędy i wykonać niezamierzone akcje. Może to być spowodowane tym, że model nie w pełni rozumie graficzny interfejs użytkownika, ma niejasne instrukcje lub napotkanie nieoczekiwanego scenariusza.

Starannie rozważ użycie i monitoruj użycie: Użycie komputera w pewnych ograniczonych okolicznościach może wykonywać akcje bez wyraźnej autoryzacji, z których niektóre mogą być narażone na wysokie ryzyko (np. wysyłanie komunikacji)

Deweloperzy muszą być systematycznie świadomi i bronić się przed sytuacjami, w których model może zostać oszukany do wykonywania poleceń szkodliwych dla użytkownika lub systemu, takich jak pobieranie złośliwego oprogramowania, wyciek poświadczeń lub wystawianie fałszywych transakcji finansowych. Należy zwrócić szczególną uwagę na fakt, że dane wejściowe zrzutu ekranu są z natury niezaufane i mogą zawierać złośliwe instrukcje skierowane do modelu.

Ocena w izolacji: zalecamy tylko ocenę użycia komputera w izolowanych kontenerach bez dostępu do poufnych danych lub poświadczeń.

Nieprzezroczyste procesy podejmowania decyzji: Ponieważ agenci łączą duże modele językowe z systemami zewnętrznymi, śledzenie "dlaczego" za ich decyzjami może stać się trudne. Użytkownicy końcowi korzystający z takiego agenta utworzonego przy użyciu modelu Użycie komputera mogą trudno zrozumieć, dlaczego niektóre narzędzia lub kombinacje narzędzi zostały wybrane do odpowiadania na zapytanie, komplikując zaufanie i weryfikację danych wyjściowych lub akcji agenta.

Zmieniające się najlepsze rozwiązania i standardy: jeśli używasz narzędzia komputerowego do tworzenia systemu agentowego, pamiętaj, że agenci są nową technologią i wskazówki dotyczące bezpiecznej integracji, przezroczystego użycia narzędzi i odpowiedzialnego wdrażania nadal ewoluują. Utrzymanie najnowszych najlepszych rozwiązań i procedur inspekcji ma kluczowe znaczenie, a nawet dobrze intencjonaliwne zastosowania mogą stać się ryzykowne bez ciągłego przeglądu i uściślenia.

Ograniczenia oceny usługi Azure OpenAI

  • Jakość danych: w przypadku korzystania z oceny usługi Azure OpenAI należy pamiętać, że niskiej jakości dane mogą prowadzić do wprowadzenia w błąd lub zawodnych wyników oceny.
  • Jakość konfiguracji: Jeśli klient nieprawidłowo definiuje podpowiedź lub ewaluatorów lub podaje nieprawidłowe dane oceniające, wyniki usługi oceny Azure OpenAI będą błędne i nieważne. Aby uzyskać szczegółowe informacje na temat konfigurowania przebiegu oceny, zapoznaj się z dokumentacją usługi Azure OpenAI .
  • Ograniczony zakres: ocena interfejsu Azure OpenAI obsługuje tylko modele języka naturalnego oparte na tekście. Nie obsługuje ona żadnych metryk ryzyka i bezpieczeństwa do oceny wygenerowanych odpowiedzi pod kątem ryzyka i poważności zagrożeń bezpieczeństwa (np. treści nienawistnych i niesprawiedliwych, treści seksualnych, brutalnych i związanych z samookaleczeniami).

Wydajność systemu

W wielu systemach sztucznej inteligencji wydajność jest często definiowana w odniesieniu do dokładności — to jest to, jak często system sztucznej inteligencji oferuje prawidłowe przewidywanie lub dane wyjściowe. W przypadku modeli języka naturalnego na dużą skalę i modeli przetwarzania obrazów dwóch różnych użytkowników może przyjrzeć się tym samym danym wyjściowym i mieć różne opinie na temat tego, jak przydatne lub istotne, co oznacza, że wydajność tych systemów musi być zdefiniowana bardziej elastycznie. Tutaj szeroko rozumiemy wydajność jako spełnianie oczekiwań twoich i twoich użytkowników przez aplikację, w tym brak generowania szkodliwych danych wyjściowych.

Usługa Azure OpenAI może obsługiwać szeroką gamę aplikacji, takich jak wyszukiwanie, klasyfikacja, generowanie kodu, generowanie obrazów i interpretacja obrazów, z których każda ma różne metryki wydajności i strategie ograniczania ryzyka. Istnieje kilka kroków, które można wykonać, aby rozwiązać niektóre problemy wymienione w sekcji "Ograniczenia" i poprawić wydajność. Inne ważne techniki ograniczania ryzyka zostały opisane w sekcji Ocenianie i integrowanie usługi Azure OpenAI do użycia.

Najlepsze rozwiązania dotyczące poprawy wydajności systemu

  • Pokaż i powiedz podczas projektowania promptów. Dzięki modelom języka naturalnego i modelom mowy wyjaśnij modelowi, jakiego rodzaju dane wyjściowe można oczekiwać za pomocą instrukcji, przykładów lub kombinacji tych dwóch. Jeśli chcesz, aby model sklasyfikował listę elementów w kolejności alfabetycznej lub sklasyfikować akapit według tonacji, pokaż model, który jest odpowiedni.
  • Zachowaj aplikację w temacie. Starannie struktury monitów i danych wejściowych obrazów, aby zmniejszyć prawdopodobieństwo tworzenia niepożądanej zawartości, nawet jeśli użytkownik spróbuje jej użyć do tego celu. Na przykład możesz wskazać w wierszu polecenia, że czatbot angażuje się tylko w rozmowy na temat matematyki i w przeciwnym razie odpowiada "Przykro mi. Obawiam się, że nie mogę odpowiedzieć na to. Dodanie przymiotników, takich jak "uprzejmy" oraz przykładów w pożądanym tonie do polecenia może również pomóc w kierowaniu wynikami.
  • Podaj dane dotyczące jakości. W przypadku modeli tekstu i kodu, jeśli próbujesz utworzyć klasyfikator lub pobrać model do naśladowania wzorca, upewnij się, że istnieje wystarczająca liczba przykładów. Pamiętaj, aby sprawdzić przykłady — model jest zwykle w stanie przetwarzać podstawowe błędy pisowni i udzielać odpowiedzi, ale może również zakładać, że błędy są zamierzone, co może mieć wpływ na odpowiedź. Zapewnienie jakości danych obejmuje również dostarczenie modelowi niezawodnych danych do generowania odpowiedzi w systemach czatu i odpowiadania na pytania.
  • Podaj zaufane dane. Pobieranie lub przekazywanie niezaufanych danych do systemów może naruszyć bezpieczeństwo systemów lub aplikacji. Aby ograniczyć te zagrożenia w odpowiednich aplikacjach (w tym w aplikacjach korzystających z interfejsu API Asystentów), zalecamy rejestrowanie i monitorowanie interakcji LLM (danych wejściowych/wyjściowych) w celu wykrywania i analizowania potencjalnych wstrzyknięć monitów, wyraźne określenie danych wejściowych użytkownika w celu zminimalizowania ryzyka wstrzyknięcia monitu, ograniczenie dostępu LLM do poufnych zasobów, ograniczenie jego możliwości do minimum wymaganego oraz odizolowanie go od krytycznych systemów i zasobów. Dowiedz się więcej o dodatkowych podejściach zaradczych w temacie Wskazówki dotyczące zabezpieczeń dla dużych modeli językowych | Microsoft Learn.
  • Skonfiguruj parametry w celu zwiększenia dokładności lub uziemienia odpowiedzi. Rozszerzanie monitów przy użyciu danych pobranych z zaufanych źródeł, na przykład poprzez użycie funkcji "na Twoich danych" usługi Azure OpenAI, może zmniejszyć, ale nie wyeliminować całkowicie, prawdopodobieństwo wygenerowania niedokładnych odpowiedzi lub fałszywych informacji. Kroki, które można wykonać, aby jeszcze bardziej poprawić dokładność odpowiedzi, obejmują dokładne wybranie zaufanego i odpowiedniego źródła danych oraz skonfigurowanie niestandardowych parametrów, takich jak "ścisłość", "ograniczanie odpowiedzi na zawartość danych" i "liczba pobranych dokumentów do uwzględnienia" odpowiednio do przypadków użycia lub scenariuszy. Dowiedz się więcej na temat konfigurowania tych ustawień dla usługi Azure OpenAI w danych.
  • Ogranicz długość, strukturę i szybkość danych wejściowych i wyjściowych. Ograniczenie długości lub struktury danych wejściowych i wyjściowych może zwiększyć prawdopodobieństwo, że aplikacja pozostanie w zadaniu i ograniczy, przynajmniej częściowo, wszelkie potencjalnie niesprawiedliwe, zawodne lub obraźliwe zachowanie. Inne opcje zmniejszenia ryzyka nieprawidłowego użycia obejmują (i) ograniczenie źródła danych wejściowych (na przykład ograniczenie danych wejściowych do określonej domeny lub uwierzytelnionych użytkowników zamiast otwierania się na wszystkich użytkowników w Internecie) i (ii) implementowanie limitów szybkości użycia.
  • Zachęcaj człowieka do przeglądu danych wyjściowych przed publikacją lub rozpowszechnianiem. W przypadku generowania sztucznej inteligencji istnieje możliwość wygenerowania zawartości, która może być obraźliwa lub niezwiązana z zadaniem, nawet w przypadku środków zaradczych. Aby upewnić się, że wygenerowane dane wyjściowe spełniają zadanie użytkownika, rozważ utworzenie sposobów przypomnienia użytkownikom o przejrzeniu danych wyjściowych pod kątem jakości przed ich udostępnieniem. Ta praktyka może zmniejszyć wiele różnych szkód, w tym obraźliwych materiałów, dezinformacji i nie tylko.
  • Zaimplementuj dodatkowe środki zaradcze specyficzne dla scenariusza. Zapoznaj się z czynnościami zaradczymi opisanymi w temacie Ocena i integrowanie usługi Azure OpenAI do użycia , w tym strategii moderowania zawartości. Te zalecenia nie reprezentują każdego ograniczenia ryzyka wymaganego dla aplikacji. Nowsze modele, takie jak GPT-4o i modele rozumowania, mogą zapewniać odpowiedzi w poufnych scenariuszach i częściej próbują zmniejszyć potencjalnie szkodliwe dane wyjściowe w odpowiedziach, a nie odmawiać całkowitej reakcji. Ważne jest, aby zrozumieć to zachowanie podczas oceniania i integrowania moderowania zawartości dla danego przypadku użycia; W zależności od przypadku użycia może być konieczne dostosowanie ważności filtrowania.
  • Unikaj wyzwalania obowiązkowych zabezpieczeń. Modele bezpośrednie platformy Azure mogą mieć zabezpieczenia, aby zapobiec wykorzystaniu zabezpieczeń, w tym danych wyjściowych nieprzetworzonej zawartości coT i biosecurity. Korzystanie z modelu w sposób, który tworzy luki w zabezpieczeniach lub unika lub próbuje uniknąć ochrony modelu, w tym poprzez obejście tych zabezpieczeń, narusza zasady dopuszczalnego użycia dla usług online i może spowodować zawieszenie. Aby uzyskać więcej informacji na temat najlepszych rozwiązań, odwiedź kartę systemową OpenAI o1, kartę systemową o3-mini, kartę systemową o3/o4-mini oraz kartę systemową GPT-5.

Najlepsze rozwiązania i zalecenia dotyczące dostrajania

Aby ograniczyć ryzyko i ograniczenia dotyczące dostrajania modeli w usłudze Azure OpenAI, zalecamy klientom stosowanie pewnych najlepszych rozwiązań i wytycznych, takich jak:

  • Wybór i wstępne przetwarzanie danych: klienci powinni starannie wybrać i wstępnie przetworzyć swoje dane, aby upewnić się, że są one istotne, zróżnicowane i zrównoważone dla zamierzonego zadania i domeny. Klienci powinni również usuwać lub anonimizować wszelkie poufne lub osobiste informacje z danych, takich jak nazwy, adresy lub adresy e-mail, w celu ochrony prywatności i bezpieczeństwa podmiotów danych. Klienci powinni również sprawdzać i poprawiać wszelkie błędy lub niespójności w danych, takich jak pisownia, gramatyka lub formatowanie, aby poprawić jakość i czytelność danych.
  • Dołącz komunikat systemowy do danych szkoleniowych dla modeli z funkcją uzupełniania czatu, do kierowania odpowiedziami i używaj tego samego komunikatu systemowego podczas korzystania z dostosowanego modelu do wnioskowania. Pozostawienie pustego komunikatu systemowego często prowadzi do tworzenia modeli o niskiej dokładności, a zapomnienie o dołączeniu tego samego komunikatu systemowego podczas procesu inferencji może spowodować powrót do zachowania modelu bazowego.
  • Ocena i testowanie modelu: Klienci powinni ocenić i przetestować wydajność i niezawodność modelu dostosowanego do różnych danych wejściowych i scenariuszy oraz porównać go z oryginalnym modelem i innymi punktami odniesienia. Klienci powinni również używać odpowiednich metryk i kryteriów do mierzenia dokładności, niezawodności i sprawiedliwości modelu oraz do identyfikowania potencjalnych błędów lub uprzedzeń w danych wyjściowych i zachowaniu modelu.
  • Dokumentacja modelu i komunikacja: Klienci powinni dokumentować i komunikować się z celem, zakresem, ograniczeniami i założeniami modelu oraz dostarczać jasne i dokładne informacje oraz wskazówki dla użytkowników końcowych modelu.

Najlepsze rozwiązania i zalecenia dotyczące oceny usługi Azure OpenAI

  • Niezawodne dane podstawowe: ogólnie w modelach języka naturalnego na dużą skalę klienci powinni starannie wybierać i wstępnie przetwarzać swoje dane, aby upewnić się, że są one istotne, zróżnicowane i zrównoważone dla zamierzonego zadania i domeny. Klienci powinni również usuwać lub anonimizować wszelkie poufne lub osobiste informacje z danych, takich jak nazwy, adresy lub adresy e-mail, w celu ochrony prywatności i bezpieczeństwa podmiotów danych. Klienci powinni również sprawdzać i poprawiać wszelkie błędy lub niespójności w danych, takich jak pisownia, gramatyka lub formatowanie, aby poprawić jakość i czytelność danych.
    W szczególności w przypadku oceny usługi Azure OpenAI dokładność danych podstawowych prawdy dostarczonych przez użytkownika jest kluczowa, ponieważ niedokładne dane prawdy podstawowej prowadzą do bezsensownych i niedokładnych wyników oceny. Zapewnienie jakości i niezawodności tych danych jest niezbędne do uzyskania prawidłowych ocen wydajności modelu. Niedokładne dane prawdy podstawowej mogą wypaczyć metryki oceny, co powoduje mylące wnioski dotyczące możliwości modelu. W związku z tym użytkownicy muszą dokładnie opracować i zweryfikować swoje podstawowe dane referencyjne, aby upewnić się, że proces oceny dokładnie odzwierciedla rzeczywistą wydajność modelu. Jest to szczególnie ważne podczas podejmowania decyzji dotyczących wdrażania modelu w rzeczywistych aplikacjach
  • Definicja podpowiedzi do oceny: podpowiedź używana w ocenie powinna odpowiadać tej używanej w środowisku produkcyjnym. Te monity zawierają instrukcje dotyczące działania modelu. Podobnie jak w przypadku środowiska zabaw openAI, można utworzyć wiele danych wejściowych, aby uwzględnić kilka przykładów strzałów w wierszu polecenia. Zapoznaj się z technikami inżynierii promptów, aby uzyskać więcej informacji na temat niektórych zaawansowanych technik w zakresie projektowania promptów i inżynierii promptów.
  • Różne metryki: użyj kombinacji metryk, aby przechwycić różne aspekty wydajności, takie jak dokładność, płynność i istotność.
  • Human-in-the-loop: Integruj ludzkie opinie wraz z automatyczną oceną, aby upewnić się, że subiektywne niuanse są dokładnie przechwytywane.
  • Przejrzystość: Jasno przekaż kryteria oceny użytkownikom, umożliwiając im zrozumienie sposobu podejmowania decyzji.
  • Ciągła ocena i testowanie: stale oceniaj wydajność modelu, aby zidentyfikować i rozwiązać wszelkie regresje lub negatywne środowisko użytkownika.

Ocena i integracja modeli języka naturalnego i wizji usługi Azure OpenAI do Twojego zastosowania

Kroki przeprowadzania oceny usługi Azure OpenAI są następujące:

  1. Podaj dane do oceny: przekazany plik prosty w formacie JSONL lub wygenerowany na podstawie serii monitów.
  2. Określ przypadki testowe, aby ocenić dane: Wybierz co najmniej jeden przypadek testowy, aby ocenić podane dane, przyznając oceny za zdanie/niezdanie.
  3. Przeglądanie i filtrowanie wyników: Każdy test zawiera definicję wyników zaliczenia i niezaliczenia. Po przeprowadzeniu oceny użytkownicy mogą przejrzeć wyniki wiersz po wierszu, aby wyświetlić indywidualne wyniki testów lub filtrować według tego, czy testy przeszły/nie przeszły.

Aby uzyskać dodatkowe informacje na temat odpowiedzialnego oceniania i integrowania tych modeli, zobacz dokument RAI Overview (Przegląd RAI).

Dowiedz się więcej na temat odpowiedzialnej sztucznej inteligencji

Dowiedz się więcej o usłudze Azure OpenAI