Udostępnij przez


Przegląd przeprowadzany przez człowieka dla automatyzacji z monitem

W tym artykule wyjaśniono krytyczną rolę przeglądu przez człowieka podczas uruchamiania monitu. Prompty wykorzystują generatywne modele sztucznej inteligencji oparte na usłudze OpenAI. Chociaż modele te są bardzo skuteczne, mogą czasami generować mylące lub sfabrykowane informacje i są podatne na ataki typu prompt injection.

Ważne

Ataki typu prompt injection

Atak typu prompt injection ma miejsce, gdy strona trzecia wykorzystuje zaufanie modelu do wszystkich źródeł danych wejściowych. Atakujący podaje prompt do treści, w której prawdziwy użytkownik prosi rozwiązanie AI o interakcję, co prowadzi do zmiany danych wyjściowych rozwiązania AI i potencjalnie jego działań.

Rozważmy scenariusz, w którym obywatel-programista używa promptu do tworzenia odpowiedzi na skargi klientów zebrane z różnych platform, takich jak e-maile, media społecznościowe lub fora. Atakujący może wstawić prompt do treści z jednego z tych źródeł, oszukując model i zmuszając go do wygenerowania niezamierzonej odpowiedzi. Odpowiedź może być niewłaściwa, nieprawidłowa lub szkodliwa. Wysyłanie nieprawidłowych informacji do klientów może zaszkodzić reputacji firmy i relacjom z klientami.

Fabrykacja danych w modelach AI

Fabrykacja, znana również jako halucynacja, jest kolejnym wyzwaniem, przed którym stoją modele AI, w tym generatywne modele AI wykorzystywane przez prompty. Fabrykacja to występuje, gdy model sztucznej inteligencji generuje informacje, które nie są oparte na dostarczonych danych wejściowych lub wcześniej istniejących danych, zasadniczo wymyślając lub halucynując informacje.

Na przykład, jeśli model AI zostanie poproszony o wygenerowanie podsumowania wydarzenia historycznego na podstawie danego tekstu, może zawierać szczegóły lub wydarzenia, które nie zostały wspomniane w tekście źródłowym, a nawet fakty, które są historycznie niepoprawne. Na przykład przepływ w chmurze tworzy streszczenie spotkania na podstawie transkrypcji nagrania. Dane wejściowe obejmują szczegóły dotyczące uczestników, omawianych artykułów i podjętych decyzji. Model może jednak wygenerować podsumowanie zawierające element działania lub decyzję, która nigdy nie była omawiana na spotkaniu. Ta sytuacja jest przykładem fabrykacji, w której model ma halucynacje informacje, które nie istnieją w danych wejściowych.

Aby zmniejszyć ryzyko fabrykacji, kluczowe jest wdrożenie odpowiedzialnych praktyk AI. Obejmuje to rygorystyczne testowanie monitu i przepływu w chmurze, dostarczanie modelowi jak największej ilości informacji kontekstowych i wreszcie wdrożenie solidnego systemu nadzoru przez człowieka.

Przeciwdziałanie ryzyku poprzez odpowiedzialne praktyki AI

Opowiadamy się za odpowiedzialnymi praktykami AI jako sposobem na ograniczenie tego ryzyka. Pomimo posiadania strategii moderowania treści tworzonych przez model, zarządzanie skłonnością modelu do generowania sfabrykowanych odpowiedzi lub ulegania atakom typu prompt injection pozostaje złożonym wyzwaniem. Zdajemy sobie sprawę z tego ryzyka i potwierdzamy nasze zaangażowanie w nadzór i kontrolę nad ludźmi.

Uznając konieczność płynnej automatyzacji, aktywnie ulepszamy nasze systemy bezpieczeństwa i staramy się lepiej zrozumieć te wyzwania.

Naszym celem jest dalsze udoskonalanie generatywnych modeli AI wykorzystywanych przez prompty poprzez odpowiednie środki bezpieczeństwa, zgodnie z naszymi zasadami odpowiedzialnego wykorzystania AI od samego początku, przywracając kontrolę deweloperom wszędzie tam, gdzie jest to możliwe.