Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Proces etykietowania jest ważną częścią przygotowywania zestawu danych. Ponieważ ten proces wymaga dużo czasu i nakładu pracy, możesz użyć funkcji automatycznego etykietowania dokumentów przy użyciu klas, do których chcesz je podzielić. Obecnie można uruchamiać zadania automatycznego etykietowania na podstawie modelu przy użyciu modeli GPT, w których można natychmiast wyzwolić zadanie automatycznego etykietowania bez wcześniejszego trenowania modelu. Ta funkcja pozwala zaoszczędzić czas i nakład pracy ręcznego etykietowania dokumentów.
Wymagania wstępne
Aby można było używać automatycznego etykietowania za pomocą biblioteki GPT, potrzebne są następujące elementy:
- Pomyślnie utworzono projekt ze skonfigurowanym kontem usługi Azure Blob Storage.
- Dane tekstowe załadowane na konto magazynowe.
- Nazwy klas, które mają znaczenie. Modele GPT etykietuje dokumenty na podstawie nazw podanych klas.
- Dane oznaczone etykietami nie są wymagane.
- Zasób i wdrożenie usługi Azure OpenAI.
Wyzwalanie zadania automatycznego etykietowania
Po wyzwoleniu zadania automatycznego etykietowania za pomocą biblioteki GPT są naliczane opłaty za zasób usługi Azure OpenAI zgodnie z użyciem. Opłaty są naliczane według szacowanej liczby tokenów w każdym dokumencie, który jest automatycznie pod etykietą. Zapoznaj się ze stroną cennika usługi Azure OpenAI, aby uzyskać szczegółowy podział cen na token różnych modeli.
W okienku po lewej stronie wybierz pozycję Etykietowanie danych.
Wybierz przycisk Autolabel w okienku Działanie po prawej stronie.
Wybierz pozycję Autolabel with GPT (Autolabel with GPT), a następnie wybierz przycisk Next (Dalej).
Wybierz zasób i wdrożenie usługi Azure OpenAI. Aby kontynuować, musisz utworzyć zasób usługi Azure OpenAI i wdrożyć model .
Wybierz klasy, które chcesz uwzględnić w zadaniu automatycznego etykietowania. Domyślnie wszystkie klasy są zaznaczone. Zaleca się posiadanie opisowych nazw klas i uwzględnienie przykładów dla każdej klasy w celu uzyskania dobrej jakości etykietowania za pomocą biblioteki GPT.
Wybierz dokumenty, które mają być automatycznie oznaczone etykietą. Zalecamy wybranie nieoznakowanych dokumentów z filtru.
Uwaga
- Jeśli dokument został automatycznie oznaczony etykietą, ale ta etykieta została już zdefiniowana przez użytkownika, używana jest tylko etykieta zdefiniowana przez użytkownika.
- Dokumenty można wyświetlić, wybierając nazwę dokumentu.
Wybierz pozycję Uruchom zadanie , aby wyzwolić zadanie automatycznego etykietowania. Powinno nastąpić przekierowanie do strony automatycznego etykietowania zawierającej zainicjowane zadania automatycznego etykietowania. Zadania automatycznego etykietowania mogą potrwać od kilku sekund do kilku minut, w zależności od liczby uwzględnionych dokumentów.
Przeglądanie dokumentów z etykietami automatycznymi
Po zakończeniu zadania automatycznego etykietowania można wyświetlić dokumenty wyjściowe na stronie Etykietowanie danych w programie Language Studio. Wybierz pozycję Przejrzyj dokumenty z autolabelami , aby wyświetlić dokumenty z zastosowanym filtrem z etykietą Automatyczna .
Dokumenty, które zostały sklasyfikowane automatycznie, sugerowały etykiety w okienku działania wyróżnionym purpurowo. Każda sugerowana etykieta ma dwie selektory (znacznik wyboru i ikonę anulowania), które umożliwiają akceptowanie lub odrzucanie etykiety automatycznej.
Po zaakceptowaniu etykiety kolor fioletowy zmieni się na domyślny niebieski, a etykieta zostanie uwzględniona w każdym kolejnym trenowaniu modelu, który staje się etykietą zdefiniowaną przez użytkownika.
Po zaakceptowaniu lub odrzuceniu etykiet dla dokumentów z etykietami automatycznymi wybierz pozycję Zapisz etykiety , aby zastosować zmiany.
Uwaga
- Zalecamy automatyczne weryfikowanie dokumentów oznaczonych etykietami przed ich zaakceptowaniem.
- Wszystkie etykiety, które nie zostały zaakceptowane, są usuwane podczas trenowania modelu.
Następne kroki
- Dowiedz się więcej na temat etykietowania danych.