Szybki start: tworzenie narzędzia do wykrywania obiektów za pomocą witryny internetowej usługi Custom Vision

W tym przewodniku wyjaśniono, jak korzystać z witryny internetowej Custom Vision, aby utworzyć model wykrywania obiektów. Po utworzeniu modelu możesz przetestować go przy użyciu nowych obrazów i zintegrować go z własną aplikacją do rozpoznawania obrazów.

Wymagania wstępne

Subskrypcja platformy Azure. Możesz utworzyć bezpłatne konto.
Zestaw obrazów, za pomocą których można wytrenować model detektora. Możesz użyć zestawu przykładowych obrazów w usłudze GitHub. Możesz też wybrać własne obrazy, korzystając z poniższych wskazówek.
Obsługiwana przeglądarka internetowa.

Tworzenie zasobów usługi Custom Vision

Aby korzystać z usługi Custom Vision, należy utworzyć zasoby szkoleniowe i przewidywania usługi Custom Vision na platformie Azure. W witrynie Azure Portal użyj strony Tworzenie usługi Custom Vision , aby utworzyć zarówno zasób szkoleniowy, jak i zasób przewidywania.

Tworzenie nowego projektu

W przeglądarce internetowej przejdź do witryny internetowej usługi Custom Vision. Zaloguj się przy użyciu tego samego konta, które zostało użyte do zalogowania się w witrynie Azure Portal.

Zrzut ekranu przedstawiający stronę logowania.

Aby utworzyć pierwszy projekt, wybierz pozycję Nowy projekt. Zostanie wyświetlone okno dialogowe Tworzenie nowego projektu .
Wprowadź nazwę i opis projektu. Następnie wybierz zasób treningowy Custom Vision. Jeśli zalogowane konto jest skojarzone z kontem platformy Azure, na liście rozwijanej Zasób zostaną wyświetlone wszystkie zgodne zasoby platformy Azure.

Uwaga

Jeśli żaden zasób nie jest dostępny, upewnij się, że zalogowano się do customvision.ai przy użyciu tego samego konta, które zostało użyte do zalogowania się w witrynie Azure Portal. Upewnij się również, że wybrano ten sam katalog w witrynie internetowej usługi Custom Vision co katalog w witrynie Azure Portal, w której znajdują się zasoby usługi Custom Vision. W obu witrynach możesz wybrać swój katalog z menu rozwijanego konta znajdującego się w prawym górnym rogu ekranu.
W obszarze Typy projektów wybierz pozycję Wykrywanie obiektów.

Wybierz jedną z dostępnych domen. Każda domena optymalizuje detektor pod kątem określonych typów obrazów, zgodnie z opisem w poniższej tabeli. Jeśli chcesz, możesz później zmienić domenę.

Domena	Cel
Ogólne	Zoptymalizowane pod kątem szerokiego zakresu zadań wykrywania obiektów. Jeśli żadna z innych domen nie jest odpowiednia lub jeśli nie masz pewności, którą domenę wybrać, wybierz domenę Ogólne .
Logo	Zoptymalizowany pod kątem znajdowania logo marki na obrazach.
Produkty na półkach	Zoptymalizowane pod kątem wykrywania i klasyfikowania produktów na półkach.
Domeny kompaktowe	Zoptymalizowane pod kątem ograniczeń wykrywania obiektów w czasie rzeczywistym na urządzeniach przenośnych. Modele generowane przez domeny kompaktowe można eksportować do uruchamiania lokalnie.

Na koniec wybierz pozycję Utwórz projekt.

Wybieranie obrazów szkoleniowych

Co najmniej należy użyć co najmniej 30 obrazów na tag w początkowym zestawie treningowym. Należy również zebrać kilka dodatkowych obrazów, aby przetestować model po jego wytrenowaniu.

Aby efektywnie trenować model, użyj obrazów o różnorodnej wizualności. Wybierz obrazy, które różnią się w zależności od:

kąt kamery
oświetlenie
tło
styl wizualizacji
osoby/pogrupowane podmioty
rozmiar
typ

Ponadto upewnij się, że wszystkie obrazy szkoleniowe spełniają następujące kryteria:

musi mieć format .jpg, .png, .bmp lub .gif
rozmiar nie większy niż 6 MB (4 MB dla obrazów przewidywania)
nie mniej niż 256 pikseli na najkrótszej krawędzi; wszystkie obrazy krótsze niż 256 pikseli są automatycznie skalowane w górę przez usługę Custom Vision

Przekazywanie i tagowanie obrazów

W tej sekcji przesyłasz i ręcznie tagujesz zdjęcia, aby ułatwić szkolenie narzędzia detekcji.

Aby dodać obrazy, wybierz pozycję Dodaj obrazy , a następnie wybierz pozycję Przeglądaj pliki lokalne. Naciśnij Otwórz, aby przesłać zdjęcia.
Przekazane obrazy zostaną wyświetlone w sekcji Nieotagowane w interfejsie użytkownika. Następnym krokiem jest ręczne oznaczanie obiektów, które mają być rozpoznawane przez detektor. Wybierz pierwszy obraz, aby otworzyć okno dialogowe tagowania.
Zaznacz i przeciągnij prostokąt wokół obiektu na obrazie. Następnie wprowadź nową nazwę tagu z przyciskiem + lub wybierz istniejący tag z listy rozwijanej. Ważne jest, aby tagować każde wystąpienie obiektów, które chcesz wykryć, ponieważ wykrywacz używa nieoznakowanych obszarów tła jako negatywnego przykładu w trakcie treningu. Po zakończeniu tagowania wybierz strzałkę po prawej stronie, aby zapisać tagi i przejść do następnego obrazu.

Aby załadować inny zestaw obrazów, wróć na górę tej sekcji i powtórz kroki.

Trenowanie detektora

Aby wytrenować model detektora, wybierz przycisk Trenuj . Wykrywacz używa wszystkich bieżących obrazów i ich tagów do utworzenia modelu identyfikującego każdy otagowany obiekt. Ten proces może potrwać kilka minut.

Zrzut ekranu przedstawiający przycisk pociągu na pasku narzędzi w nagłówku strony internetowej.

Proces trenowania powinien potrwać tylko kilka minut. W tym czasie informacje o procesie trenowania są wyświetlane na karcie Wydajność .

Zrzut ekranu przedstawiający informacje o procesie trenowania wyświetlanym w sekcji głównej.

Ocena detektora

Po zakończeniu trenowania wydajność modelu jest obliczana i wyświetlana. Usługa Custom Vision używa obrazów przesłanych do trenowania w celu obliczenia dokładności, kompletności i średniej precyzji. Precyzja i czułość to dwa różne pomiary skuteczności detektora.

Precyzja wskazuje ułamek zidentyfikowanych klasyfikacji, które były poprawne. Jeśli na przykład model zidentyfikował 100 obrazów jako psy, a 99 z nich było rzeczywiście psami, precyzja wynosiłaby 99%.
Czułość wskazuje ułamek rzeczywistych klasyfikacji, które zostały prawidłowo zidentyfikowane. Jeśli na przykład faktycznie było 100 obrazów jabłek, a model zidentyfikował 80 jako jabłka, kompletność wyniesie 80%.
Średnia precyzja to średnia wartość średniej precyzji (AP). AP to obszar pod krzywą precyzji/czułości (precyzja wykreślona względem czułości dla każdego wykonanego przewidywania).

Zrzut ekranu przedstawiający wyniki trenowania z ogólną dokładnością i czułością oraz średnią precyzją.

Próg prawdopodobieństwa

Zwróć uwagę na suwak Progu prawdopodobieństwa na lewym panelu karty Wydajność. To poziom pewności, jaki przewidywanie musi osiągnąć, aby zostało uznane za poprawne (na potrzeby obliczania precyzji i kompletności).

Podczas interpretowania wyników przewidywań z wysokim progiem prawdopodobieństwa mają tendencję do zwracania wyników z wysoką precyzją kosztem czułości — wykryte klasyfikacje są poprawne, ale wiele pozostaje niewykrytych. Próg niskiego prawdopodobieństwa działa odwrotnie — większość prawdziwych klasyfikacji jest wykrywana, ale w tym zestawie jest więcej wyników fałszywie dodatnich. Mając to na uwadze, należy ustawić próg prawdopodobieństwa zgodnie z określonymi potrzebami projektu. Później, gdy otrzymujesz wyniki przewidywania po stronie klienta, należy użyć tej samej wartości progu prawdopodobieństwa, jak w tym miejscu.

Próg nakładania się

Suwak Progu Nakładania się dotyczy tego, jak bardzo poprawne musi być przewidywanie obiektu, aby uznać je za poprawne w procesie trenowania. Ustawia minimalne dozwolone nakładanie się między polem ograniczenia przewidywanego obiektu a rzeczywistym polem ograniczenia wprowadzonym przez użytkownika. Jeśli pola ograniczenia nie nakładają się na ten stopień, przewidywanie nie jest uznawane za poprawne.

Zarządzanie iteracjami trenowania

Za każdym razem, gdy trenujesz detektor, tworzysz nową iterację z własnymi zaktualizowanymi metrykami wydajności. Wszystkie iteracji można wyświetlić w lewym okienku karty Wydajność . W okienku po lewej stronie znajdziesz również przycisk Usuń , którego można użyć do usunięcia iteracji, jeśli jest przestarzała. Usunięcie iteracji powoduje usunięcie wszystkich obrazów, które są z nią unikatowo skojarzone.

Aby dowiedzieć się, jak programowo uzyskiwać dostęp do wytrenowanych modeli, zobacz Użyj swojego modelu z interfejsem API przewidywania.

Następny krok

W tym szybkim rozpoczęciu nauczyłeś się tworzyć i trenować model wykrywania obiektów przy użyciu witryny internetowej usługi Custom Vision. Następnie uzyskaj więcej informacji na temat iteracyjnego procesu ulepszania modelu.

Testowanie i ponowne trenowanie modelu usługi Custom Vision

Aby zapoznać się z omówieniem, zobacz Co to jest usługa Custom Vision?

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-04-11