Trenowanie detektora obiektów

Ukończone

Wykrywanie obiektów to forma przetwarzania obrazów, w której model jest trenowany w celu wykrywania obecności i lokalizacji co najmniej jednej klasy obiektu na obrazie.

Zdjęcie z lokalizacją i typem wykrytych owoców.

Istnieją dwa składniki przewidywania wykrywania obiektów:

  • Etykieta klasy każdego obiektu wykrytego na obrazie. Na przykład można ustalić, że obraz zawiera jabłko, pomarańczę i banan.
  • Lokalizacja każdego obiektu na obrazie wskazywana jako współrzędne pola ograniczenia otaczającego obiekt.

Aby wytrenować model wykrywania obiektów, możesz użyć portalu usługi Custom Vision usługi Azure AI do przekazywania obrazów i etykietowania ich przed rozpoczęciem trenowania, oceniania, testowania i publikowania modelu; lub możesz użyć interfejsu API REST lub zestawu SDK specyficznego dla języka, aby napisać kod wykonujący zadania szkoleniowe.

Etykietowanie obrazów

Za pomocą usługi Azure AI Custom Vision można tworzyć projekty do klasyfikacji obrazów lub wykrywania obiektów. Najważniejszą różnicą między trenowaniem modelu klasyfikacji obrazów a trenowaniem modelu wykrywania obiektów jest etykietowanie obrazów z tagami. Chociaż klasyfikacja obrazów wymaga co najmniej jednego tagu, który ma zastosowanie do całego obrazu, wykrywanie obiektów wymaga, aby każda etykieta składała się z tagu i regionu definiującego pole ograniczenia dla każdego obiektu na obrazie.

Etykietowanie obrazów w portalu usługi Custom Vision usługi Azure AI

Portal usługi Azure AI Custom Vision udostępnia interfejs graficzny, którego można użyć do etykietowania obrazów szkoleniowych.

Zrzut ekranu przedstawiający oznakowane obrazy w portalu usługi Azure AI Custom Vision.

Najprostszą opcją etykietowania obrazów na potrzeby wykrywania obiektów jest użycie interfejsu interaktywnego w portalu usługi Custom Vision usługi Azure AI. Ten interfejs automatycznie sugeruje regiony, które zawierają obiekty, do których można przypisać tagi lub dostosować, przeciągając ramkę, aby otoczyć obiekt, który chcesz oznaczyć.

Ponadto po tagowaniu początkowej partii obrazów można wytrenować model. Kolejne etykietowanie nowych obrazów może korzystać z narzędzia inteligentnego etykietowania w portalu, które może sugerować nie tylko regiony, ale klasy obiektów, które zawierają.

Alternatywne metody etykietowania

Alternatywnie możesz użyć niestandardowego lub innego narzędzia etykietowania lub wybrać ręczne etykietowanie obrazów, aby skorzystać z innych funkcji, takich jak przypisywanie zadań etykietowania obrazów do wielu członków zespołu.

Jeśli zdecydujesz się użyć narzędzia etykietowania innego niż portal usługi Custom Vision usługi Azure AI, może być konieczne dostosowanie danych wyjściowych w celu dopasowania ich do jednostek miar oczekiwanych przez interfejs API usługi Custom Vision usługi Azure AI. Pola ograniczenia są definiowane przez cztery wartości reprezentujące lewe (X) i górne (Y) współrzędne lewego górnego rogu pola ograniczenia oraz szerokość i wysokość pola ograniczenia. Te wartości są wyrażane jako wartości proporcjonalne względem rozmiaru obrazu źródłowego. Rozważmy na przykład tę ramkę ograniczającą:

  • Lewa: 0,1
  • Top: 0,5
  • Szerokość: 0,5
  • Wysokość: 0,25

Definiuje to pole, w którym lewa część znajduje się 0,1 (jedna dziesiąta) od lewej krawędzi obrazu, a górna wartość to 0,5 (połowa wysokości obrazu) od góry. Pudełko ma połowę szerokości i ćwierć wysokości całego obrazu.

Na poniższej ilustracji przedstawiono informacje o etykietowaniu w formacie JSON dla obiektów na obrazie.

Fotografia z etykietami JSON dla obiektów, które zawiera.