Omówienie możliwości analizy obrazów usługi Azure Vision

Zakończone

Możliwości analizy obrazów usługi Azure Vision mogą być używane z dostosowywaniem lub bez dostosowywania. Niektóre możliwości, które nie wymagają dostosowania, obejmują:

  • Opisywanie obrazu z podpisami
  • Wykrywanie typowych obiektów na obrazie
  • Tagowanie funkcji wizualizacji
  • Optyczne rozpoznawanie znaków

Opisywanie obrazu z podpisami

Usługa Azure Vision umożliwia analizowanie obrazu, ocenianie w nim obiektów i generowanie czytelnego dla człowieka opisu obrazu. Rozważmy na przykład następujący obraz:

Diagram przedstawiający osobę na deskorolce.

Usługa Azure Vision zwraca następujący podpis dla tego obrazu:

Osoba skacząca na deskorolce

Wykrywanie typowych obiektów na obrazie

Usługa Azure Vision może identyfikować tysiące typowych obiektów na obrazach. Na przykład, gdy jest używany do wykrywania obiektów na wcześniej omawianym obrazie deskorolkarza, usługa Azure Vision zwraca następujące prognozy:

  • Deskorolka (90,40%)
  • Osoba (95.5%)

Przewidywania obejmują współczynnik ufności, który wskazuje, na ile pewny jest model, że opisuje to, co faktycznie znajduje się na obrazie.

Oprócz wykrytych etykiet obiektów i ich prawdopodobieństwa, usługa Azure Vision zwraca współrzędne pola ograniczenia, które wskazują górną, lewą krawędź, szerokość i wysokość wykrytego obiektu. Za pomocą tych współrzędnych można określić, gdzie na obrazie wykryto każdy obiekt, w następujący sposób:

Diagram deskorolkarza z polami ograniczenia wokół wykrytych obiektów.

Tagowanie funkcji wizualizacji

Usługa Azure Vision może sugerować tagi obrazu na podstawie jego zawartości. Tagi są skojarzone z obrazami jako metadanymi. Tagi podsumowują atrybuty obrazu. Tagi umożliwiają indeksowanie obrazu wraz z zestawem kluczowych terminów dla rozwiązania wyszukiwania.

Na przykład tagi zwrócone dla obrazu deskorolki (ze skojarzonymi wskaźnikami ufności) obejmują:

  • sport (99.60%)
  • osoba (99,56%)
  • obuwie (98,05%)
  • łyżwiarstwo (96,27%)
  • sporty deskowe (95.58%)
  • sprzęt skateboardowy (94,43%)
  • odzież (94.02%)
  • ściana (93,81%)
  • jazda na deskorolce (93,78%)
  • skejter (93,25%)
  • sport indywidualny (92,80%)
  • uliczne akrobacje (90.81%)
  • saldo (90,81%)
  • skoki (89,87%)
  • sprzęt sportowy (88.61%)
  • ekstremalny sport (88,35%)
  • kickflip (88.18%)
  • stunt (87.27%)
  • deskorolka (86.87%)
  • wykonawca kaskaderowy (85.83%)
  • kolano (85,30%)
  • sport (85.24%)
  • longboard (84.61%)
  • longboarding (84,45%)
  • jazda (73.37%)
  • skate (67.27%)
  • powietrze (64.83%)
  • młody (63.29%)
  • na zewnątrz (61.39%)

Optyczne rozpoznawanie znaków

Usługa Azure Vision może używać funkcji optycznego rozpoznawania znaków (OCR) do wykrywania tekstu na obrazach. Rozważmy na przykład następujący obraz etykiety żywieniowej na produkcie w sklepie spożywczym:

Diagram etykiety żywieniowej.

Usługa Azure Vision może analizować ten obraz i wyodrębniać następujący tekst:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

Trenowanie modeli niestandardowych

Jeśli wbudowane modele udostępniane przez usługę Azure Vision nie spełniają Twoich potrzeb, możesz użyć usługi do wytrenowania niestandardowego modelu na potrzeby klasyfikacji obrazów lub wykrywania obiektów. Usługa Azure Vision tworzy modele niestandardowe na wstępnie wytrenowanym modelu podstawowym, co oznacza, że można trenować zaawansowane modele przy użyciu stosunkowo niewielu obrazów szkoleniowych.

Klasyfikacja obrazów

Model klasyfikacji obrazów służy do przewidywania kategorii lub klasy obrazu. Możesz na przykład wytrenować model, aby określić, jakiego typu owoce są wyświetlane na obrazie, w następujący sposób:

Jabłko Banan Pomarańcza
Diagram jabłka. diagram bananu. Diagram pomarańczy.

Wykrywanie obiektów

Modele wykrywania obiektów wykrywają i klasyfikują obiekty na obrazie, zwracając współrzędne ramki ograniczającej służące do zlokalizowania każdego obiektu. Oprócz wbudowanych funkcji wykrywania obiektów w usłudze Azure Vision można wytrenować niestandardowy model wykrywania obiektów przy użyciu własnych obrazów. Na przykład możesz użyć zdjęć owoców, aby wytrenować model, który wykrywa wiele owoców na obrazie, w następujący sposób:

Diagram wielu wykrytych owoców na obrazie.

Uwaga / Notatka

Szczegółowe informacje na temat używania usługi Azure Vision do trenowania modelu niestandardowego wykraczają poza zakres tego modułu. Informacje na temat trenowania modelu niestandardowego można znaleźć w dokumentacji usługi Azure Vision.

Następnie przyjrzyjmy się możliwościom specyficznym dla usługi rozpoznawania twarzy usługi Azure Vision.