Omówienie możliwości analizy obrazów usługi Azure Vision
Możliwości analizy obrazów usługi Azure Vision mogą być używane z dostosowywaniem lub bez dostosowywania. Niektóre możliwości, które nie wymagają dostosowania, obejmują:
- Opisywanie obrazu z podpisami
- Wykrywanie typowych obiektów na obrazie
- Tagowanie funkcji wizualizacji
- Optyczne rozpoznawanie znaków
Opisywanie obrazu z podpisami
Usługa Azure Vision umożliwia analizowanie obrazu, ocenianie w nim obiektów i generowanie czytelnego dla człowieka opisu obrazu. Rozważmy na przykład następujący obraz:
Usługa Azure Vision zwraca następujący podpis dla tego obrazu:
Osoba skacząca na deskorolce
Wykrywanie typowych obiektów na obrazie
Usługa Azure Vision może identyfikować tysiące typowych obiektów na obrazach. Na przykład, gdy jest używany do wykrywania obiektów na wcześniej omawianym obrazie deskorolkarza, usługa Azure Vision zwraca następujące prognozy:
- Deskorolka (90,40%)
- Osoba (95.5%)
Przewidywania obejmują współczynnik ufności, który wskazuje, na ile pewny jest model, że opisuje to, co faktycznie znajduje się na obrazie.
Oprócz wykrytych etykiet obiektów i ich prawdopodobieństwa, usługa Azure Vision zwraca współrzędne pola ograniczenia, które wskazują górną, lewą krawędź, szerokość i wysokość wykrytego obiektu. Za pomocą tych współrzędnych można określić, gdzie na obrazie wykryto każdy obiekt, w następujący sposób:
Tagowanie funkcji wizualizacji
Usługa Azure Vision może sugerować tagi obrazu na podstawie jego zawartości. Tagi są skojarzone z obrazami jako metadanymi. Tagi podsumowują atrybuty obrazu. Tagi umożliwiają indeksowanie obrazu wraz z zestawem kluczowych terminów dla rozwiązania wyszukiwania.
Na przykład tagi zwrócone dla obrazu deskorolki (ze skojarzonymi wskaźnikami ufności) obejmują:
- sport (99.60%)
- osoba (99,56%)
- obuwie (98,05%)
- łyżwiarstwo (96,27%)
- sporty deskowe (95.58%)
- sprzęt skateboardowy (94,43%)
- odzież (94.02%)
- ściana (93,81%)
- jazda na deskorolce (93,78%)
- skejter (93,25%)
- sport indywidualny (92,80%)
- uliczne akrobacje (90.81%)
- saldo (90,81%)
- skoki (89,87%)
- sprzęt sportowy (88.61%)
- ekstremalny sport (88,35%)
- kickflip (88.18%)
- stunt (87.27%)
- deskorolka (86.87%)
- wykonawca kaskaderowy (85.83%)
- kolano (85,30%)
- sport (85.24%)
- longboard (84.61%)
- longboarding (84,45%)
- jazda (73.37%)
- skate (67.27%)
- powietrze (64.83%)
- młody (63.29%)
- na zewnątrz (61.39%)
Optyczne rozpoznawanie znaków
Usługa Azure Vision może używać funkcji optycznego rozpoznawania znaków (OCR) do wykrywania tekstu na obrazach. Rozważmy na przykład następujący obraz etykiety żywieniowej na produkcie w sklepie spożywczym:
Usługa Azure Vision może analizować ten obraz i wyodrębniać następujący tekst:
Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet
Trenowanie modeli niestandardowych
Jeśli wbudowane modele udostępniane przez usługę Azure Vision nie spełniają Twoich potrzeb, możesz użyć usługi do wytrenowania niestandardowego modelu na potrzeby klasyfikacji obrazów lub wykrywania obiektów. Usługa Azure Vision tworzy modele niestandardowe na wstępnie wytrenowanym modelu podstawowym, co oznacza, że można trenować zaawansowane modele przy użyciu stosunkowo niewielu obrazów szkoleniowych.
Klasyfikacja obrazów
Model klasyfikacji obrazów służy do przewidywania kategorii lub klasy obrazu. Możesz na przykład wytrenować model, aby określić, jakiego typu owoce są wyświetlane na obrazie, w następujący sposób:
| Jabłko | Banan | Pomarańcza |
|---|---|---|
|
|
|
Wykrywanie obiektów
Modele wykrywania obiektów wykrywają i klasyfikują obiekty na obrazie, zwracając współrzędne ramki ograniczającej służące do zlokalizowania każdego obiektu. Oprócz wbudowanych funkcji wykrywania obiektów w usłudze Azure Vision można wytrenować niestandardowy model wykrywania obiektów przy użyciu własnych obrazów. Na przykład możesz użyć zdjęć owoców, aby wytrenować model, który wykrywa wiele owoców na obrazie, w następujący sposób:
Uwaga / Notatka
Szczegółowe informacje na temat używania usługi Azure Vision do trenowania modelu niestandardowego wykraczają poza zakres tego modułu. Informacje na temat trenowania modelu niestandardowego można znaleźć w dokumentacji usługi Azure Vision.
Następnie przyjrzyjmy się możliwościom specyficznym dla usługi rozpoznawania twarzy usługi Azure Vision.