Zadania i techniki widzenia komputerowego

Ukończone

Uwaga / Notatka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

Termin "przetwarzanie obrazów" odnosi się do szeregu zadań i technik, w których oprogramowanie sztucznej inteligencji przetwarza wizualne dane wejściowe; zazwyczaj z obrazów, filmów wideo lub strumieni kamer na żywo. Przetwarzanie obrazów to dobrze ugruntowane pole sztucznej inteligencji, a techniki używane do wyodrębniania informacji z danych wejściowych wizualizacji znacznie ewoluowały w ciągu lat.

Klasyfikacja obrazów

Jednym z najstarszych rozwiązań do przetwarzania obrazów jest technika o nazwie klasyfikacja obrazów, w której model, który został wytrenowany z dużą liczbą obrazów, służy do przewidywania etykiety tekstowej na podstawie zawartości obrazu.

Załóżmy na przykład, że sklep spożywczy chce zaimplementować system inteligentnego wyewidencjonowania, który identyfikuje produkty automatycznie. Na przykład klient może umieścić owoce lub warzywa na wadze przy kasie, a aplikacja sztucznej inteligencji połączona z kamerą może automatycznie zidentyfikować typy produktów (jabłko, pomarańcza, banan itd.) i naliczyć odpowiednią opłatę na podstawie wagi. Aby to rozwiązanie działało, należy wytrenować model z dużą liczbą obrazów, z których każda ma prawidłową nazwę. Wynikiem jest model, który może używać cech wizualnych obrazu do przewidywania jego głównego tematu.

Zdjęcia pomarańczy i jabłek oraz bananów.

Wykrywanie obiektów

Załóżmy, że sklep spożywczy chce bardziej zaawansowanego systemu, w którym kasa może skanować wiele produktów i zidentyfikować każdy produkt. Typowym podejściem do tego rodzaju problemu jest „wykrywanie obiektów”. Modele wykrywania obiektów badają wiele regionów na obrazie, aby znaleźć poszczególne obiekty i ich lokalizacje. Wynikowe przewidywanie z modelu obejmuje wykryte obiekty oraz określone regiony obrazu, w których się pojawiają — wskazywane przez współrzędne prostokątnego pola ograniczenia.

Zdjęcie pomarańczy, jabłka i banana z ramkami ograniczającymi.

Segmentacja semantyczna

Innym, bardziej zaawansowanym sposobem wykrywania obiektów na obrazie jest "segmentacja semantyczna". W tym podejściu model jest trenowany w celu znajdowania obiektów i klasyfikowania pojedynczych pikseli na obrazie na podstawie obiektu, do którego należą. Wynikiem tego procesu jest znacznie dokładniejsze przewidywanie lokalizacji obiektów na obrazie.

Zdjęcie pomarańczy, jabłek i bananów z nakładanymi maskami.

Analiza obrazu kontekstowego

Najnowsze wielomodalne modele przetwarzania obrazów są trenowane w celu znalezienia relacji kontekstowych między obiektami na obrazach i tekstu, który je opisuje. Wynikiem jest możliwość semantycznie interpretowania obrazu w celu określenia, jakie obiekty i działania przedstawia; i wygeneruj odpowiednie opisy lub zasugeruj odpowiednie tagi.

Zdjęcie osoby jedzącej jabłko.

Osoba jedząca jabłko.