Wizja komputerowa

3 minut

Uwaga / Notatka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

Wizja komputerowa to obszar sztucznej inteligencji, który zajmuje się analizą danych wizualnych; na przykład zdjęć, filmów wideo i transmisji z kamer na żywo. Wizja komputerowa odbywa się przy użyciu dużej liczby obrazów do trenowania modelu.

Diagram przedstawiający trenowanie modelu przetwarzania obrazów przy użyciu dużej liczby obrazów.

Istnieje wiele typów modelu przetwarzania obrazów.

Klasyfikacja obrazów to forma przetwarzania obrazów, w której model jest trenowany przy użyciu obrazów oznaczonych etykietą głównego tematu obrazu (innymi słowy, co to jest obraz), aby umożliwić analizowanie obrazów bez etykiet i przewidywanie najbardziej odpowiedniej etykiety — identyfikowanie tematu obrazu.
Wykrywanie obiektów to forma przetwarzania obrazów, w której model jest trenowany w celu zidentyfikowania lokalizacji określonych obiektów na obrazie.
Segmentacja semantyczna to zaawansowana forma wykrywania obiektów, w której zamiast wskazywać lokalizację obiektu, rysując wokół niego pole, model może zidentyfikować poszczególne piksele na obrazie należącym do określonego obiektu.
Modele wielomodalne łączą funkcje wizualne i skojarzone opisy tekstu, umożliwiając im generowanie kompleksowych opisów obrazów.

Scenariusze przetwarzania obrazów

Typowe zastosowania przetwarzania obrazów obejmują:

Agenci sztucznej inteligencji, którzy mogą interpretować wizualne dane wejściowe.
Automatyczne podpisy lub generowanie tagów na potrzeby zdjęć.
Wyszukiwanie wizualne.
Monitorowanie poziomów zapasów lub identyfikowanie elementów do wyewidencjonowania w scenariuszach sprzedaży detalicznej.
Monitorowanie wideo dla bezpieczeństwa.
Uwierzytelnianie za pomocą rozpoznawania twarzy.
Robotyka i pojazdy samojezdne.

Sprzężenie zwrotne

Czy ta strona była pomocna?