Wizja komputerowa
Uwaga / Notatka
Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .
Wizja komputerowa to obszar sztucznej inteligencji, który zajmuje się analizą danych wizualnych; na przykład zdjęć, filmów wideo i transmisji z kamer na żywo. Wizja komputerowa odbywa się przy użyciu dużej liczby obrazów do trenowania modelu.
Istnieje wiele typów modelu przetwarzania obrazów.
- Klasyfikacja obrazów to forma przetwarzania obrazów, w której model jest trenowany przy użyciu obrazów oznaczonych etykietą głównego tematu obrazu (innymi słowy, co to jest obraz), aby umożliwić analizowanie obrazów bez etykiet i przewidywanie najbardziej odpowiedniej etykiety — identyfikowanie tematu obrazu.
- Wykrywanie obiektów to forma przetwarzania obrazów, w której model jest trenowany w celu zidentyfikowania lokalizacji określonych obiektów na obrazie.
- Segmentacja semantyczna to zaawansowana forma wykrywania obiektów, w której zamiast wskazywać lokalizację obiektu, rysując wokół niego pole, model może zidentyfikować poszczególne piksele na obrazie należącym do określonego obiektu.
- Modele wielomodalne łączą funkcje wizualne i skojarzone opisy tekstu, umożliwiając im generowanie kompleksowych opisów obrazów.
Scenariusze przetwarzania obrazów
Typowe zastosowania przetwarzania obrazów obejmują:
- Agenci sztucznej inteligencji, którzy mogą interpretować wizualne dane wejściowe.
- Automatyczne podpisy lub generowanie tagów na potrzeby zdjęć.
- Wyszukiwanie wizualne.
- Monitorowanie poziomów zapasów lub identyfikowanie elementów do wyewidencjonowania w scenariuszach sprzedaży detalicznej.
- Monitorowanie wideo dla bezpieczeństwa.
- Uwierzytelnianie za pomocą rozpoznawania twarzy.
- Robotyka i pojazdy samojezdne.