Maschinelles Sehen
Hinweis
Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".
Computervision ist der Bereich der künstlichen Intelligenz, der sich mit der Analyse der visuellen Eingabe befasst; wie Fotos, Videos und Livekamerafeeds. Computervisionen werden mithilfe einer großen Anzahl von Bildern durchgeführt, um ein Modell zu trainieren.
Es gibt mehrere Arten von Computer-Vision-Modell.
- Die Bildklassifizierung ist eine Form der Computervision, in der ein Modell mit Bildern trainiert wird, die mit dem Hauptthema des Bilds (d. h., was es ein Bild ist) bezeichnet werden, damit es unbeschriftete Bilder analysieren und die am besten geeignete Bezeichnung vorhersagen kann - identifizieren sie den Betreff des Bilds.
- Die Objekterkennung ist eine Form der Computervision, in der das Modell trainiert wird, um die Position bestimmter Objekte in einem Bild zu identifizieren.
- Die semantische Segmentierung ist eine erweiterte Form der Objekterkennung, bei der anstelle der Position eines Objekts durch Zeichnen eines Felds darin die einzelnen Pixel im Bild identifiziert werden können, die zu einem bestimmten Objekt gehören.
- Multi-modale Modelle kombinieren visuelle Features und zugehörige Textbeschreibungen, sodass sie umfassende Beschreibungen von Bildern generieren können.
Computervisionsszenarien
Häufige Verwendungsmöglichkeiten von Computervisionen umfassen:
- KI-Agenten, die visuelle Daten interpretieren können.
- Automatische Beschriftung oder Kategoriegenerierung für Fotos.
- Visuelle Suche.
- Überwachen von Lagerbeständen oder Identifizieren von Artikeln für das Auschecken in Einzelhandelsszenarien.
- Überwachung von Sicherheitsvideos.
- Authentifizierung durch Gesichtserkennung.
- Robotik und selbstfahrende Fahrzeuge.