Trainieren einer Objekterkennung
Die Objekterkennung ist eine Form des maschinellen Sehens, bei der ein Modell trainiert wird, um das Vorhandensein und die Position einer oder mehrere Objektklassen in einem Bild zu erkennen.

Es gibt zwei Komponenten für eine Objekterkennungsvorhersage:
- Die Klassenbezeichnung jedes im Bild erkannten Objekts. Sie können beispielsweise feststellen, dass ein Bild einen Apfel, eine Orange und eine Banane enthält.
- Die Position jedes Objekts innerhalb des Bilds, die als Koordinaten eines Begrenzungsrahmens angegeben werden, der das Objekt umschließt.
Um ein Objekterkennungsmodell zu trainieren, können Sie das Azure AI Custom Vision-Portal verwenden, um Bilder vor dem Training, Auswerten, Testen und Veröffentlichen des Modells hochzuladen und zu kennzeichnen; oder Sie können die REST-API oder ein sprachspezifisches SDK verwenden, um Code zu schreiben, der die Schulungsaufgaben ausführt.
Bildbeschriftung
Sie können Azure AI Custom Vision verwenden, um Projekte für die Bildklassifizierung oder Objekterkennung zu erstellen. Der wichtigste Unterschied zwischen der Schulung eines Bildklassifizierungsmodells und dem Training eines Objekterkennungsmodells ist die Beschriftung der Bilder mit Tags. Die Bildklassifizierung erfordert zwar ein oder mehrere Tags, die für das gesamte Bild gelten, die Objekterkennung erfordert jedoch, dass jede Bezeichnung aus einem Tag und einem Bereich besteht, der das Begrenzungsfeld für jedes Objekt in einem Bild definiert.
Bezeichnen von Bildern im Azure AI Custom Vision-Portal
Das Azure AI Custom Vision-Portal bietet eine grafische Benutzeroberfläche, mit der Sie Ihre Schulungsbilder bezeichnen können.

Die einfachste Option zum Bezeichnen von Bildern für die Objekterkennung besteht darin, die interaktive Schnittstelle im Azure AI Custom Vision-Portal zu verwenden. Diese Schnittstelle schlägt automatisch Bereiche vor, die Objekte enthalten, denen Sie Tags zuweisen oder anpassen können, indem Sie das umgebende Feld ziehen, um das Objekt einzuschließen, das Sie beschriften möchten.
Darüber hinaus können Sie nach dem Taggen einer anfänglichen Gruppe von Bildern das Modell trainieren. Nachfolgende Bezeichnungen neuer Bilder können vom Smart Labeler-Tool im Portal profitieren, das nicht nur die Regionen, sondern auch die darin enthaltenen Objektklassen vorschlagen kann.
Alternative Bezeichnungsansätze
Alternativ können Sie auch ein benutzerdefiniertes Tool oder ein Tool von Drittanbietern zum Beschriften verwenden oder Bilder manuell beschriften, um andere Funktionen zu nutzen, wie das Zuweisen von Bildbeschriftungsaufgaben an mehrere Teammitglieder.
Wenn Sie ein anderes Bezeichnungstool als das Azure AI Custom Vision-Portal verwenden, müssen Sie die Ausgabe möglicherweise an die Maßeinheiten anpassen, die von der Azure AI Custom Vision-API erwartet werden. Begrenzungsrahmen werden durch vier Werte definiert, die die Koordinaten für links (X) und oben (Y) der oberen linken Ecke des Begrenzungsrahmens sowie die Breite und Höhe des Begrenzungsrahmens angeben. Diese Werte werden relativ zur Quellbildgröße als proportionale Werte ausgedrückt. Sehen Sie sich beispielsweise die folgenden Werte für einen Begrenzungsrahmen an:
- Links: 0,1
- Oben: 0,5
- Breite: 0,5
- Höhe: 0,25
Dadurch wird ein Rahmen definiert, bei dem sich der linke Rand um 0,1 (ein Zehntel) vom linken Rand des Bilds und der obere Rand um 0,5 (die Hälfte der Bildhöhe) vom oberen Rand entfernt befindet. Die Box ist die Hälfte der Breite und ein Viertel der Höhe des Gesamtbilds.
Die folgende Abbildung zeigt die Bezeichnungsinformationen im JSON-Format für Objekte in einem Bild.
