Imageklassifizierung in Azure

Azure Blob Storage

Maschinelles Sehen in Azure

Azure Cosmos DB

Azure Event Grid

Azure-Funktionen

Lösungsideen

In diesem Artikel wird eine Lösungsidee beschrieben. Ihr Cloudarchitekt kann diese Anleitung verwenden, um die Hauptkomponenten für eine typische Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.

Durch die Verwendung von Azure-Diensten wie der Computer Vision API und Azure Functions können Unternehmen die Notwendigkeit der Verwaltung einzelner Server vermeiden und gleichzeitig die Von Microsoft bereits mit der Verarbeitung von Images mit Azure AI-Diensten entwickelte Expertise reduzieren. Diese Lösungsidee befasst sich speziell mit einem Anwendungsfall für die Bildverarbeitung. Wenn Sie unterschiedliche KI-Anforderungen haben, sollten Sie die vollständige Suite Azure AI-Diensteberücksichtigen.

Architektur

Diagramm einer Architektur für Bildklassifizierungsaufgaben.

Laden Sie eine Visio-Datei dieser Lösungsidee herunter.

Datenfluss

In diesem Szenario werden die Back-End-Komponenten einer Web- oder mobilen Anwendung behandelt. Daten fließen wie folgt durch das Szenario:

Das Hinzufügen neuer Dateien (Bilduploads) in Blob Storage löst ein Ereignis in Azure Event Grid aus. Der Uploadprozess kann über das Web oder eine mobile Anwendung orchestriert werden. Alternativ können Bilder separat in den Azure Blob Storage hochgeladen werden.
Ereignisraster sendet eine Benachrichtigung, die die Azure-Funktionen auslöst.
Azure Functions ruft die Azure AI Vision-API auf, um das neu hochgeladene Bild zu analysieren. Azure AI Vision greift über die BLOB-URL, die von Azure Functions analysiert wird, auf das Bild zu.
Azure Functions behält die AI Vision-API-Antwort in Azure Cosmos DB bei. Diese Antwort enthält die Ergebnisse der Analyse zusammen mit den Bildmetadaten.
Die Ergebnisse können im Web oder im mobilen Front-End genutzt und wiedergegeben werden. Dieser Ansatz ruft die Ergebnisse der Klassifizierung, aber nicht das hochgeladene Bild ab.

Komponenten

Azure AI Vision ist Teil der Azure AI Services Suite. In dieser Architektur werden Informationen zu jedem Bild abgerufen. Es analysiert neu hochgeladene Bilder und stellt Metadaten- und Klassifizierungsergebnisse bereit. Diese Ergebnisse ermöglichen ein automatisiertes Bildverständnis.
Azure Functions ist eine serverlose Lösung, mit der Sie robuste Apps mit weniger Code und weniger Infrastruktur erstellen können. In dieser Architektur stellt Azure Functions die Back-End-API für die Webanwendung bereit. Diese Plattform bietet auch die Ereignisverarbeitung für hochgeladene Bilder. Azure Functions koordiniert Workflowschritte, z. B. Das Aufrufen der AI Vision-API, die Verarbeitung von Analyseergebnissen und das Speichern von Metadaten in der Datenbank.
Azure Event Grid ist ein verwalteter Ereignisroutingdienst, der eine einheitliche Ereignisnutzung mithilfe eines Veröffentlichungsabonnentmodells ermöglicht. In dieser Architektur löst Azure Event Grid ein Ereignis aus, wenn ein neues Bild in blob Storage hochgeladen wird, und initiiert automatisierte Verarbeitungsworkflows, indem Azure-Funktionen von neuen Uploads benachrichtigt werden.
Azure Blob Storage ist eine Objektspeicherlösung zum Speichern unstrukturierter Daten in der Cloud. In dieser Architektur werden alle Bilddateien gespeichert, die in die Webanwendung hochgeladen werden, sowie alle statischen Dateien, die die Webanwendung nutzt. Blob Storage ist das primäre Repository für eingehende Bilddaten, das sowohl als Quelle für die Verarbeitung als auch als Verweis für den Bildzugriff dient.
Azure Cosmos DB ist eine NoSQL-Datenbank. In dieser Architektur speichert Azure Cosmos DB Metadaten zu jedem hochgeladenen Bild, einschließlich der Ergebnisse der Verarbeitung aus der Computer Vision-API.

Alternativen

Azure OpenAI GPT-4o und GPT-4o-mini. GPT-4o und GPT-4o-mini sind multimodale Chatmodelle von OpenAI, die allgemeine Fragen zu den von Ihnen bereitgestellten Bildern beantworten können.
Benutzerdefinierter Vision-Dienst. Die Computer Vision-API gibt eine Reihe von taxonomiebasierten Kategorienzurück. Wenn Sie Informationen verarbeiten müssen, die nicht von der Computer Vision-API zurückgegeben werden, ziehen Sie den Custom Vision Service in Betracht, mit dem Sie benutzerdefinierte Bildklassifizierer erstellen können. Um mehr über diesen Dienst zu erfahren, folgen Sie dem Schnellstart Erstellen eines Imageklassifizierungsmodells mit der custom Vision.
Azure AI Search. Wenn Ihr Anwendungsfall das Abfragen der Metadaten umfasst, um Bilder zu finden, die bestimmte Kriterien erfüllen, sollten Sie Azure AI Search verwenden.
Logik-Apps. Wenn Sie nicht in Echtzeit auf hinzugefügte Dateien zu einem Blob reagieren müssen, können Sie die Verwendung von Logik-Apps in Betracht ziehen. Eine Logik-App, die überprüfen kann, ob eine Datei hinzugefügt wurde, kann vom Serientrigger oder Schiebefenstertriggergestartet werden.
Wenn Sie Bilder in Dokumente eingebettet haben, verwenden Sie Azure AI Document Intelligence-, um diese Bilder zu finden. Mit diesen Informationen können Sie weitere Computervisionsaufgaben für die eingebetteten Bilder extrahieren und ausführen. Verwenden Sie Document Intelligence, um Daten zu diesen eingebetteten Bildern zu sammeln, z. B. Seitenzahl oder Beschriftungstext, der zusammen mit den anderen Metadaten der Bilder gespeichert werden kann, die über die Computer Vision-API empfangen werden. Wenn Ihre Bilder hauptsächlich Fotos oder Scans von Dokumenten sind, verwenden Sie die benutzerdefinierten Dokumentintelligenz-Klassifizierungsmodelle, um die Klassifizierung einer Eingabedatei jeweils auf einer Seite durchzuführen, um die Dokumente zu identifizieren. Dieser Ansatz kann auch mehrere Dokumente oder mehrere Instanzen eines einzelnen Dokuments innerhalb einer Eingabedatei identifizieren.

Szenariodetails

Dieses Szenario ist für Unternehmen relevant, die Bilder verarbeiten müssen.

Mögliche Anwendungen umfassen das Klassifizieren von Bildern für eine Modewebsite, das Analysieren von Text und Bildern für Versicherungsansprüche oder das Verständnis von Telemetriedaten aus Spielfotos. Traditionell müssten Unternehmen Know-how in Machine Learning-Modellen entwickeln, die Modelle trainieren und schließlich die Bilder durch ihren benutzerdefinierten Prozess ausführen, um die Daten aus den Bildern herauszuholen.

Potenzielle Anwendungsfälle

Diese Lösung eignet sich ideal für die Einzelhandels-, Spiele-, Finanz- und Versicherungsbranchen. Weitere relevante Anwendungsfälle sind:

Klassifizieren von Bildern auf einer Modewebsite. Bildklassifizierung kann von Verkäufern beim Hochladen von Bildern von Produkten auf der Plattform zum Verkauf verwendet werden. Sie können dann die anschließende manuelle Markierung automatisieren. Die Kunden können auch den visuellen Eindruck der Produkte durchsuchen.
Klassifizieren von Telemetriedaten aus Screenshots von Spielen. Die Klassifizierung von Videospielen aus Screenshots entwickelt sich zu einem relevanten Problem in sozialen Medien, gekoppelt mit Computervision. Wenn z. B. Twitch-Streamer unterschiedliche Spiele nacheinander spielen, können sie die datenstrominformationen manuell aktualisieren. Fehler beim Aktualisieren von Datenstrominformationen könnten zu einer Fehlklassifizierung von Datenströmen bei Benutzersuchen führen und zu einem Verlust potenzieller Zuschauerschaft sowohl für die Inhaltsersteller als auch für die Streamingplattformen führen. Während sie neuartige Spiele einführen, könnte eine benutzerdefinierte Modellroute hilfreich sein, um neuartige Bilder aus diesen Spielen zu erkennen.
Klassifizieren von Bildern für Versicherungsansprüche. Die Bildklassifizierung kann dazu beitragen, den Zeit- und Kostenaufwand für die Verarbeitung und Unterschreibung von Ansprüchen zu reduzieren. Es könnte helfen, Naturkatastrophenschäden, Fahrzeugschäden zu analysieren und Wohn- und Gewerbeimmobilien zu identifizieren.

Nächste Schritte

Produktdokumentation

Einen geführten Lernpfad finden Sie unter:

Feedback

War diese Seite hilfreich?