Freigeben über


Auswählen einer Azure AI-Bild- und Videoverarbeitungs- und Generierungstechnologie

Azure AI-Dienste unterstützen Entwickler und Organisationen beim Erstellen intelligenter, modernster, marktfähiger und verantwortungsvoller Anwendungen mit sofort einsatzbereiten und vorgefertigten und anpassbaren APIs und Modellen.

In diesem Artikel werden KI-Dienste behandelt, die Video- und Bildverarbeitungsfunktionen bereitstellen, z. B. visuelle Analyse und Generierung von Bildern, Objekterkennung, Bildklassifizierung und Gesichtserkennung.

Dienste

Die folgenden Dienste bieten Video- und Bildverarbeitungsfunktionen für KI-Dienste:

  • Azure OpenAI in Foundry-Modellen

    • Gebrauchen Azure OpenAI für die Bildgenerierung aus natürlicher Sprache mithilfe von vortrainierten generativen Imaging-Modellen. Sie können z. B. Azure OpenAI verwenden, um benutzerdefinierte Grafiken bei Bedarf zu generieren.

    • Gebrauchen Azure OpenAI, wenn Sie nicht spezifische, umfassende Analysen zu Bildern durchführen müssen. Sie können z. B. Azure OpenAI verwenden, um Barrierefreiheitsbeschreibungen zu generieren.

    • Verwenden Sie nicht Azure OpenAI, wenn Sie Open Source-Imagegenerierungsmodelle verwenden möchten, die in Azure Machine Learning verfügbar sind.

    • Verwenden Sie nicht Azure OpenAI, wenn Sie bestimmte Arten von Bildverarbeitung wie Formularextraktion, Gesichtserkennung oder domänenspezifische Erkennung von Bildmerkmalen durchführen müssen. Verwenden oder erstellen Sie für diese Szenarien KI-Lösungen, die speziell für diese Zwecke entwickelt wurden.

  • Microsoft Azure AI Vision

    • Gebrauchen Vision, wenn Sie grundlegende optische Zeichenerkennung (OCR), Bildanalyse oder grundlegende Videoanalyse benötigen, um Bewegung und andere Ereignisse zu erkennen.

    • Verwenden Sie nicht Vision für Analysen, die bereits von großen, multimodalen Grundlagenmodellen unterstützt werden.

    • Verwenden Sie nicht Vision zum Moderieren von Inhalten. Verwenden Sie stattdessen Microsoft Azure AI Content Safety.

  • Benutzerdefinierte Vision für Microsoft Azure AI

    • Gebrauchen Benutzerdefinierte Vision für bestimmte Anforderungen, die von der von Vision bereitgestellten Bildanalyse nicht erfüllt werden können. Beispielsweise kann Custom Vision ungewöhnliche Objekte und Fertigungsfehler erkennen. Sie kann auch detaillierte benutzerdefinierte Klassifizierungen bereitstellen.

    • Verwenden Sie nicht Benutzerdefinierte Vision, wenn Sie grundlegende Objekterkennung oder Gesichtserkennung benötigen. Verwenden Sie stattdessen Azure AI Face oder Vision.

    • Verwenden Sie nicht Benutzerdefinierte Vision für die grundlegende visuelle Analyse. Verwenden Sie stattdessen visionsfähige Modelle aus Azure OpenAI oder Open-Source-Modellen in Machine Learning.

  • Azure AI Face

    • Verwenden Sie Azure AI Face, wenn Sie überprüfen müssen, ob Gesichter live oder gefälscht sind oder um Gesichter zu identifizieren, zu gruppieren oder ähnliche zu finden.

    • Verwenden Sie nicht Azure AI Face, um Emotionen in Gesichtern zu erkennen oder andere hochrangige Schlussfolgerungen über Gesichter durchzuführen. Verwenden Sie stattdessen multimodale Sprachmodelle für diese Aufgaben.

  • Microsoft Azure AI Video Indexer

    • Gebrauchen Videoindexer für erweiterte Videoanalyseaufgaben, die von der grundlegenden Videoanalyse in Vision nicht behandelt werden können.

    • Verwenden Sie nicht Videoindexer für grundlegende Videoanalyseaufgaben wie Personen zählen und Bewegung und Ereigniserkennung. Die grundlegende Videoanalyse in Vision ist für diese Aufgaben kostengünstiger.

Azure OpenAI

Azure OpenAI bietet Zugriff auf die leistungsstarken Sprachmodelle von OpenAI, einschließlich der neuesten Generation von GPT-Modellen. Diese Modelle unterstützen visuelle Analyse und Generationen von Bildern. DALL-E unterstützt auch die Bildgenerierung.

Vision

Vision bietet erweiterte Algorithmen, die Bilder verarbeiten und Informationen basierend auf den von Ihnen angegebenen visuellen Features zurückgeben. Es bietet vier Dienste: OCR, Azure AI Face, Bildanalyse und räumliche Analyse.

Fähigkeiten

Die folgende Tabelle enthält eine Liste der in Vision verfügbaren Funktionen.

Funktion Beschreibung
OCR OCR extrahiert Text aus Bildern. Sie können die Lese-API verwenden, um gedruckten und handschriftlichen Text aus Bildern und Dokumenten zu extrahieren. Es verwendet Deep-Learning-basierte Modelle, um Text auf verschiedenen Oberflächen und Hintergründen zu verarbeiten. Zu diesen Materialien gehören Geschäftsdokumente, Rechnungen, Belege, Poster, Visitenkarten, Briefe und Whiteboards. Die OCR-APIs unterstützen die gedruckte Textextraktion in mehreren Sprachen.
Azure AI Vision Image Analysis Die Bildanalyse extrahiert viele visuelle Features aus Bildern, z. B. Objekte, Gesichter und automatisch generierte Textbeschreibungen. Sie können benutzerdefinierte Bildbezeichnermodelle mithilfe von Image Analysis 4.0 erstellen, die auf dem Florenz-Foundation-Modell basieren.
Videoanalyse Die Videoanalyse umfasst videobezogene Features wie räumliche Analyse und Videoabruf. Dier räumliche Analyse analysiert das vorhanden sein und Verschieben von Personen in einem Videofeed und erzeugt Ereignisse, auf die andere Systeme reagieren können.

Benutzerdefinierte Vision

Custom Vision ist ein Bilderkennungsdienst, mit dem Sie Ihre Imagebezeichnermodelle erstellen, bereitstellen und verbessern können. Ein Bildbezeichner wendet entsprechend den visuellen Merkmalen auf einem Bild Bezeichnungen auf Bilder an. Jede Bezeichnung stellt eine Klassifizierung oder ein Objekt dar. Verwenden Sie Custom Vision, um Eigene Etiketten anzugeben und benutzerdefinierte Modelle zu trainieren, um sie zu erkennen.

Custom Vision verwendet einen Maschinellen Lernalgorithmus, um Bilder für benutzerdefinierte Features zu analysieren. Sie übermitteln Sätze von Bildern, die über die gewünschten visuellen Merkmale verfügen und nicht. Anschließend bezeichnen Sie die Bilder mit Ihren eigenen Etiketten oder Tags zum Zeitpunkt der Übermittlung. Der Algorithmus wird dann mit diesen Daten trainiert und berechnet seine eigene Genauigkeit, indem er Tests anhand derselben Bilder durchführt. Nachdem Sie Ihr Modell trainiert haben, können Sie das Modell in Ihrer Bilderkennungs-App testen, neu trainieren und schließlich verwenden, um Bilder zu klassifizieren oder Objekte zu erkennen. Darüber hinaus kann das Modell exportiert und offline verwendet werden.

Fähigkeiten

Die folgende Tabelle enthält eine Liste der in Custom Vision verfügbaren Funktionen.

Funktion Beschreibung
Bildklassifizierung Prognostizieren Sie eine Kategorie oder Klasse basierend auf einer Reihe von Eingaben, die als Features bezeichnet werden. Berechnen Sie eine Wahrscheinlichkeitsbewertung für jede mögliche Klasse, und geben Sie eine Bezeichnung zurück, die die Klasse angibt, zu der das Objekt wahrscheinlich gehört. Um dieses Modell zu verwenden, benötigen Sie Daten, die aus Features und deren Bezeichnungen bestehen.
Objekterkennung Rufen Sie die Koordinaten eines Objekts in einem Bild ab. Um dieses Modell zu verwenden, benötigen Sie Daten, die aus Features und deren Bezeichnungen bestehen.

Anwendungsfälle

Die folgende Tabelle enthält eine Liste der möglichen Anwendungsfälle für custom Vision.

Anwendungsfall Beschreibung
Verwenden Sie custom Vision mit einem IoT-Gerät, um visuelle Zustände zu melden. Verwenden Sie Custom Vision, um ein Gerät zu trainieren, das über eine Kamera verfügt, um visuelle Zustände zu erkennen. Sie können dieses Erkennungsszenario auf einem IoT-Gerät mithilfe eines exportierten ONNX-Modells ausführen. Ein visueller Zustand beschreibt den Inhalt eines Bilds, z. B. einen leeren Raum oder einen Raum mit Personen oder eine leere Einfahrt oder eine Einfahrt mit einem Lastwagen.
Klassifizieren von Bildern und Objekten. Analysieren Sie Fotos und scannen Sie nach bestimmten Logos, indem Sie ein benutzerdefiniertes Modell trainieren.

Azure KI Gesichtserkennung

Azure AI Face bietet KI-Algorithmen, die menschliche Gesichter in Bildern erkennen, erkennen und analysieren. Gesichtserkennungssoftware ist in verschiedenen Szenarien wichtig, z. B. Identifikation, Berührungslose Zugriffssteuerung und automatische Gesichtsverwischung für Datenschutz.

Fähigkeiten

Die folgende Tabelle enthält eine Liste der in Azure AI Face verfügbaren Funktionen.

Funktion Beschreibung
Gesichtserkennung und -analyse Identifizieren Sie Bereiche eines Bilds, die ein menschliches Gesicht enthalten, typischerweise durch Ausgabe der Koordinaten eines Begrenzungsrahmens, der ein Rechteck um das Gesicht bildet.
Ähnliche Gesichter suchen Der Vorgang "Ähnliche finden" vergleicht ein Zielgesicht mit einer Gruppe von Kandidatengesichtern. Es identifiziert eine kleinere Gruppe von Gesichtern, die dem Zielgesicht sehr ähnlich sind. Diese Funktionalität ist nützlich, um eine Gesichtssuche nach Bild durchzuführen.
Gruppieren von Gesichtern Mit dem Gruppierungsvorgang wird eine Gruppe von unbekannten Gesichtern anhand der Ähnlichkeit in kleinere Gruppen aufgeteilt. Jede Gruppe ist eine zusammenhanglose korrekte Teilmenge der ursprünglichen Gesichtergruppe. Es gibt auch ein einzelnes messyGroup Array zurück, das die Gesichts-IDs enthält, für die keine Ähnlichkeiten gefunden wurden.
Identifizierung Die Gesichtsidentifikation kann den Vergleich eines Gesichts mit vielen in einem Bild mit einer Gruppe von Gesichtern in einer sicheren Datenbank bewältigen. Übereinstimmungskandidaten werden basierend auf der Genauigkeit der Übereinstimmung ihrer Gesichtsdaten mit dem Abfragegesicht zurückgegeben.
Gesichtserkennungsvorgänge Moderne Unternehmen und Apps können die Azure AI-Gesichtserkennungstechnologien verwenden, einschließlich Gesichtsüberprüfung (oder 1:1-Abgleich) und Gesichtsidentifikation (oder 1:n-Abgleich), um zu bestätigen, dass ein Benutzer die Person ist, die er vorgibt zu sein.
Lebendigkeitserkennung Die Aktivitätserkennung ist eine Anti-Spoofing-Funktion, die überprüft, ob ein Benutzer physisch vor der Kamera anwesend ist. Es wird verwendet, um Spoofingangriffe zu verhindern, die ein gedrucktes Foto, aufgezeichnetes Video oder eine 3D-Maske des Gesichts des Benutzers verwenden.

Anwendungsfälle

Die folgende Tabelle enthält eine Liste möglicher Anwendungsfälle für Azure AI Face.

Anwendungsfall Beschreibung
Überprüfen der Benutzeridentität Überprüfen Sie eine Person anhand eines vertrauenswürdigen Gesichtsbildes. Diese Überprüfung kann verwendet werden, um Zugriff auf digitale oder physische Eigenschaften zu gewähren. In den meisten Szenarien stammt das vertrauenswürdige Gesichtsbild aus einer von einer Regierung ausgestellten ID, z. B. einem Reisepass oder führerschein, oder aus einem registrierungsfoto, das persönlich aufgenommen wurde. Während der Verifizierung kann die Lebendigkeitserkennung eine entscheidende Rolle dabei spielen, sicherzustellen, dass das Bild von einer echten Person stammt und nicht von einem gedruckten Foto oder einer Maske.
Gesichtsbearbeitung Schwärzen oder verwischen Sie erkannte Gesichter von Personen, die in einem Video aufgenommen wurden, um deren Privatsphäre zu schützen.
Touchlose Zugriffssteuerung Im Vergleich zu Methoden wie Karten oder Tickets ermöglicht die Opt-in-Gesichtsidentifikation eine verbesserte Zugangskontrolle und reduziert gleichzeitig die Hygiene- und Sicherheitsrisiken, die durch die gemeinsame Nutzung, den Verlust oder den Diebstahl physischer Medien entstehen. Die Gesichtserkennung unterstützt den Eincheckprozess von Personen beim Einchecken in Flughäfen, Stadien, Vergnügungsparks, Gebäuden, Rezeptionen von Bürogebäuden, Krankenhäusern, Fitnessstudios, Clubs oder Schulen.

Video-Indizierer

Videoindexer ist eine Cloud-App, die Teil von KI-Diensten ist. Es wird mithilfe von Azure AI-Tools wie Face, Translator, Vision und Speech erstellt. Sie können die Erkenntnisse aus Ihren Videos mithilfe von Videoindexer-Video- und Audiomodellen extrahieren.

Fähigkeiten

Die folgende Tabelle enthält eine Liste einiger der funktionen, die im Videoindexer verfügbar sind.

Funktion Beschreibung
Spracherkennung und Transkription mit mehreren Sprachen Identifiziert die gesprochene Sprache in verschiedenen Audiosegmenten. Die Funktion sendet jedes Segment der zu transkribierenden Mediendatei und kombiniert die Transkriptionen dann wieder zu einer einzigen Transkription.
Gesichtserkennung Erkennt und gruppiert Gesichter, die im Video erscheinen.
Prominentenerkennung Identifiziert mehr als 1 Millionen Prominente, wie Weltführer, Schauspieler, Künstler, Sportler, Forscher und Business- und Tech-Führungskräfte auf der ganzen Welt. Die Daten zu diesen Prominenten finden Sie auch auf verschiedenen Websites wie IMDB und Wikipedia.
Kontobasierte Gesichtsidentifikation Trainiert ein Modell für ein bestimmtes Konto. Gesichter im Video werden dann auf Grundlage des trainierten Modells erkannt.
Verfolgen von beobachteten Personen (Vorschau) Erkennt beobachtete Personen in Videos. Sie stellt Informationen bereit, wie die Position der Person im Videorahmen mithilfe von begrenzenden Boxen. Es enthält auch die genauen Anfangs- und Endzeitstempel für den Zeitpunkt, an dem eine Person angezeigt wird, und einen Konfidenzfaktor für die Erkennung.
Audiotranskription Konvertiert Sprache in Text in mehr als 50 Sprachen und ermöglicht Erweiterungen.
Spracherkennung Identifiziert die vorherrschende gesprochene Sprache.
Geräuschreduzierung bereinigt (basierend auf Skype-Filtern) Telefonaudio oder verrauschte Aufnahmen.
Übersetzung Erstellt Übersetzungen des Audiotranskripts in mehrere Sprachen.

Weitere Informationen finden Sie in der Videoindexer-Dokumentation.

Anwendungsfälle

Die folgende Tabelle enthält eine Liste möglicher Anwendungsfälle für video indexer.

Anwendungsfall Beschreibung
Intensivsuche Verwenden Sie die aus dem Video extrahierten Erkenntnisse, um die Suchfunktion für eine Videobibliothek zu verbessern. Beispielsweise kann die Indizierung von gesprochenem Text und Gesichtern die Suche nach Stellen in einem Video ermöglichen, in denen eine Person bestimmte Wörter benutzt hat oder zwei Personen zusammen gezeigt werden. Die Suche basierend auf solchen Erkenntnissen aus Videos gilt für Nachrichtenagenturen, Bildungseinrichtungen, Rundfunkanstalten, Unterhaltungsinhaltsbesitzer, Unternehmens-Branchen-Apps und allgemein für jede Branche, die über eine Videobibliothek verfügt, nach der Benutzer suchen müssen.
Inhaltserstellung Erstellen Sie Trailer, Highlight-Zusammenfassungen, Social-Media-Inhalte oder Newsclips, basierend auf den Erkenntnissen, die Video Indexer aus Ihren Inhalten extrahiert. Keyframes, Szenenmarkierungen und Zeitstempel von Personen und Labelerscheinungen vereinfachen den Erstellungsprozess. Diese Elemente helfen Ihnen, die Teile des Videos, die Sie beim Erstellen von Inhalten benötigen, schnell zu finden.
Zugriff Ganz gleich, ob Sie Ihre Inhalte für Personen mit Behinderungen verfügbar machen möchten oder Ihre Inhalte in verschiedenen Regionen verteilt werden sollen, in denen unterschiedliche Sprachen verwendet werden. Sie können die Transkription und Übersetzung verwenden, die der Videoindexer in mehreren Sprachen bereitstellt.
Monetarisierung Der Videoindexer kann dazu beitragen, den Wert von Videos zu erhöhen. Beispielsweise können Branchen, die auf Anzeigeneinnahmen wie Newsmedien und Social Media angewiesen sind, relevante Anzeigen bereitstellen, indem sie die extrahierten Erkenntnisse als zusätzliche Signale an den Anzeigenserver verwenden.
Inhaltsmoderation Verwenden Sie Text- und visuelle Inhaltsmoderationsmodelle, um Ihre Benutzer vor unangemessenen Inhalten zu schützen und zu überprüfen, ob die inhalte, die Sie veröffentlichen, den Werten Ihrer Organisation entsprechen. Sie können bestimmte Videos automatisch blockieren oder Ihre Benutzer vor dem Inhalt warnen.
Empfehlungen Die aus Videos gewonnenen Erkenntnisse können genutzt werden, um die Kundenbindung zu verbessern, indem für die Benutzer relevante Stellen in einem Video hervorgehoben werden. Indem Sie jedes Video mit zusätzlichen Metadaten markieren, können Sie Benutzern die relevantesten Videos empfehlen und die Teile des Videos hervorheben, die ihren Anforderungen entsprechen.

Nächste Schritte