Freigeben über


KI-Anreicherung in Azure KI Search

In Azure AI Search bezieht sich die KI-Anreicherung auf die Integration mit Foundry Tools , um Inhalte zu verarbeiten, die nicht in der rohen Form durchsuchbar sind. Durch Anreicherung, Analyse und Rückschließen werden durchsuchbare Inhalte und Strukturen geschaffen, wo vorher keine vorhanden waren.

Azure KI-Suche wird für Text- und Vektorabfragen verwendet, und der Zweck der KI-Anreicherung besteht darin, den Nutzen Ihrer Inhalte in suchbezogenen Szenarien zu verbessern. Unformatierter Inhalt muss Text oder Bilder sein (Sie können Vektoren nicht anreichern), aber die Ausgabe einer Anreicherungspipeline kann vektorisiert und in einem Suchindex mithilfe von Fertigkeiten wie der Text-Teilungsfertigkeit zur Segmentierung und der Azure OpenAI-Embedding-Fertigkeit für die Vektorkodierung indiziert werden. Weitere Informationen zur Verwendung von Skills in Vektorszenarien finden Sie unter Integrierte Datenblockerstellung und Einbettung.

KI-Anreicherung basiert auf Fähigkeiten.

Integrierte Fähigkeiten Tippen Sie auf Foundry Tools. Sie wenden die folgenden Transformationen und Verarbeitungsschritte auf unverarbeitete Inhalte an:

  • Übersetzung und Spracherkennung für mehrsprachige Suche.
  • Entitätserkennung zum Extrahieren von Personennamen, Orten und anderen Entitäten aus großen Textabschnitten.
  • Schlüsselbegriffextraktion zum Identifizieren und Ausgeben wichtiger Begriffe.
  • Optische Zeichenerkennung (OCR), um gedruckten und handschriftlichen Text in Binärdateien zu erkennen.
  • Bildanalyse zur Beschreibung von Bildinhalten und Ausgabe der Beschreibungen als durchsuchbare Textfelder.
  • Texteinbettungen über Azure OpenAI zur integrierten Vektorisierung.
  • Multimodale Einbettungen mit Azure Vision in Foundry Tools zur Vektorisierung von Text und Bildern.

Benutzerdefinierte Fähigkeiten führen Ihren externen Code aus. Sie können benutzerdefinierte Fähigkeiten für jede benutzerdefinierte Verarbeitung verwenden, die Sie in die Pipeline aufnehmen möchten.

Die KI-Anreicherung ist eine Erweiterung einer Indexerpipeline, die eine Verbindung mit Azure-Datenquellen herstellt. Eine Anreicherungspipeline verfügt über alle Komponenten einer Indexerpipeline (Indexer, Datenquelle, Index) und ein Skillset , das Atomanreicherungsschritte angibt.

Das folgende Diagramm zeigt den Fortschritt der KI-Anreicherung:

Das Diagramm einer Anreicherungspipeline

Importieren ist der erste Schritt. Hier stellt der Indexer eine Verbindung mit einer Datenquelle her und pullt Inhalte (Dokumente) in den Suchdienst. Azure Blob Storage ist die am häufigsten verwendete Ressource in KI-Anreicherungsszenarien, aber jede unterstützte Datenquelle kann Inhalte bereitstellen.

Anreichern und Index umfasst den Großteil der KI-Anreicherungspipeline:

  • Anreicherung beginnt, wenn der Indexer Dokumente zerbricht und Bilder und Text extrahiert. Die Art der Verarbeitung, die als Nächstes auftritt, hängt von Ihren Daten und den Fähigkeiten ab, die Sie einem Skillset hinzugefügt haben. Bilder können an Fähigkeiten weitergeleitet werden , die die Bildverarbeitung durchführen. Textinhalte werden für die Verarbeitung von Text und natürlicher Sprache in eine Warteschlange gestellt. Intern erstellen Fähigkeiten ein bereichernes Dokument , das Transformationen sammelt, während sie auftreten.

  • Angereicherte Inhalte werden während der Ausführung von Skillset generiert und sind temporär, es sei denn, Sie speichern sie. Sie können einen Anreicherungscache aktivieren, um die Ergebnisse der Skills für die Wiederverwendung in zukünftigen Skill-Sets zu speichern.

  • Um Inhalte in einen Suchindex zu bekommen, muss der Indexer über Zuordnungsinformationen verfügen, um angereicherte Inhalte an das Zielfeld zu senden. Feldzuordnungen (explizit oder implizit) legen den Datenpfad von Quelldaten zu einem Suchindex fest. Ausgabefeld-Zuordnungen legen den Datenpfad von angereicherten Dokumenten zu einem Index fest.

  • Die Indizierung ist der Prozess, bei dem rohe und angereicherte Inhalte in die physischen Datenstrukturen eines Suchindex (seine Dateien und Ordner) aufgenommen werden. Lexikalische Analyse und Tokenisierung erfolgen in diesem Schritt.

Erkundung ist der letzte Schritt. Die Ausgabe ist immer ein Suchindex, den Sie aus einer Client-App abfragen können. Die Ausgabe kann optional ein Wissensspeicher sein, der aus Blobs und Tabellen in Azure Storage besteht, auf die über Datenexplorierungstools oder nachgelagerte Prozesse zugegriffen wird. Wenn Sie einen Wissensspeicher erstellen, bestimmen Projektionen den Datenpfad für angereicherte Inhalte. Derselbe angereicherte Inhalt kann sowohl in Indizes als auch in Wissensspeichern erscheinen.

Einsatzgebiete der KI-Anreicherung

Die Anreicherung ist hilfreich, wenn es sich bei Ihren unformatierten Inhalten um unstrukturierten Text, um Bildinhalte oder um Inhalte handelt, für die Spracherkennung und -übersetzung benötigt werden. Die Anwendung von KI über die integrierten Fähigkeiten kann diesen Inhalt für Volltextsuche und Data Science-Anwendungen entsperren.

Sie können auch benutzerdefinierte Fähigkeiten erstellen, um externe Verarbeitung bereitzustellen. Open-Source-Code oder Code von Drittanbietern oder Erstanbietern kann als benutzerdefinierte Fertigkeit in die Pipeline integriert werden. Zu dieser Kategorie gehören Klassifizierungsmodelle, mit denen wichtige Merkmale verschiedener Dokumenttypen identifiziert werden. Es könnte aber jedes beliebige externe Paket verwendet werden, das den Nutzen Ihrer Inhalte erhöht.

Anwendungsfälle für integrierte Skills

Integrierte Fähigkeiten basieren auf den Findry Tools-APIs: Azure Vision und Azure Language. Sofern Ihre Inhaltseingabe nicht klein ist, wird erwartet, dass Sie eine abrechnende Microsoft Foundry-Ressource anfügen , um größere Workloads auszuführen.

Ein Skillset mit integrierten Fähigkeiten eignet sich sehr gut für die folgenden Anwendungsszenarien:

Anwendungsfälle für benutzerdefinierte Skills

Benutzerdefinierte Fähigkeiten führen externen Code aus, den Sie in der benutzerdefinierten Fähigkeiten-Weboberfläche bereitstellen und umschließen. Einige Beispiele für benutzerdefinierte Skills finden Sie im GitHub-Repository azure-search-power-skills.

Benutzerdefinierte Fertigkeiten sind nicht immer komplex. Wenn Sie z. B. über ein bestehendes Paket verfügen, das einen Musterabgleich oder ein Dokumentenklassifizierungsmodell bereitstellt, können Sie es mit einer benutzerdefinierten Fertigkeit umschließen.

Speichern der Ausgabe

In Azure KI Search speichert ein Indexer die von ihm erstellte Ausgabe. Ein einzelner Indexer kann bis zu drei Datenstrukturen erstellen, die eine angereicherte und indizierte Ausgabe enthalten.

Datenspeicher Required Location Description
durchsuchbarer Index Required Search service Wird für die Volltextsuche und andere Abfrageformulare verwendet. Die Angabe eines Indexes ist eine Indexeranforderung. Indexinhalte werden aus den Fertigkeitsausgaben sowie allen Quellfeldern gefüllt, die direkt den Feldern im Index zugeordnet sind.
Wissensspeicher Optional Azure Storage Wird für nachgeschaltete Apps wie Knowledge Mining, Data Science und multimodale Suche verwendet. Ein Wissensspeicher wird durch ein Skillset definiert. Seine Definition bestimmt, ob Ihre angereicherten Dokumente als Tabellen oder Objekte (Dateien oder Blobs) in Azure Storage projiziert werden. Bei multimodalen Suchszenarien können Sie extrahierte Bilder im Wissensspeicher speichern und zur Abfragezeit referenzieren, sodass die Bilder direkt an Client-Apps zurückgegeben werden können.
Cache für Anreicherung Optional Azure Storage Wird für Zwischenspeicher-Anreicherungen zum Wiederverwenden in nachfolgenden Skillset-Ausführungen verwendet. Der Cache speichert importierte, nicht verarbeitete Inhalte (gespaltene Dokumente). Er speichert auch die angereicherten Dokumente, die während der Skillset-Ausführung erstellt wurden. Die Zwischenspeicherung ist hilfreich, wenn Ihr Skillset Bildanalyse oder OCR umfasst und Sie Zeit und Kosten für die erneute Verarbeitung von Bilddateien vermeiden möchten.

Indizes und Wissensspeicher sind vollständig unabhängig voneinander. Sie müssen zwar einen Index anfügen, um die Indexeranforderungen zu erfüllen, aber wenn Ihr einziges Ziel ein Wissensspeicher ist, können Sie den Index ignorieren, nachdem er aufgefüllt wurde.

Erkunden von Inhalten

Nachdem Sie einen Suchindex oder wissensspeicher definiert und geladen haben, können Sie dessen Daten untersuchen.

Abfragen eines Suchindex

Führen Sie Abfragen aus, um auf die von der Pipeline generierten angereicherten Inhalte zuzugreifen. Der Index ist wie jeder andere Index, den Sie für Azure KI Search erstellen können: Sie können die Textanalyse durch benutzerdefinierte Analysen ergänzen, Fuzzysuchabfragen aufrufen, Filter hinzufügen oder zur Optimierung der Suchrelevanz mit Bewertungsprofilen experimentieren.

Verwenden von Datenexplorationstools für einen Wissensspeicher

In Azure Storage kann ein Wissensspeicher die folgenden Formen annehmen: Blobcontainer mit JSON-Dokumenten, Blobcontainer mit Bildobjekten oder Tabellen in Table Storage. Sie können Storage Explorer, Power BI oder eine beliebige App verwenden, die eine Verbindung mit Azure Storage herstellt, um auf Ihre Inhalte zuzugreifen.

  • Ein Blobcontainer erfasst angereicherte Dokumente in ihrer Gesamtheit, was nützlich ist, wenn Sie einen Feed für andere Prozesse erstellen.

  • Eine Tabelle ist nützlich, wenn Sie Segmente von angereicherten Dokumenten benötigen oder bestimmte Teile der Ausgabe ein- oder ausschließen möchten. Für die Analyse in Power BI sind Tabellen die empfohlene Datenquelle für die Datenuntersuchung und -visualisierung in Power BI.

Verfügbarkeit und Preismodell

KI-Anreicherung steht in Regionen zur Verfügung, in denen Foundry Tools angeboten werden. Informationen zur Verfügbarkeit der KI-Anreicherung finden Sie in der Regionsliste.

Die Abrechnung folgt einem Standard-Preismodell. Kosten im Zusammenhang mit integrierten Fähigkeiten entstehen, wenn Sie eine Azure OpenAI in Foundry Models-Ressource oder einen Foundry-Ressourcenschlüssel im Skillset angeben. Auch bei der Bildextraktion fallen Kosten an, die von Azure KI Search berechnet werden. Textextraktion und Hilfsfähigkeiten können jedoch nicht abgerechnet werden. Weitere Informationen finden Sie unter Kosten von Azure KI Search.

Prüfliste: Typischer Workflow

Eine Anreicherungspipeline besteht aus Indexern, die über bestimmte Skillsets verfügen. Nach der Indizierung können Sie einen Index abfragen, um Ihre Ergebnisse zu validieren.

Beginnen Sie mit einer Teilmenge von Daten in einer unterstützten Datenquelle. Die Entwicklung von Indexern und Skillsets ist ein iterativer Prozess. Mit einem kleinen repräsentativen Datensatz geht die Arbeit schneller.

  1. Erstellen Sie eine Datenquelle, die eine Verbindung zu Ihren Daten angibt.

  2. Erstellen eines Skillsets. Sofern Ihr Projekt nicht klein ist, sollten Sie eine Foundry-Ressource anfügen. Wenn Sie einen Wissensspeicher erstellen, definieren Sie ihn im Rahmen des Skillsets.

  3. Erstellen Sie ein Indexschema, das einen Suchindex definiert.

  4. Erstellen und ausführen Sie den Indexer , um alle vorherigen Komponenten zusammenzuführen. Dieser Schritt ruft die Daten ab, führt das Skillset aus und lädt den Index.

    Ein Indexer ist auch der Ort, an dem Sie Feldzuordnungen und Ausgabefeldzuordnungen angeben, die den Datenpfad zu einem Suchindex einrichten.

    Optional können Sie das Anreicherungs-Caching aktivieren in der Indexer-Konfiguration. Mit diesem Schritt können Sie vorhandene Anreicherungen später wiederverwenden.

  5. Führen Sie Abfragen ausum die Ergebnisse zu bewerten, oderstarten Sie eine Debugging-Sitzung um Probleme mit dem Skill-Set zu lösen.

Wenn Sie einen der vorherigen Schritte wiederholen möchten, setzen Sie den Indexer zurück , bevor Sie ihn ausführen. Alternativ können Sie die Objekte bei jeder Ausführung löschen und neu erstellen (empfohlen, wenn Sie die kostenlose Ebene verwenden). Wenn Sie die Zwischenspeicherung aktiviert haben, ruft der Indexer aus dem Cache ab, wenn die Quelldaten unverändert sind und ihre Bearbeitungen an der Pipeline den Cache nicht ungültig machen.

Nächste Schritte