Freigeben über


Agentenbasiertes Abrufen in Azure AI Search

Hinweis

Dieses Feature ist zurzeit als öffentliche Preview verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel (SLA) bereitgestellt und ist nicht für Produktionsworkloads vorgesehen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Gründe für die Verwendung des Agent-Abrufs In Azure KI-Suche ist der Agent-Abruf eine neue Pipeline mit mehreren Abfragen, die für komplexe Fragen konzipiert ist, die von Benutzenden oder Agents in Chat- und Copilot-Apps gestellt werden. Sie ist für RAG-Muster (Retrieval Augmented Generation) und Agent-zu-Agent-Workflows vorgesehen.

Hier erfahren Sie, was dies tut:

  • Verwendet ein großes Sprachmodell (LLM), um eine komplexe Abfrage in kleinere, fokussierte Unterabfragen aufzuteilen, um eine bessere Abdeckung über Ihre indizierten Inhalte zu gewährleisten. Unterabfragen können den Chatverlauf für zusätzlichen Kontext enthalten.

  • Führt Unterabfragen parallel aus. Jede Unterabfrage wird semantisch neu bewertet, um die relevantesten Übereinstimmungen höher zu stufen.

  • Kombiniert die besten Ergebnisse in einer einheitlichen Antwort, die ein LLM (Large Language Model) verwenden kann, um Antworten mit Ihren geschützten Inhalten zu generieren.

  • Die Antwort ist modular und dennoch umfassend, da sie auch einen Abfrageplan und die Quelldokumente enthält. Sie können nur die Suchergebnisse als Erdungsdaten verwenden oder die LLM aufrufen, um eine Antwort zu formulieren.

Diese leistungsstarke Pipeline hilft Ihnen, qualitativ hochwertige Bodendaten (oder eine Antwort) für Ihre Chatanwendung zu generieren, mit der Möglichkeit, komplexe Fragen schnell zu beantworten.

Programmgesteuert wird der agentische Abruf über ein neues Knowledge Base-Objekt in der 2025-11-01-Vorschau und in Azure SDK-Vorschaupaketen unterstützt, die das Feature bereitstellen. Die Abrufantwort einer Wissensdatenbank ist für die nachgelagerte Nutzung durch andere Agents und Chat-Apps vorgesehen.

Gründe für die Verwendung des Agent-Abrufs

Sie sollten den agentischen Abruf verwenden, wenn Sie Agents und Apps mit den relevantesten Inhalten für die Beantwortung schwierigerer Fragen bereitstellen möchten, den Chatkontext und Ihre proprietären Inhalte nutzen.

Der agentische Aspekt ist ein Schritt des logischen Denkens in der Verarbeitung der Abfrageplanung, der von einem unterstützten großangelegten Sprachmodell (LLM) ausgeführt wird, das Sie bereitstellen. Die LLM analysiert den gesamten Chatthread, um die zugrunde liegende Informationsanforderung zu identifizieren. Anstelle einer einzelnen Abfrage vom Typ „Alles erfassen“ unterteilt das LLM zusammengesetzte Fragen in fokussierte Unterabfragen basierend auf Benutzerfragen, Chatverlauf und Parameter der Anforderung. Die Unterabfragen zielen auf Ihre indizierten Dokumente (Nur-Text und Vektoren) in Azure AI Search ab. Dieser Hybridansatz stellt sicher, dass sowohl Schlüsselwortübereinstimmungen als auch semantische Ähnlichkeiten gleichzeitig angezeigt werden, was den Rückruf erheblich verbessert.

Die Abrufkomponente ist die Möglichkeit, Unterabfragen gleichzeitig auszuführen, Ergebnisse zusammenzuführen, ergebnisse semantisch zu rangieren und eine dreiteilige Antwort zurückzugeben, die Die Basisdaten für die nächste Unterhaltung umfasst, Referenzdaten, sodass Sie den Quellinhalt überprüfen können, und einen Aktivitätsplan, der Abfrageausführungsschritte anzeigt.

Abfrageerweiterung und parallele Ausführung sowie die Abrufantwort sind die wichtigsten Funktionen des agentischen Abrufs, die es zur besten Wahl für generative KI-Anwendungen (RAG) machen.

Diagramm einer komplexen Abfrage mit implizitem Kontext und einem absichtlichen Tippfehler.

Der agentische Abruf fügt der Abfrageverarbeitung Latenz hinzu, macht dies jedoch durch Hinzufügen dieser Funktionen aus:

  • Liest den Chatverlauf als Eingabe für die Abrufpipeline vor.
  • Zerlegt eine komplexe Anfrage, die mehrere Anforderungen enthält, in ihre einzelnen Bestandteile. Beispiel: "Finde mir ein Hotel in der Nähe des Strandes, mit Flughafentransfer und das sich zu Fuß zu vegetarischen Restaurants befindet."
  • Die ursprüngliche Abfrage wird mithilfe von Synonymzuordnungen (optional) und LLM-generierten Paraphrasierungen in mehrere Unterabfragen umgeschrieben.
  • Korrigiert Rechtschreibfehler.
  • Führt alle Unterabfragen gleichzeitig aus.
  • Gibt ein einheitliches Ergebnis als einzelne Zeichenfolge aus. Alternativ können Sie Teile der Antwort für Ihre Lösung extrahieren. Metadaten zur Abfrageausführung und Referenzdaten sind in der Antwort enthalten.

Der Agent-Abruf ruft die gesamte Abfrageverarbeitungspipeline mehrmals für jede Unterabfrage auf. Dies geschieht jedoch parallel, wodurch Effizienz und Leistung beibehalten werden, die für ein akzeptables Benutzererlebnis erforderlich sind.

Hinweis

Das Einschließen eines LLM in die Abfrageplanung fügt einer Abfragepipeline Latenz hinzu. Sie können die Effekte verringern, indem Sie schnellere Modelle wie gpt-4o-mini verwenden und die Nachrichtenthreads zusammenfassen. Sie können Latenz und Kosten minimieren, indem Sie Eigenschaften festlegen, die die LLM-Verarbeitung einschränken. Sie können die Verarbeitung durch LLMs auch vollständig ausschließen und nur die Text- und Hybridsuche sowie Ihre eigene Abfrageplanungslogik verwenden.

Architektur und Workflow

Der Agent-Abruf ist für Unterhaltungssuchumgebungen konzipiert, die ein LLM nutzen, um komplexe Abfragen intelligent zu unterteilen. Das System koordiniert mehrere Azure-Dienste, um umfassende Suchergebnisse bereitzustellen.

Diagramm des agentischen Abrufworkflows mithilfe einer Beispielabfrage.

Funktionsweise

Der agentische Abrufvorgang funktioniert wie folgt:

  1. Workflowinitiierung: Ihre Anwendung ruft eine Wissensdatenbank mit einer Abrufaktion auf, die einen Abfrage- und Konversationsverlauf bereitstellt.

  2. Abfrageplanung: Eine Wissensdatenbank sendet Ihren Abfrage- und Unterhaltungsverlauf an ein LLM, das den Kontext analysiert und komplexe Fragen in fokussierte Unterabfragen unterteilt. Dieser Schritt ist automatisiert und kann nicht angepasst werden.

  3. Abfrageausführung: Die Knowledge Base sendet die Unterabfragen an Ihre Wissensquellen. Alle Unterabfragen werden gleichzeitig ausgeführt und können Schlüsselwort-, Vektor- und Hybridsuche sein. Jede Unterabfrage durchläuft die semantische Neusortierung, um die relevantesten Übereinstimmungen zu finden. Verweise werden für Zitatzwecke extrahiert und für Zitate aufbewahrt.

  4. Ergebnissynthese: Das System kombiniert alle Ergebnisse in einer einheitlichen Antwort mit drei Teilen: zusammengeführte Inhalte, Quellverweise und Ausführungsdetails.

Ihr Suchindex bestimmt die Abfrageausführung und alle Optimierungen, die während der Abfrageausführung auftreten. Insbesondere wenn Ihr Index durchsuchbare Text- und Vektorfelder enthält, wird eine Hybridabfrage ausgeführt. Wenn das einzige durchsuchbare Feld ein Vektorfeld ist, wird nur eine reine Vektorsuche verwendet. Die Indexsemantikkonfiguration sowie optionale Bewertungsprofile, Synonymzuordnungen, Analysemodule und Normalisierungsfunktionen (wenn Sie Filter hinzufügen) werden während der Abfrageausführung verwendet. Sie müssen benannte Standardwerte für eine semantische Konfiguration und ein Bewertungsprofil haben.

Erforderliche Komponenten

Komponente Dienstleistung Rolle
LLM Azure OpenAI Erstellt Unterabfragen aus dem Unterhaltungskontext und verwendet später Groundingdaten für die Antwortgenerierung.
Wissensdatenbank Azure KI-Suche Orchestriert die Pipeline und stellt dabei eine Verbindung mit Ihrem LLM her und verwaltet Abfrageparameter.
Wissensquelle Azure KI-Suche Umschließt den Suchindex mit Eigenschaften, die sich auf die Knowledge Base-Nutzung beziehen
Suchindex Azure KI-Suche Speichert Ihre durchsuchbaren Inhalte (Text und Vektoren) mit semantischer Konfiguration.
Semantischer Sortierer Azure KI-Suche Erforderliche Komponente, die Ergebnisse nach Relevanz neu sortiert (L2-Neusortierung)

Integrationsanforderungen

Ihre Anwendung steuert die Pipeline, indem sie die Knowledge Base aufruft und die Antwort verarbeitet. Die Pipeline gibt Groundingdaten zurück, die Sie zur Antwortgenerierung in Ihrer Unterhaltungsschnittstelle an ein LLM übergeben. Details zur Implementierung finden Sie im Lernprogramm: Erstellen einer End-to-End-Agentic-Abruflösung.

Hinweis

Nur gpt-4o-, gpt-4.1- und gpt-5-Serienmodelle werden für die Abfrageplanung unterstützt. Sie können ein beliebiges Modell für die endgültige Antwortgenerierung verwenden.

Einstieg

Um eine agentische Abruflösung zu erstellen, können Sie das Azure-Portal, die neuesten Vorschau-REST-APIs oder ein Vorschau-Azure SDK-Paket verwenden, das die Funktionalität bereitstellt.

Derzeit unterstützt das Portal nur das Erstellen von Suchindex- und Blob-Wissensquellen. Andere Arten von Wissensquellen müssen programmgesteuert erstellt werden.

Verfügbarkeit und Preise

Agentic-Abruf ist in ausgewählten Regionen verfügbar. Wissensquellen und Wissensbasen verfügen auch über maximale Grenzwerte , die je nach Dienstebene variieren.

Es hat eine Abhängigkeit von Premium-Features. Wenn Sie den semantischen Ranker für Ihren Suchdienst deaktivieren, deaktivieren Sie effektiv die agentische Suche.

Plan Description
Kostenlos Ein Suchdienst für den Free-Tarif stellt 50 Millionen kostenlose Token für die agentische Begründung pro Monat bereit. Auf höheren Ebenen können Sie zwischen dem kostenlosen Plan (Standard) und dem Standardplan wählen.
Norm Der Standardplan ist pay-as-you-go-Preise, sobald das monatliche kostenlose Kontingent verbraucht wird. Nachdem das kostenlose Kontingent aufgewendet wurde, werden Ihnen für jede zusätzliche 1 Million agentische Begründungstoken eine zusätzliche Gebühr berechnet. Sie werden nicht benachrichtigt, wenn der Übergang eintritt. Weitere Informationen zu Gebühren nach Währung finden Sie auf der Azure AI Search-Preisseite.

Token-basierte Abrechnung für LLM-basierte Abfrageplanung und Antwortsynthese (optional) erfolgt nutzungsbasiert in Azure OpenAI. Es ist tokenbasiert für Eingabe- und Ausgabetoken. Das Modell, das Sie der Wissensbasis zuweisen, ist dasjenige, für das die Gebühr nach Token-Nutzung berechnet wird. Wenn Sie beispielsweise gpt-4o verwenden, wird die Tokengebühr in der Rechnung für gpt-4o angezeigt.

Die tokenbasierte Abrechnung für den agentengestützten Abruf basiert auf der Anzahl der Tokens, die von den einzelnen Unterabfragen zurückgegeben werden.

Aspekt Klassische Pipeline mit einer Abfrage Pipeline mit Agent-Abruf und mehreren Abfragen
Einheit Abfragebasiert (1.000 Abfragen) pro Währungseinheit Tokenbasiert (1 Millionen Token pro Währungseinheit)
Kosten pro Einheit Einheitliche Kosten pro Abfrage Einheitliche Kosten pro Token
Cost Estimation (Kostenvorkalkulation) Anzahl der Geschätzten Abfragen Tokenverbrauch schätzen
Kostenlose Stufe 1.000 kostenlose Abfragen 50 Millionen kostenlose Token

Beispiel: Schätzen der Kosten

Agentischer Abruf verfügt über zwei Abrechnungsmodelle: Abrechnung von Azure OpenAI (Abfrageplanung und, wenn aktiviert, Antwortsynthese) und Abrechnung von Azure AI Search für den agentischen Abruf.

In diesem Preisbeispiel wird die Antwortsynthese weggelassen, aber der Schätzungsprozess wird veranschaulicht. Ihre Kosten können niedriger ausfallen. Informationen zum tatsächlichen Preis von Transaktionen finden Sie unter Azure OpenAI-Preise.

Geschätzte Abrechnungskosten für die Abfrageplanung

Um die Kosten für den Abfrageplan bei nutzungsbasierter Bezahlung in Azure OpenAI zu schätzen, wird im Folgenden von gpt-4o-mini ausgegangen:

  • 15 Cent für 1 Millionen Eingabetoken.
  • 60 Cent für 1 Mio. Ausgabetoken
  • 2.000 Eingabetoken für die durchschnittliche Chat-Gesprächsgröße.
  • 350 Token für die durchschnittliche Ausgabeplangröße

Geschätzte Abrechnungskosten für die Abfrageausführung

Um die Anzahl agentischer Abruftoken zu schätzen, beginnen Sie mit einer Vorstellung davon, wie ein durchschnittliches Dokument in Ihrem Index aussieht. Beispielsweise kann Folgendes angenommen werden:

  • 10.000 Blöcke, wobei jeder Block ein bis zwei Absätze einer PDF-Datei ist.
  • 500 Token pro Block.
  • Jede Unterabfrage bewertet bis zu 50 Datenblöcke neu.
  • Im Durchschnitt gibt es drei Unterabfragen pro Abfrageplan.

Berechnung des Preises der Ausführung

  1. Nehmen wir an, wir führen 2.000 agentenbasierte Abfragen mit drei Unterabfragen pro Plan durch. Dies gibt uns ca. 6.000 Gesamtabfragen.

  2. Neusortierung in 50 Blöcken pro Unterabfrage, also 300.000 Blöcke insgesamt

  3. Der durchschnittliche Teil besteht aus 500 Token, sodass die Gesamttoken für die Neusortierung 150 Millionen betragen.

  4. Angesichts eines hypothetischen Preises von 0,022 pro Token beträgt der Gesamtkostenbetrag für das Reranking 3,30 US-Dollar.

  5. Die Kosten für den Abfrageplan: 2.000 Eingabetoken multipliziert mit 2.000 agentischen Abrufen entsprechen 4 Millionen Eingabetoken für insgesamt 60 Cent.

  6. Schätzen Sie die Ausgabekosten basierend auf einem Durchschnitt von 350 Token. Wenn wir 350 mit 2.000 agentischen Abrufen multiplizieren, erhalten wir insgesamt 700.000 Ausgabetoken für insgesamt 42 Cent.

Insgesamt zahlen Sie etwa 3,30 US-Dollar für den agentengesteuerten Abruf in Azure AI Search, 60 Cent für Eingabetoken in Azure OpenAI und 42 Cent für Ausgabetoken in Azure OpenAI, insgesamt 1,02 US-Dollar für die Abfrageplanung. Die kombinierten Kosten für die vollständige Ausführung betragen 4,32 $.

Tipps zum Steuern von Kosten

  • Überprüfen Sie das Aktivitätsprotokoll in der Antwort, um herauszufinden, welche Abfragen für welche Quellen und welche Parameter verwendet wurden. Sie können diese Abfragen für Ihre Indizes neu erstellen und einen öffentlichen Tokenizer verwenden, um Token zu schätzen und mit der api-gemeldeten Verwendung zu vergleichen. Eine genaue Wiederherstellung einer Abfrage oder Antwort ist jedoch nicht gewährleistet. Zu den Faktoren gehören die Art der Wissensquelle, z. B. öffentliche Webdaten oder eine SharePoint-Remote-Wissensquelle, die auf eine Benutzeridentität prädiziert ist, was sich auf die Wiedergabe von Abfragen auswirken kann.

  • Reduzieren Sie die Anzahl der Wissensquellen (Indizes), da die Konsolidierung von Inhalten die Verbreitung und das Tokenvolumen verringern kann.

  • Verringern Sie den Denkaufwand, um die LLM-Nutzung während der Abfrageplanung und Abfrageerweiterung (iterative Suchvorgänge) zu reduzieren.

  • Organisieren Sie Inhalte so, dass die relevantesten Informationen mit weniger Quellen und Dokumenten gefunden werden können (z. B. kuratierte Zusammenfassungen oder Tabellen).