Udostępnij przez


Agentowe wyszukiwanie w usłudze Azure AI Search

Uwaga / Notatka

Ta funkcja jest obecnie w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie jest zalecana w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

Co to jest przypominanie agentowe? W usłudze Azure AI Search pobieranie agentów to nowy potok z wieloma zapytaniami zaprojektowany pod kątem złożonych pytań zadawanych przez użytkowników lub agentów w aplikacjach czatu i copilot. Jest ona przeznaczona do pobierania wzorców rozszerzonej generacji (RAG) i przepływów pracy agenta do agenta.

Oto, co robi:

  • Używa dużego modelu językowego (LLM), aby podzielić złożone zapytanie na mniejsze, ukierunkowane podzapytania w celu lepszego pokrycia zawartości indeksowanej. Podzapytania mogą zawierać historię czatów na potrzeby dodatkowego kontekstu.

  • Uruchamia podzapytania równolegle. Każda podzapytywanie jest semantycznie ponownie sklasyfikowana w celu podwyższenia poziomu najbardziej odpowiednich dopasowań.

  • Łączy najlepsze wyniki w ujednoliconą odpowiedź, która może służyć do generowania odpowiedzi z zastrzeżoną zawartością.

  • Odpowiedź jest modułowa i zarazem kompleksowa, ponieważ zawiera także plan zapytania oraz dokumenty źródłowe. Możesz użyć tylko wyników wyszukiwania jako danych uziemienia lub wywołać llM, aby sformułować odpowiedź.

Ten pipeline wysokiej wydajności pomaga w generowaniu wysokiej jakości danych referencyjnych (lub odpowiedzi) dla aplikacji czatu, umożliwiając szybkie odpowiadanie na złożone pytania.

Programistyczne pobieranie agentów jest obsługiwane za pomocą nowego obiektu bazy wiedzy w wersji zapoznawczej 2025-11-01 i w pakietach podglądowych zestawu Azure SDK, które oferują tę funkcję. Odpowiedź uzyskana z bazy wiedzy jest przeznaczona do wykorzystania przez innych agentów i aplikacje czatowe.

Dlaczego warto używać podejścia związanego z autonomią

Należy użyć agentowego pobierania, jeśli chcesz udostępnić agentom i aplikacjom najbardziej odpowiednią zawartość do odpowiadania na trudniejsze pytania, wykorzystując kontekst czatu i własną zastrzeżoną zawartość.

Aspekt agentowy to krok rozumowania w przetwarzaniu planowania zapytań, który jest wykonywany przez obsługiwany przez Ciebie duży model języka (LLM). Usługa LLM analizuje cały wątek czatu, aby zidentyfikować potrzebne informacje podstawowe. Zamiast pojedynczego zapytania catch-all usługa LLM dzieli złożone pytania na ukierunkowane podzapytania na podstawie pytań użytkowników, historii czatów i parametrów żądania. Podzapytania są przeznaczone dla indeksowanych dokumentów (zwykły tekst i wektory) w usłudze Azure AI Search. Takie podejście hybrydowe zapewnia jednocześnie dopasowanie słów kluczowych i podobieństwa semantyczne, co znacznie poprawia kompletność.

Składnik pobierania to możliwość jednoczesnego uruchamiania podzapytania, scalania wyników, semantycznie rangi wyników i zwracania trzyczęściowej odpowiedzi zawierającej dane uziemione dla następnego turnu konwersacji, danych referencyjnych, aby można było sprawdzić zawartość źródłową oraz plan działania, który pokazuje kroki wykonywania zapytań.

Rozszerzanie zapytań i wykonywanie równoległe, a także odpowiedzi na zapytania, to kluczowe możliwości agentowego pobierania danych, które sprawiają, że jest to najlepszy wybór dla aplikacji AI generacyjnych (RAG).

Diagram złożonego zapytania z kontekstem domniemanym i zamierzoną błędną pisownią.

Pobieranie agentowe zwiększa opóźnienie przetwarzania zapytań, ale nadrabia je, dodając następujące możliwości:

  • Odczytuje historię czatów jako dane wejściowe do potoku pobierania.
  • Rozbija złożone zapytanie, które zawiera wiele pytań, na elementy składowe. Na przykład: "znajdź mi hotel w pobliżu plaży, z transportem lotniskowym i znajduje się w odległości spaceru od restauracji wegetariańskich"."
  • Ponownie zapisuje oryginalne zapytanie w wielu podzapytaniach przy użyciu map synonimów (opcjonalnie) i parafrasowania wygenerowanego przez llM.
  • Poprawia błędy pisowni.
  • Wykonuje wszystkie podzapytania jednocześnie.
  • Generuje ujednolicony wynik jako pojedynczy ciąg. Alternatywnie możesz wyodrębnić części odpowiedzi do swojego rozwiązania. Metadane dotyczące wykonywania zapytań i danych referencyjnych są uwzględniane w odpowiedzi.

Pobieranie agentów wywołuje cały potok przetwarzania zapytań wiele razy dla każdego podzapytania, ale wykonuje to równolegle, zachowując wydajność i wydajność niezbędną dla odpowiedniego środowiska użytkownika.

Uwaga / Notatka

Uwzględnienie funkcji LLM w planowaniu zapytań powoduje dodanie opóźnienia do przepływu zapytań. Możesz ograniczyć efekty, korzystając z szybszych modeli, takich jak gpt-4o-mini, i podsumowując wątki komunikatów. Możesz zminimalizować opóźnienia i koszty, ustawiając właściwości ograniczające przetwarzanie usługi LLM. Możesz również całkowicie wykluczyć przetwarzanie LLM, korzystając jedynie z wyszukiwania tekstowego i hybrydowego oraz własnej logiki planowania zapytań.

Architektura i przepływ pracy

Pobieranie agentów jest przeznaczone dla środowisk wyszukiwania konwersacyjnego, które używają usługi LLM do inteligentnego dzielenia złożonych zapytań. System koordynuje wiele usług platformy Azure w celu dostarczania kompleksowych wyników wyszukiwania.

Diagram przepływu pracy pobierania agentów przy użyciu przykładowego zapytania.

Jak to działa

Proces odzyskiwania za pomocą agenta działa w następujący sposób:

  1. Inicjowanie przepływu pracy: Aplikacja wywołuje bazę wiedzy z akcją pobierania, która udostępnia historię zapytań i konwersacji.

  2. Planowanie zapytań: baza wiedzy wysyła zapytania i historię konwersacji do usługi LLM, która analizuje kontekst i dzieli złożone pytania na ukierunkowane podzapytania. Ten krok jest zautomatyzowany i nie można go dostosowywać.

  3. Wykonywanie zapytań: baza wiedzy wysyła podzapytania do źródeł wiedzy. Wszystkie podzapytania są uruchamiane jednocześnie i mogą być słowami kluczowymi, wektorami i wyszukiwaniem hybrydowym. Każde podzapytywanie przechodzi semantyczną reranking w celu znalezienia najbardziej odpowiednich dopasowań. Odwołania są wyodrębniane i przechowywane do celów cytatu.

  4. Synteza wyników: system łączy wszystkie wyniki w ujednoliconą odpowiedź z trzema częściami: scaloną zawartość, odwołania do źródła i szczegóły wykonania.

Indeks wyszukiwania określa wykonywanie zapytań i wszelkie optymalizacje, które występują podczas wykonywania zapytania. W szczególności jeśli indeks zawiera pola tekstowe i wektorowe z możliwością wyszukiwania, wykonywane jest zapytanie hybrydowe. Jeśli jedynym polem z możliwością wyszukiwania jest pole wektorowe, używane jest tylko wyszukiwanie czystych wektorów. Konfiguracja semantyczna indeksu oraz opcjonalne profile oceniania, mapy synonimów, analizatory i normalizacje (w przypadku dodawania filtrów) są używane podczas wykonywania zapytania. Musisz mieć nazwane wartości domyślne dla konfiguracji semantycznej i profilu oceniania.

Wymagane składniki

Składnik Usługa Role
LLM Azure OpenAI Tworzy podzapytania na podstawie kontekstu konwersacji, a później używa danych uziemienia do generowania odpowiedzi
Baza wiedzy Wyszukiwanie AI platformy Azure Organizuje potok, łącząc się z usługą LLM i zarządzając parametrami zapytania
Źródło wiedzy Wyszukiwanie AI platformy Azure Opakowuje indeks wyszukiwania z właściwościami dotyczącymi użycia bazy wiedzy
Indeks wyszukiwania Wyszukiwanie AI platformy Azure Przechowuje zawartość z możliwością wyszukiwania (tekst i wektory) przy użyciu konfiguracji semantycznej
Ranga semantyczna Wyszukiwanie AI platformy Azure Wymagany składnik, który ponownie korekuje wyniki pod kątem istotności (L2 reranking)

Wymagania dotyczące integracji

Aplikacja steruje przepływem, wywołując bazę wiedzy i obsługując odpowiedź. Potok zwraca dane uziemione przekazywane do modułu LLM na potrzeby generowania odpowiedzi w interfejsie konwersacji. Aby uzyskać szczegółowe informacje na temat implementacji, zobacz Samouczek: budowanie kompleksowego rozwiązania do pobierania agentowego.

Uwaga / Notatka

Tylko modele serii gpt-4o, gpt-4.1 i gpt-5 są obsługiwane w przypadku planowania zapytań. Do generowania końcowej odpowiedzi można użyć dowolnego modelu.

Pierwsze kroki

Aby utworzyć rozwiązanie do autonomicznego pobierania danych, możesz użyć portalu Azure, najnowszych interfejsów API REST w wersji zapoznawczej lub pakietu SDK Azure w wersji zapoznawczej, które zapewniają tę funkcjonalność.

Obecnie portal obsługuje tylko tworzenie indeksu wyszukiwania i źródeł wiedzy typu BLOB. Inne typy źródeł wiedzy muszą być tworzone programowo.

Dostępność i cennik

Odnajdowanie agentów jest dostępne w wybranych regionach. Źródła wiedzy i bazy wiedzy mają również maksymalne limity , które różnią się w zależności od warstwy usług.

Ma zależność od funkcji Premium. Jeśli wyłączysz semantyczną ocenę dla usługi wyszukiwania, skutecznie wyłączysz agentystyczne pobieranie danych.

Plan Description
Bezpłatna Usługa wyszukiwania typu darmowego udostępnia 50 milionów bezpłatnych tokenów rozumowania agentycznego miesięcznie. W przypadku wyższych warstw możesz wybrać plan bezpłatny (domyślny) i plan standardowy.
Standard Plan standardowy to cena na podstawie zużycia po wyczerpaniu bezpłatnego miesięcznego limitu. Po wykorzystaniu bezpłatnego limitu naliczane są dodatkowe opłaty za każdy kolejny milion tokenów agentowego rozumowania. Nie otrzymasz powiadomienia o przejściu. Aby uzyskać więcej informacji na temat opłat według waluty, zobacz stronę cennika usługi Azure AI Search.

Rozliczenia oparte na tokenach dla planowania zapytań z użyciem LLM i syntezy odpowiedzi (opcjonalnie) to model płatności zgodny z rzeczywistym zużyciem w usłudze Azure OpenAI. Jest on oparty na tokenach wejściowych i wyjściowych. Model przypisywany do bazy wiedzy jest tym obciążanym za użycie tokenów. Na przykład, jeśli używasz gpt-4o, opłata za token pojawia się na rachunku za gpt-4o.

Rozliczenia tokenowe dla agentowego pobierania to liczba tokenów zwracanych przez poszczególne podzapytania.

Aspekt Klasyczny przepływ dla pojedynczego zapytania Potok wielozapytaniowego pobierania agentowego
Unit Na podstawie zapytań (1000 zapytań) na jednostkę waluty Oparte na tokenach (1 milion tokenów na jednostkę waluty)
Koszt na jednostkę Jednolity koszt zapytania Jednolity koszt za token
Oszacowanie kosztów Szacowanie liczby zapytań Szacowanie użycia tokenu
warstwa Bezpłatna 1000 bezpłatnych zapytań 50 milionów bezpłatnych tokenów

Przykład: Szacowanie kosztów

Pobieranie agentowe ma dwa modele rozliczeń: fakturowanie z usługi Azure OpenAI (obejmujące planowanie zapytań i, jeśli włączono, syntezę odpowiedzi) oraz fakturowanie z usługi Azure AI Search dotyczące pobierania agentowego.

Ten przykład cen pomija syntezę odpowiedzi, ale pomaga zilustrować proces szacowania. Koszty mogą być niższe. Aby uzyskać rzeczywistą cenę transakcji, zobacz Cennik usługi Azure OpenAI.

Szacowane koszty rozliczeń na potrzeby planowania zapytań

Aby oszacować koszty planu zapytania według faktycznego użycia w usłudze Azure OpenAI, załóżmy, że gpt-4o-mini:

  • 15 centów za 1 milion tokenów wejściowych.
  • 60 centów za 1 milion tokenów wyjściowych.
  • 2000 tokenów wejściowych dla średniego rozmiaru konwersacji na czacie.
  • 350 tokenów dla średniego rozmiaru planu wyjściowego.

Szacowane koszty rozliczeń związane z wykonywaniem zapytań

Aby oszacować liczbę tokenów związanych z pobieraniem przez agenta, zacznij od określenia, jak wygląda przeciętny dokument w twoim indeksie. Możesz na przykład przybliżyć następujące elementy:

  • 10 000 fragmentów, gdzie każdy fragment jest jednym do dwóch akapitów pliku PDF.
  • 500 tokenów na fragment.
  • Każde podzapytanie przereklasowywuje do 50 fragmentów.
  • Średnio istnieją trzy podzapytania na plan zapytania.

Obliczanie ceny wykonania

  1. Załóżmy, że wykonamy 2000 pobrań danych z trzema podzapytaniami na każdy plan. Daje nam to około 6000 łącznych zapytań.

  2. Uporządkuj 50 fragmentów na podzapytanie, co daje sumę 300 000 fragmentów.

  3. Średni fragment to 500 tokenów, więc łączna liczba tokenów do ponownego rangowania wynosi 150 milionów.

  4. Biorąc pod uwagę hipotetyczną cenę 0,022 za token, 3,30 USD jest łącznym kosztem ponownego uporządkowania w dolarach amerykańskich.

  5. Przejdźmy do kosztów planu zapytania: 2000 tokenów wejściowych pomnożonych przez 2000 pobrań opartych na agencie daje w sumie 4 miliony tokenów wejściowych, co kosztuje 60 centów.

  6. Szacowanie kosztów wyjściowych na podstawie średniej 350 tokenów. Jeśli pomnożymy 350 przez 2000 przywołań agentowych, uzyskamy łącznie 700 000 tokenów wyjściowych za sumę 42 centów.

Łącząc to wszystko, płacisz około 3,30 USD za agenticzną analizę w usłudze Azure AI Search, 60 centów za tokeny wejściowe w usłudze Azure OpenAI i 42 centy za tokeny wyjściowe w usłudze Azure OpenAI, co daje łącznie 1,02 USD na całkowity koszt planowania zapytań. Łączny koszt pełnego wykonania wynosi 4,32 USD.

Porady dotyczące kontrolowania kosztów

  • Przejrzyj dziennik aktywności w odpowiedzi, aby dowiedzieć się, jakie zapytania zostały wydane dla jakich źródeł i użytych parametrów. Możesz ponownie użyć tych zapytań względem indeksów i użyć publicznego tokenizatora do oszacowania tokenów i porównania z użyciem raportów interfejsu API. Dokładna rekonstrukcja zapytania lub odpowiedzi nie jest jednak gwarantowana. Czynniki obejmują typ źródła wiedzy, takie jak publiczne dane internetowe lub zdalne źródło wiedzy programu SharePoint, które jest oparte na tożsamości użytkownika, które może mieć wpływ na reprodukcję zapytań.

  • Zmniejsz liczbę źródeł wiedzy (indeksów); konsolidowanie zawartości może zmniejszyć fan-out oraz liczbę tokenów.

  • Zmniejsz nakład pracy z uzasadnieniem, aby zmniejszyć użycie usługi LLM podczas planowania zapytań i rozszerzania zapytań (wyszukiwanie iteracyjne).

  • Organizuj zawartość, aby można było znaleźć najbardziej istotne informacje z mniejszą liczbą źródeł i dokumentów (na przykład wyselekcjonowane podsumowania lub tabele).