Cennik usługi Azure Content Understanding w narzędziach Foundry

W tym artykule wyjaśniono model cen usługi Azure Content Understanding w narzędziu Foundry Tools z przejrzystymi przykładami i podziałami kosztów. Dowiedz się, za co są naliczane opłaty i jak oszacować koszty obciążenia.

Aby uzyskać szczegółowe stawki cenowe, zobacz Cennik usługi Azure Content Understanding.

Omówienie dwóch typów opłat

Cennik usługi Azure Content Understanding jest oparty na dwóch głównych kategoriach użycia:

1. Opłaty za wyodrębnianie zawartości

Wyodrębnianie zawartości przekształca dane wejściowe bez struktury (dokumenty, dźwięk, wideo) na ustrukturyzowany, wyszukiwany tekst i zawartość. Te dane wyjściowe obejmują optyczne rozpoznawanie znaków (OCR) dla dokumentów, zamiany mowy na tekst na potrzeby audio/wideo i wykrywania układu. Płacisz za jednostkę wejściową przetworzoną:

Dokumenty: na 1000 stron
Dźwięk i wideo: na minutę

2. Opłaty za funkcje generowania

W przypadku używania funkcji opartych na sztucznej inteligencji, które wykorzystują duże modele językowe (LLM), naliczane są dwa typy opłat.

Opłaty za kontekstualizację: przygotowuje kontekst, generuje miary zaufania, połączenia ze źródłem, oraz formatowanie danych wyjściowych. Aby uzyskać szczegółowe informacje, zobacz Tokeny kontekstowe.
Opłaty za model generowania: koszty oparte na tokenach z wdrożeń modeli rozwiązania Microsoft Foundry (LLMs for generation, embeddings for training examples). Usługa Content Understanding wykorzystuje zastosowanie modelu Foundry dla wszystkich wywołań związanych z generatywną sztuczną inteligencją. W usłudze Content Understanding nie będzie widoczny żaden moduł LLM ani osadzanie rozliczeń użycia tokenu — użycie jest wyświetlane we wdrożeniu modelu Foundry. Aby uzyskać szczegółowe informacje, zobacz Opłaty za model generatywny.

Funkcje generowania obejmują: wyodrębnianie pól, analiza danych, segmentacja, kategoryzacja, trenowanie.

Równanie kosztów

Łączny koszt uruchomienia analizatora „Content Understanding” określa się według następującego wzoru:

Total Cost = Content Extraction + Contextualization Tokens + LLM Input Tokens + LLM Output Tokens + Embeddings Tokens

Jeśli używasz wyodrębniania zawartości tylko bez możliwości generowania, opłaty są naliczane tylko za wyodrębnianie zawartości. W przypadku korzystania z funkcji generowania obowiązują wszystkie odpowiednie opłaty.

Jak oszacować koszty

1. Testowanie z reprezentatywnymi plikami

Przeprowadź małą analizę testową z rzeczywistymi plikami i schematem. usage Sprawdź obiekt w odpowiedzi interfejsu API Analizatory, aby zobaczyć rzeczywiste użycie tokenu:

  "usage": {
    "documentPagesMinimal": 0, // Pages processed at the minimal level (i.e. txt, xlsx, html, and other digital file types)
    "documentPagesBasic": 0, // Pages processed at the basic level (i.e. read)
    "documentPagesStandard": 2, // Pages processed at the standard level (i.e. layout)
   
    "contextualizationToken": 2000,
    "tokens": {
      "gpt-4.1-input": 10400,
      "gpt-4.1-output": 360,
    }
  }

2. Korzystanie z kalkulatora cen platformy Azure

Znajdź informacje o zawartości w kalkulatorze cen platformy Azure i skonfiguruj ustawienia:

Dodawanie aplikacji "Content Understanding" do kalkulatora
Użyj wyników testu z kroku 1, aby obliczyć średnią liczbę tokenów na stronę lub na minutę
Wprowadź liczbę tokenów wraz z regionem, typem pliku, oczekiwanym woluminem i wdrożeniem modelu

Kalkulator zapewnia dokładne prognozy kosztów dla Twojego obciążenia roboczego.

Przykład ustalania ceny: wyodrębnianie pól faktury

Po podejściu do szacowania omówimy konkretny przykład ręcznie, aby zademonstrować sposób obliczania kosztów. Przetwarzasz faktury, aby wyodrębnić dane ustrukturyzowane, takie jak nazwa dostawcy, numer faktury, łączna kwota i elementy wiersza.

Scenariusz: chcesz przetworzyć 1000 stron faktur przy użyciu GPT-4o-mini z wyłączonymi opcjami osadzenia źródła i wyników pewności.

Krok 1. Testowanie przy użyciu plików reprezentatywnych Po przetestowaniu plików reprezentatywnych znaleziono następujące średnie użycie tokenu na stronę:

Tokeny wejściowe: 1100 na stronę
Tokeny wyjściowe: 60 na stronę
Kontekstualizacja: 1 000 tokenów na stronę (stała stawka)

W przypadku 1000 stron suma jest równa:

Łączna liczba tokenów wejściowych: 1000 stron × 1100 = 1100 000 tokenów
Łączna liczba tokenów wyjściowych: 1000 stron × 60 = 60 000 tokenów
Łączna liczba tokenów kontekstowych: 1000 stron × 1000 = 1000 000 tokenów

Krok 2. Ręczne obliczanie kosztów (zamiast korzystania z kalkulatora cen) Korzystanie z wdrożenia globalnego GPT-4o-mini z następującymi założeniami cenowymi:

Założenia dotyczące cen :

Wyodrębnianie zawartości: 5,00 USD za 1000 stron
Kontekstualizacja: 1,00 USD za 1 milion tokenów
Tokeny wejściowe GPT-4o-mini: 0,40 USD za 1 mln tokenów
Tokeny wyjściowe GPT-4o-mini: 1,60 USD za 1 mln tokenów
Wbudowania: 0,02 USD za 1000 tokenów. Nie używasz bazy wiedzy z przykładami szkoleniowymi, więc nie mają zastosowania opłaty za osadzanie. Jeśli dodano oznaczone przykłady w celu zwiększenia dokładności, system doda użycie tokenów osadzania do osadzenia pełnego tekstu z dokumentów wejściowych, a także tokenów uzupełniających do przetwarzania przykładowych danych dodanych do kontekstowego okna.

Obliczanie kosztów:

Wyodrębnianie zawartości: 1000 stron × $5.00 na 1000 stron = $5.000
Kontekstualizacja: 1 000 000 tokenów × 1,00 USD za 1 000 000 tokenów = 1,00 USD
Tokeny wejściowe: 1100 000 tokenów × 0,40 USD za 1 mln tokenów = 0,44 USD
Tokeny wyjściowe: 60 000 tokenów × 1,60 USD za 1 mln tokenów = 0,10 USD
Osadzanie: nieużywane = $0.00

Total Cost = $5.00 + $1.00 + $0.44 + $0.10 + $0.00 = $6.54 per 1000 pages

Uwaga / Notatka

Ceny te są przeznaczone tylko do celów ilustracyjnych i nie są przeznaczone do reprezentowania rzeczywistego kosztu. Sprawdź cennik usługi Azure Content Understanding i cennik usługi Azure OpenAI pod kątem bieżących stawek

Szczegółowe składniki kosztów

Wyodrębnianie zawartości

Wyodrębnianie zawartości jest pierwszym krokiem przekształcania danych wejściowych bez struktury — niezależnie od tego, czy jest to dokument, dźwięk czy wideo — w standardowym formacie wielokrotnego użytku. To podstawowe przetwarzanie jest wymagane dla wszystkich funkcji generowania i może być używane autonomicznie.

Ceny wyodrębniania zawartości według modalności:

Dokumenty: trzystopniowe metry (minimalny, podstawowy lub standardowy) na podstawie złożoności przetwarzania
Dźwięk: Transkrypcja konwersji mowy na tekst (standardowa jednostka miary, rozliczenie za minutę)
Wideo: wyodrębnianie ramek, detekcja ujęć i transkrypcja mowy na tekst (pojedynczy standardowy licznik, cena za minutę)
Obrazy: Brak opłat za wyodrębnianie zawartości

Mierniki wyodrębniania zawartości dokumentu

W przypadku dokumentów są naliczane opłaty za typ przetwarzania wykonywanego przez usługę Content Understanding:

Miernik podstawowy: ma zastosowanie, gdy usługa Content Understanding wykonuje przetwarzanie OCR w celu wyodrębniania tekstu z dokumentów opartych na obrazach (zeskanowanych plików PDF, obrazów, plików TIFF).

Miernik standardowy: ma zastosowanie, gdy usługa Content Understanding przeprowadza analizę układu, w tym rozpoznawanie tabel i wykrywanie elementów strukturalnych z dokumentów opartych na obrazach (zeskanowanych plików PDF, obrazów, plików TIFF).

Minimalny miernik: dotyczy dokumentów cyfrowych (DOCX, XLSX, HTML, TXT), w których nie jest wymagane przetwarzanie OCR ani układu. Opłaty są naliczane za minimalną stawkę niezależnie od tego, którego analizatora używasz — nawet jeśli wywołasz analizator układu w dokumencie cyfrowym, opłaty są naliczane tylko za minimalne przetwarzanie.

W poniższej tabeli przedstawiono, który miernik ma zastosowanie na podstawie typu pliku i poziomu analizy:

Typ pliku	Odczyt (podstawowy)	Układ (standardowy)
Oparte na obrazach (PDF, PNG, TIFF, JPG itp.)	Miernik podstawowy	Miernik standardowy
Formaty cyfrowe (DOCX, XLSX, HTML, TXT itp.)	Minimalny miernik	Minimalny miernik

Wskazówka

Opłata za miernik zależy od rzeczywistego wykonania przetwarzania usługi Content Understanding, a nie od wybranego analizatora. Dokumenty cyfrowe zawsze używają minimalnego formatu, ponieważ nie wymagają przetwarzania OCR ani przetwarzania układu stron.

Możliwości generowania

Generatywne możliwości Content Understanding wykorzystują generatywne modele AI, aby poprawić jakość wyników. W najnowszej wersji interfejsu API [2025-11-01], można wybrać model generowania na podstawie przypadku użycia (np. GPT-4o lub GPT-4o-mini).

W przypadku korzystania z dowolnych funkcji generatywnych, usługa Content Understanding będzie używać wdrożenia modeli Foundry, które podasz. Zastosowanie tokenów dla modeli uzupełniania lub modeli osadzeń będzie w ramach tego wdrożenia.

Tokeny kontekstowe

Kontekstualizacja jest warstwą przetwarzania w usłudze Content Understanding, która przygotowuje kontekst dla modeli generatywnych i przetwarza ich wyniki do końcowych, ustrukturyzowanych rezultatów.

Jaka kontekstyzacja zapewnia:

Normalizacja i formatowanie danych wyjściowych w schematach strukturalnych
Uziemienie źródła informacji w celu ukazania, skąd pochodzą informacje
Obliczanie wskaźnika ufności na potrzeby niezawodności wyodrębniania
Inżynieria kontekstu w celu optymalizacji użycia i dokładności usługi LLM

Kiedy są naliczane opłaty: Za każdym razem, gdy używasz zdolności generatywnych (wyodrębnianie pól, analiza danych, segmentacja, kategoryzacja, trenowanie).

Cennik: stała stawka na jednostkę zawartości

Tokeny kontekstowe są obliczane na jednostkę zawartości:

Units	Tokeny kontekstowe	Efektywna cena standardowa za jednostkę
1 strona	1000 tokenów kontekstowych	$1 na 1000 stron
1 Obraz	1000 tokenów kontekstowych	1 USD za 1000 obrazów
1 godzina dźwięku	100 000 tokenów kontekstowych	0,10 USD na godzinę
1 godzina wideo	1000 000 tokenów kontekstowych	$1 na godzinę

Przy założeniu kosztu 1 dolara za 1 milion tokenów kontekstowych.

Koszty modelu generującego (LLM)

Opłaty oparte na tokenach z modeli Foundry, które zasilają rzeczywiste wyodrębnianie, analizę i generatywne możliwości.

Tokeny wejściowe obejmują:

Wyodrębniony tekst i transkrypcje
Tokeny obrazów (na potrzeby analizy wizualnej)
Definicje schematu
Komunikaty systemowe
Przykłady szkoleń (w przypadku korzystania z bazy wiedzy)

Tokeny wyjściowe obejmują:

Wartości pól i dane ustrukturyzowane
Współczynniki ufności i uziemienia źródła
Wyniki i opisy analizy

Optymalizacja kosztów: wybierz mniejsze modele (GPT-4o-mini) lub wdrożenia globalne, aby uzyskać znaczne oszczędności.

Opłaty za osadzanie

Opłaty oparte na tokenach na potrzeby osadzania modeli używanych podczas trenowania analizatorów niestandardowych z oznaczonymi przykładami w celu zwiększenia dokładności.

Gdy jest naliczana opłata: tylko w przypadku korzystania z funkcji trenowania z danymi oznaczonymi etykietami
Modele: osadzanie tekstu-3-duże, osadzanie tekstu-3-małe lub osadzanie tekstu-ada-002
Typowe użycie: cały dokument jest osadzony. Użycie może się różnić w zależności od gęstości tekstu, ale ok. 1500 tokenów na stronę to dobre wstępne oszacowanie.

Szczegóły funkcji generatywnych

Istnieje kilka cech generujących, z których każda ma nieco inne konsekwencje związane z kosztami.

Wyodrębnianie pól

Generuje pary ustrukturyzowane klucz-wartość na podstawie definicji schematu. Przykłady obejmują nadawcę/odbiorcę faktury, elementy wiersza lub elementy reklamy wideo, takie jak tagline i wygląd produktu.

Wpływ na koszty: opłaty są skalowane ze złożonością schematu i rozmiarem zawartości.

Analiza rysunku

Tworzy tekst opisowy dla obrazów, wykresów i diagramów, aby umożliwić wyszukiwanie zawartości wizualnej w przepływach pracy RAG.

Wpływ na koszty: tokeny LLM na obraz przeanalizowany — zarówno tokeny wejściowe na potrzeby interpretacji obrazu, jak i tokeny wyjściowe dla opisów. Użycie jest skalowane z rozmiarem i liczbą obrazów zawartych w dokumencie.

Segmentacja

Dzieli dokumenty lub filmy wideo na sekcje logiczne na potrzeby ukierunkowanego przetwarzania i lepszej wydajności.

Wpływ na koszty: koszty tokenów wyjściowych dla każdego utworzonego segmentu. Opcjonalnie można łączyć analizatory w celu dalszej analizy poszczególnych segmentów. Podczas łączenia generujesz większą ilość operacji wyodrębniania treści i użycia generatywnego, co jest równoważne uruchamianiu analizatorów łańcuchowych niezależnie.

Kategoryzacja

Przypisuje etykiety do dokumentów lub segmentów na potrzeby klasyfikacji i inteligentnego routingu do wyspecjalizowanych analizatorów.

Wpływ na koszty: LLM i koszty kontekstowe klasyfikacji. Przekierowanie do innych analizatorów dodaje ich opłaty.

Training

Tworzy analizatory niestandardowe przy użyciu przykładów oznaczonych etykietami w celu ulepszenia dokładności specyficznej dla domeny.

Wpływ na koszty: Wykorzystanie tokenów przy dodawaniu oznaczonych danych oraz zwiększona liczba tokenów LLM podczas analizy, gdy przykłady treningowe są pobierane i dostarczane do modelu.

Baza wiedzy

Rozszerza niestandardowe analizatory o oznaczone przykładami szkoleniowymi, aby poprawić dokładność specyficzną dla domeny.

Wpływ na koszty: model osadzania służy do indeksowania i pobierania przykładów. Ponadto tokeny LLM są używane podczas analizy, gdy przykłady trenowania są pobierane i dostarczane do modelu.

Najczęściej zadawane pytania

Kiedy są naliczane opłaty za użycie usługi LLM?

Opłaty są naliczane za tokeny LLM tylko wtedy, gdy udostępniasz analizatorowi wdrożenie rozwiązania Foundry i używasz funkcji generowania w usłudze Content Understanding. Analizatory, które wykonują wyodrębnianie zawartości (np. prebuilt-read, prebuilt-layoutlub analizatory niestandardowe bez żadnych możliwości generowania) nie powodują naliczania opłat za usługę LLM.

Czy opłaty są naliczane dwukrotnie za użycie modelu Foundry?

Nie. Usługa Content Understanding używa wdrożeń LLM połączonych dla wszystkich wywołań LLM i osadzania. Opłaty są naliczane za te wdrożenia. Płacisz za usługę Content Understanding za wyodrębnianie i kontekstualizację zawartości oraz za Foundry za tokeny modelu generowania (tokeny wejściowe/wyjściowe i osadzanie).

Ile mogę zaoszczędzić dzięki mniejszym modelom?

Wybranie opcji GPT-4o-mini zamiast GPT-4o może zmniejszyć koszty LLM o maksymalnie 80%. Wdrożenia globalne zapewniają kolejne 9% oszczędności. Opłaty za wyodrębnianie zawartości i kontekstualizację pozostają takie same niezależnie od wyboru modelu.

Co zwiększa użycie tokenów?

Kilka funkcji mnoży użycie tokenu:

Uziemienie źródła i oceny zaufania: ~2x użycie tokenów
Tryb wyodrębniania: użycie tokenu ok. 1,5 x
Przykłady trenowania: użycie tokenu ok. 2x
Segmentacja/kategoryzacja: ~2x użycie tokenu

Czy opłaty są naliczane, jeśli moje żądanie zakończy się niepowodzeniem?

Usługa Content Understanding nie pobiera opłat za wyodrębnianie zawartości ani kontekstowość, gdy żądanie kończy się niepowodzeniem z powodu błędu (na przykład błędu 400). Jeśli jednak wywołanie modelu uzupełnienia Foundry zakończyło się pomyślnie w ramach tego żądania przed wystąpieniem błędu, zostanie naliczona opłata za użycie modelu Foundry na podstawie zasad rozliczeniowych Foundry.

Wskazówki dotyczące optymalizacji kosztów

Zacznij od mini modeli — GPT-4o-mini oferuje znaczne oszczędności dla większości zadań wyodrębniania
Używaj wdrożeń globalnych, gdy lokalizacja danych i zgodność z przepisami na to pozwalają.
Selektywne włączanie zaawansowanych funkcji — w razie potrzeby używaj odwołań do źródeł i ocen zaufania
Przetestuj pliki reprezentatywne przed skalowaniem, aby zrozumieć rzeczywiste użycie tokenu
Regularne monitorowanie użycia za pośrednictwem witryny Azure Portal w celu identyfikowania szans optymalizacji

Więcej przykładów cen

Poniżej przedstawiono szczegółowe przykłady pokazujące sposób działania cen w różnych scenariuszach:

Przykład 1. Przetwarzanie dokumentów dla przepływów pracy RAG

Scenariusz: musisz wyodrębnić zawartość z dokumentów dla rozwiązania Retrieval-Augmented Generation (RAG). prebuilt-documentSearch jest używane do wyodrębniania tekstu, układu i opisów rysunków.

Dane wejściowe:

1000 stron
Model: globalne wdrożenie GPT-4.1
Region: Wschodnie stany USA

Podział cen:

Wyodrębnianie zawartości: 1000 stron
- Koszt: (1000 / 1000) × $5.00 = $5.00
Analiza rysunku:

Przy założeniu, że dwie liczby na stronę. Kosztuje około 1000 tokenów wejściowych i 200 tokenów wyjściowych na rysunek.
- Tokeny wejściowe: 2000 liczb × 1000 tokenów/obrazu = 2000 000 tokenów
- Koszt: (2 000 000 / 1 000 000) × $ 2.00 = $4.00
- Tokeny wyjściowe: 2000 stron × 200 tokenów/strony = 400 000 tokenów
- Koszt: (400 000 / 1000 000) × $8.00 = $3.2
Kontekstualizacja: 1 000 stron × 1 000 tokenów/strona = 1 000 000 tokenów
- Koszt: (1000 000 / 1 000 000) × $ 1.00 = $1.00

Łączny szacowany koszt: $5.00 + $4 + $3.2 + $1.00 = $13.20

Uwaga / Notatka

Przykład 2. Przetwarzanie faktur za pomocą wyodrębniania pól

Scenariusz: Automatyzujesz przetwarzanie faktur przy użyciu funkcji prebuilt-invoice wyodrębniania danych ustrukturyzowanych (numer faktury, data, dostawca, suma, elementy wiersza).

Dane wejściowe:

1000 stron
Model: wdrożenie globalne GPT-4.1-mini (zoptymalizowane pod kątem kosztów)
Funkcje: tryb wyodrębniania + szacowanie źródła i oceny ufności
Region: Wschodnie stany USA

Podział cen:

Wyodrębnianie zawartości: 1000 stron
- Koszt: (1000 / 1000) × $5.00 = $5.00
Wyodrębnianie pól: przy włączonym szacowaniu źródła i pewności, użycie tokenów będzie około 2 razy większe na stronę:
- Podstawowe tokeny wejściowe: 1000 stron × 5200 tokenów/strony = 5200 000 tokenów
- Koszt: (5200 000 / 1 000 000) × $0.40 = $2.08
- Podstawowe tokeny wyjściowe: 1000 stron × 180 tokenów/strony = 180 000 tokenów
- Koszt: (180 000 / 1000 000) × $1.60 = $0.29
Kontekstualizacja: 1 000 stron × 1 000 tokenów/strona = 1 000 000 tokenów
- Koszt: (1000 000 / 1 000 000) × $ 1.00 = $1.00

Łączny szacowany koszt: $5.00 + $2.08 + $0.29 + $1.00 = $8.37

Uwaga / Notatka

Użycie standardowego globalnego wdrożenia GPT-4.1 zamiast mini zwiększyłoby koszt wyodrębniania pól około pięciokrotnie, podnosząc całkowity koszt do około $33.

Uwaga / Notatka

Przykład 3. Analizowanie zawartości wideo przy użyciu wyodrębniania pól na poziomie segmentu

Scenariusz: wyodrębniasz ustrukturyzowaną reprezentację zawartości wideo dla aplikacji RAG. Aby wyodrębnić dane ustrukturyzowane na segment wideo, możesz użyć elementu prebuilt-videoSearch. Segmenty to krótkie klipy średnio 15–30 sekund, co skutkuje wieloma segmentami danych wyjściowych z pojedynczym polem podsumowania na segment.

Dane wejściowe:

60 minut (1 godzina) wideo
Model: globalne wdrożenie GPT-4.1
Region: Wschodnie stany USA

Założenia:

Tokeny wejściowe: 7500 tokenów na minutę (na podstawie próbek ramek, transkrypcji, zapytań schematu i metapromptów)
Tokeny wyjściowe: 900 tokenów na minutę (przy założeniu 10–20 krótkich pól strukturalnych na segment z autosegmentacją)
Kontekstualizacja: 1 000 000 tokenów na godzinę wideo

Podział cen:

Wyodrębnianie zawartości: 60 minut
- Koszt: 60 minut × $1/hour = $1.00
Wyodrębnianie pól:
- Tokeny wejściowe: 60 minut × 7500 tokenów/minuty = 450 000 tokenów
- Koszt: (450 000 / 1000 000) × $2.00 = $0.90
- Tokeny wyjściowe: 60 minut × 900 tokenów na minutę = 54 000 tokenów
- Koszt: (54 000 / 1000 000) × $8.00 = $0.43
Kontekstualizacja: 1 000 000 tokenów na godzinę
- Koszt: (1000 000 / 1 000 000) × $ 1.00 = $1.00

Łączny szacowany koszt: $1.00 + $0.90 + $0.43 + $1.00 = $3.33

Uwaga / Notatka

Koszt rzeczywisty różni się w zależności od specyfiki danych wejściowych i wyjściowych. Ten przejrzysty, oparty na użyciu model rozliczeń gwarantuje, że płacisz tylko za używane elementy.

Uwaga / Notatka

Przykład 4: Przetwarzanie nagrań w centrum obsługi telefonicznej

Scenariusz: analizujesz nagrania w centrum obsługi telefonicznej przy użyciu funkcji prebuilt-callCenter generowania transkrypcji, diaryzacji osoby mówiącej, analizy tonacji i podsumowań.

Dane wejściowe:

60 minut dźwięku
Model: wdrożenie globalne GPT-4.1-mini
Region: Wschodnie stany USA

Podział cen:

Wyodrębnianie zawartości: 60 minut
- Koszt: 60 minut × $0.36/minute = $0.36
Wyodrębnianie pól:
- Tokeny wejściowe: 60 minut × 604 tokeny/minutę = 36 240 tokenów
- Koszt: (36 240 / 1000 000) × $0.40 = $0.01
- Tokeny wyjściowe: 60 minut × 19 tokenów/minut = 1140 tokenów
- Koszt: (1140 / 1000 000) × $1.60 = $0.00
Kontekstualizacja: 60 minut × 1 667 tokenów/minutę = 100 020 tokenów
- Koszt: (100 020 / 1000 000) × $1.00 = $0.10

Łączny szacowany koszt: $0.36 + $0.01 + $0.00 + $0.10 = $0.47

Uwaga / Notatka

Przykład 5. Przetwarzanie obrazów z podpisami

Scenariusz: Generujesz opisowe napisy dla obrazów produktów przy użyciu polecenia prebuilt-imageSearch.

Dane wejściowe:

1000 obrazów
Model: globalne wdrożenie GPT-4.1
Region: Wschodnie stany USA

Podział cen:

Wyodrębnianie zawartości: brak opłat za obrazy
- Koszt: $0.00
Wyodrębnianie pól:
- Tokeny wejściowe: 1000 obrazów × 1043 tokenów/obrazu = 1043 000 tokenów
- Koszt: (1043 000 / 1 000 000) × $ 2.00 = $2.09
- Tokeny wyjściowe: 1000 obrazów × 170 tokenów/obrazu = 170 000 tokenów
- Koszt: (170 000 / 1000 000) × $8.00 = $1.36
Kontekstualizacja: 1000 obrazów × 1000 tokenów/obrazu = 1 000 000 tokenów
- Koszt: (1000 000 / 1 000 000) × $ 1.00 = $1.00

Łączny szacowany koszt: $0.00 + $2.09 + $1.36 + $1.00 = $4.45

Uwaga / Notatka

Dalsze kroki

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-11-18

Udostępnij przez

Cennik usługi Azure Content Understanding w narzędziach Foundry

Omówienie dwóch typów opłat

1. Opłaty za wyodrębnianie zawartości

2. Opłaty za funkcje generowania

Równanie kosztów

Jak oszacować koszty

1. Testowanie z reprezentatywnymi plikami

2. Korzystanie z kalkulatora cen platformy Azure

Przykład ustalania ceny: wyodrębnianie pól faktury

Szczegółowe składniki kosztów

Wyodrębnianie zawartości

Mierniki wyodrębniania zawartości dokumentu

Możliwości generowania

Tokeny kontekstowe

Koszty modelu generującego (LLM)

Opłaty za osadzanie

Szczegóły funkcji generatywnych

Wyodrębnianie pól

Analiza rysunku

Segmentacja

Kategoryzacja

Training

Baza wiedzy

Najczęściej zadawane pytania

Kiedy są naliczane opłaty za użycie usługi LLM?

Czy opłaty są naliczane dwukrotnie za użycie modelu Foundry?

Ile mogę zaoszczędzić dzięki mniejszym modelom?

Co zwiększa użycie tokenów?

Czy opłaty są naliczane, jeśli moje żądanie zakończy się niepowodzeniem?

Wskazówki dotyczące optymalizacji kosztów

Więcej przykładów cen

Przykład 1. Przetwarzanie dokumentów dla przepływów pracy RAG

Przykład 2. Przetwarzanie faktur za pomocą wyodrębniania pól

Przykład 3. Analizowanie zawartości wideo przy użyciu wyodrębniania pól na poziomie segmentu

Przykład 4: Przetwarzanie nagrań w centrum obsługi telefonicznej

Przykład 5. Przetwarzanie obrazów z podpisami

Dalsze kroki

Sprzężenie zwrotne

Dodatkowe źródła