Udostępnij przez


Azure Content Understanding in Foundry Tools - rozwiązania wideo (wersja zapoznawcza)

Ważne

Usługa Azure Content Understanding jest dostępna w wersji zapoznawczej. Publiczne wersje zapoznawcze zapewniają wczesny dostęp do funkcji, które są w aktywnym rozwoju. Funkcje, podejścia i procesy mogą ulec zmianie lub mieć ograniczone możliwości przed ogólną dostępnością. Aby uzyskać więcej informacji, zobacz Dodatkowe warunki użytkowania dla wersji zapoznawczych platformy Microsoft Azure.

Usługa Azure Content Understanding umożliwia generowanie standardowego zestawu metadanych wideo i tworzenie niestandardowych pól dla konkretnego przypadku użycia przy użyciu modeli generowania. Usługa Content Understanding ułatwia zarządzanie, kategoryzowanie, pobieranie i tworzenie przepływów pracy dla zasobów wideo. Rozszerza bibliotekę zasobów multimedialnych, obsługuje funkcje, takie jak generowanie podkreśleń, kategoryzowanie zawartości i ułatwia aplikacje, takie jak wspomagane odzyskiwaniem generowanie (RAG).

Ilustracja przepływu przetwarzania wideo Content Understanding.

Wstępnie utworzony analizator wideo (prebuilt-videoAnalysis) generuje dane wyjściowe gotowe do użycia w formacie RAG. W języku Markdown zwraca następujące dane wyjściowe:

  • Transkrypcja: Wbudowane transkrypcje w standardowym formacie WEBVTT
  • Klatki kluczowe: Uporządkowane miniatury klatek kluczowych umożliwiające dokładną analizę

Schemat JSON zawiera więcej szczegółów z analizy wizualnej.

  • Opis: Opisy segmentów języka naturalnego z kontekstem wizualizacji i mowy
  • Segmentacja: Automatyczna segmentacja sceny dzieląca wideo na fragmenty logiczne na podstawie zdefiniowanych kategorii

Ten format może być bezpośrednio zapisany do sklepu wektorowego, aby umożliwić pracę agenta lub przepływu pracy RAG — nie wymaga dalszego przetwarzania.

Z tego miejsca możesz dostosować analizator, aby uzyskać bardziej szczegółową kontrolę danych wyjściowych. Możesz zdefiniować pola niestandardowe i segmenty. Dostosowywanie umożliwia wykorzystanie pełnej mocy modeli generatywnych do wydobywania głębokich wglądów z detali wizualnych i dźwiękowych wideo.

Na przykład dostosowywanie umożliwia:

  • Definiowanie pól niestandardowych: aby określić, jakie produkty i marki są widoczne lub wymienione w filmie wideo.
  • Generowanie segmentów niestandardowych: aby podzielić emisję wiadomości na rozdziały na podstawie omówionych tematów lub wiadomości.
  • Zidentyfikuj znane osoby przy użyciu opisu twarzy: umożliwia klientowi etykietowanie celebrytów na nagraniu z nazwą i tytułem na podstawie wiedzy o świecie, jaką posiada model generatywny, na przykład Satya Nadella.

Dlaczego warto używać usługi Content Understanding dla wideo?

Wiedza na temat zawartości wideo ma szerokie możliwości użycia. Można na przykład dostosować metadane, aby oznaczyć określone sceny w filmie szkoleniowym, co ułatwia pracownikom znajdowanie i ponowne wyszukiwanie ważnych sekcji. Możesz również użyć dostosowywania metadanych, aby zidentyfikować umieszczanie produktów w filmach promocyjnych, co ułatwia zespołom marketingowym analizowanie ekspozycji marki. Inne przypadki użycia obejmują:

  • Emisja multimediów i rozrywki: Zarządzaj dużymi bibliotekami pokazów, filmów i klipów, generując szczegółowe metadane dla każdego zasobu.
  • Edukacja i nauka elektroniczna: Indeksowanie i pobieranie określonych momentów w filmach edukacyjnych lub wykładach.
  • Szkolenia firmowe: Organizuj filmy szkoleniowe według kluczowych tematów, scen lub ważnych momentów.
  • Marketing i reklama: Analizowanie filmów promocyjnych w celu wyodrębnienia umieszczania produktów, wyglądu marki i kluczowych komunikatów.

Przykład wstępnie utworzonego analizatora wideo

Za pomocą gotowego analizatora wideo (prebuilt-videoSearch) możesz przesłać film i natychmiast uzyskać przydatny zasób wiedzy. Usługa pakuje zawartość do sformatowanego formatu Markdown i JSON. Ten proces umożliwia indeksowi wyszukiwania lub agentowi czatu pozyskiwanie zawartości bez niestandardowego kodu kleju.

  1. Na przykład, wywołaj analizator zaprojektowany do generowania z rozszerzoną funkcją wyszukiwania dla wideo prebuilt-videoSearch. Aby uzyskać szczegółowe informacje, zobacz przewodnik Szybki start dotyczący interfejsu API REST .

  2. Następnie przeanalizowanie 30-sekundowego filmu reklamowego spowoduje wyświetlenie następujących danych wyjściowych:

      # Video: 00:00.000 => 00:06.000
      A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Get new years ready.
    
      Key Frames
      - 00:00.600 ![](keyFrame.600.jpg)
      - 00:01.200 ![](keyFrame.1200.jpg)
    
      ## Video: 00:06.000 => 00:10.080
      The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Go team!
    
      Key Frames
      - 00:06.200 ![](keyFrame.6200.jpg)
      - 00:07.080 ![](keyFrame.7080.jpg)
    
         *…additional data omitted for brevity…*
    

Walkthrough

Zapoznaj się z następującym przewodnikiem dla programu RAG na wideo przy użyciu usługi Content Understanding:

RAG on Video using Azure Content Understanding

Możliwości

Uwaga / Notatka

Funkcje identyfikacji twarzy i grupowania są dostępne tylko w wersji zapoznawczej interfejsu API i nie są uwzględnione w wersji ogólnodostępnej.

Pod maską dwa etapy przekształcają nieprzetworzone piksele w gotowe do wykorzystania w biznesie informacje. Na poniższym diagramie przedstawiono, w jaki sposób wyodrębnianie wspomaga generowanie, zapewniając każdemu kolejnemu etapowi wymagany kontekst.

Zrzut ekranu przedstawiający przepływ analizatora wideo.

Usługa działa na dwóch etapach. Pierwszy etap wyodrębniania zawartości obejmuje przechwytywanie podstawowych metadanych, takich jak transkrypcje i zdjęcia. Drugi etap wyodrębniania pól używa modelu generowania do tworzenia pól niestandardowych i wykonywania segmentacji.

Możliwości wyodrębniania zawartości

Pierwsze przeprowadzenie polega na wyodrębnieniu pierwszego zestawu szczegółów — kto mówi i gdzie są cięcia. Tworzy solidny kręgosłup metadanych, do którego późniejsze kroki mogą się odnosić.

  • Transkrypcja: Przekształca konwersacyjne nagrania audio w przeszukiwalne i analizowalne transkrypcje tekstowe w formacie WebVTT. Znaczniki czasu na poziomie zdania są dostępne, jeśli "returnDetails": true jest ustawione. Usługa Content Understanding obsługuje pełny zestaw języków zamiany mowy na tekst dostępnych w ramach pakietu Foundry Tools. Szczegóły obsługi języka wideo są takie same jak audio, zobaczObsługa języka audio , aby uzyskać szczegółowe informacje. Należy wziąć pod uwagę następujące szczegóły transkrypcji:

    • Diarization: Rozróżnia mówców w konwersacji, przypisując części transkrypcji określonym osobom.

    • Transkrypcja wielojęzyczna: Generuje wielojęzyczne transkrypcje. Ustawienia języka/regionu są stosowane dla każdej frazy w transkrypcji. Frazy wyjściowe, gdy ustawiono "returnDetails": true. Odstępstwo od wykrywania języka: ta funkcja jest włączona, gdy nie określono języka lub ustawień regionalnych, albo gdy język jest ustawiony na auto.

      Uwaga / Notatka

      Gdy jest używana transkrypcja wielojęzyczna, wszystkie pliki z nieobsługiwanymi ustawieniami regionalnymi generują wynik na podstawie najbliższych obsługiwanych ustawień regionalnych, co prawdopodobnie jest niepoprawne. Ten wynik jest znanym zachowaniem. Unikaj problemów z jakością transkrypcji, upewniając się, że konfigurujesz ustawienia regionalne, gdy nie korzystasz z ustawień regionalnych wspieranych przez transkrypcję wielojęzyczną!

    • Wyodrębnianie klatek kluczowych: Wyodrębnia kluczowe klatki z filmów wideo do reprezentowania każdego zdjęcia całkowicie, zapewniając, że każde zdjęcie ma wystarczającą liczbę klatek kluczowych, aby umożliwić efektywne wyodrębnianie pól.

    • Wykrywanie ujęć: Identyfikuje segmenty filmu wideo dopasowane do granic ujęć tam, gdzie to możliwe, co pozwala na precyzyjne edytowanie i ponowne opracowanie zawartości z podziałami zgodnymi z istniejącymi edycjami. Dane wyjściowe są listą sygnatur czasowych w milisekundach w pliku cameraShotTimesMs. Dane wyjściowe są zwracane tylko gdy "returnDetails": true jest ustawione.

Wyodrębnianie i segmentacja pól

Następnie model generatywny dodaje znaczenie—taguje sceny, podsumowuje akcje i dzieli materiał na segmenty według twoich wytycznych. Ta akcja pozwala na przekształcenie monitów w dane ustrukturyzowane.

Pola niestandardowe

Dopasuj wynik do swojego słownictwa biznesowego. Użyj obiektu, w fieldSchema którym każdy wpis definiuje nazwę, typ i opis pola. Podczas działania model generatywny wypełnia te pola dla każdego segmentu.

  • Zarządzanie zasobami multimedialnymi:

    • Kategoria wideo: Pomaga redaktorom i producentom organizować treści, klasyfikując ją jako News, Sports, Interview, Dokumentalny, Reklamy itp. Przydatne w przypadku tagowania metadanych i szybszego filtrowania i pobierania zawartości.
    • Schemat kolorów: Przekazuje nastrój i atmosferę, niezbędną dla spójności narracji i zaangażowania widzów. Identyfikowanie motywów kolorów ułatwia znajdowanie pasujących klipów do przyspieszonej edycji wideo.
  • Reklama:

    • Marka: Identyfikuje obecność marki, krytyczne dla analizowania wpływu reklamy, widoczności marki i skojarzenia z produktami. Ta funkcja umożliwia reklamodawcom ocenę znaczenia marki i zapewnienie zgodności z wytycznymi dotyczącymi znakowania.
    • Kategorie reklam: Kategoryzuje typy reklam według branży, typu produktu lub segmentu odbiorców, które obsługują ukierunkowane strategie reklamowe, kategoryzacja i analizę wydajności.

Przykład:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Pola opisu twarzy

Uwaga / Notatka

Ta funkcja ma ograniczony dostęp; klienci muszą poprosić o wyłączenie rozmycia twarzy dla modeli usługi Azure OpenAI z żądaniem pomocy technicznej platformy Azure. Dowiedz się więcej Na temat zarządzania wnioskiem o pomoc techniczną platformy Azure.

Możliwość wyodrębniania pól można opcjonalnie zwiększyć, aby udostępnić szczegółowe opisy twarzy w filmie wideo. Ta funkcja obejmuje atrybuty, takie jak zarost, wyraz twarzy i obecność osobistości, które mogą być kluczowe dla różnych celów analitycznych i indeksowania. Aby włączyć funkcje opisu twarzy, ustaw disableFaceBlurring : true w konfiguracji analizatora.

Przykłady:

  • Przykładowe pole: facialHairDescription: Opisuje typ zarostu (na przykład , beard, mustacheclean-shaven)
  • Przykładowe pole: nameOfProminentPerson: Udostępnia nazwę, jeśli jest to możliwe dla gwiazdy w filmie wideo (na przykład Satya Nadella)
  • Przykładowe pole: faceSmilingFrowning: Zawiera opis tego, czy osoba uśmiecha się, czy marszczy brwi

Tryb segmentacji

Uwaga / Notatka

Segmentacja ustawień będzie używać modelu generowania, zużywając tokeny nawet wtedy, gdy żadne pola nie są zdefiniowane.

Usługa Content Understanding oferuje dwa sposoby fragmentowania klipu wideo, co pozwala uzyskać potrzebne dane wyjściowe dla całych klipów wideo lub krótkich klipów. Możesz użyć tych opcji, ustawiając właściwość enableSegment na analizatorze niestandardowym.

  • Cały film wideoenableSegment : false usługa traktuje cały plik wideo jako pojedynczy segment i wyodrębnia metadane w całym czasie trwania.

    Przypadki użycia:

    • Sprawdzanie zgodności, które wyszukują konkretne problemy z bezpieczeństwem marki w dowolnym miejscu w reklamie
    • pełne podsumowania opisowe
  • Segmentacja niestandardowaenableSegment : true opisujesz logikę w języku naturalnym, a model tworzy segmenty, aby je dopasować. Ustaw contentCategories za pomocą ciągu opisującego sposób segmentowania wideo. Niestandardowe pozwala na segmenty o różnej długości, od sekund do minut, w zależności od wezwania. W tej wersji wideo obsługuje tylko jeden contentCategories obiekt.

    Przykład: Podziel wiadomości na poszczególne historie.

    {
      "config": {
        "enableSegment": true,
        "contentCategories": {
          "news-story": { 
          "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
          "analyzerId": "NewsAnalyzer"
          }         
        }
      }
    }
    

Główne korzyści

Usługa Content Understanding zapewnia kilka kluczowych korzyści w porównaniu z innymi rozwiązaniami do analizy wideo:

  • Analiza wieloramowa oparta na segmentach: Identyfikowanie akcji, zdarzeń, tematów i motywów przez analizowanie wielu ramek z poszczególnych segmentów wideo, a nie pojedynczych ramek.
  • Dostosowywania: Dostosuj pola i segmentację wygenerowaną przez zmodyfikowanie schematu zgodnie z konkretnym przypadkiem użycia.
  • Modele generowania: Opisz w języku naturalnym zawartość, którą chcesz wyodrębnić, a usługa Content Understanding używa modeli generowania do wyodrębniania tych metadanych.
  • Zoptymalizowane przetwarzanie wstępne: Wykonaj kilka kroków przetwarzania wstępnego wyodrębniania zawartości, takich jak transkrypcja i wykrywanie scen, zoptymalizowane pod kątem zapewnienia zaawansowanego kontekstu dla modeli generowania sztucznej inteligencji.

Ograniczenia i ograniczenia techniczne

Należy pamiętać o konkretnych ograniczeniach przetwarzania wideo:

  • Próbkowanie ramek (~ 1 FPS): Analizator sprawdza około jednej ramki na sekundę. Szybkie ruchy lub zdarzenia z jedną ramką mogą zostać pominięte.
  • Rozdzielczość ramki (512 × 512 pikseli): Rozmiar ramek próbkowanych jest zmieniany na 512 pikseli kwadratowych. Można utracić mały tekst lub odległe obiekty.
  • Mowa: transkrybowane są tylko słowa mówione. Muzyka, efekty dźwiękowe i hałas otoczenia są ignorowane.

Wymagania dotyczące danych wejściowych

Aby zobaczyć obsługiwane formaty, zobacz Przydziały i limity usług.

Obsługiwane języki i regiony

Zobacz Obsługa języków i regionów.

Prywatność i zabezpieczenia danych

Podobnie jak we wszystkich narzędziach Foundry, zapoznaj się z dokumentacją dotyczącą danych, ochrony i prywatności firmy Microsoft.

Ważne

Jeśli przetwarzasz dane biometryczne (na przykład włącz opis twarzy), musisz spełnić wszystkie wymagania dotyczące powiadomień, zgody i usuwania zgodnie z RODO lub innymi obowiązującymi przepisami. Zobacz Dane i prywatność na potrzeby rozpoznawania twarzy.