Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Osadzanie wielomodalne to proces generowania wektorowej reprezentacji obrazu, która przechwytuje jego cechy i właściwości. Te wektory kodują zawartość i kontekst obrazu w sposób zgodny z wyszukiwaniem tekstu w tej samej przestrzeni wektorowej.
Systemy pobierania obrazów tradycyjnie używały funkcji wyodrębnionych z obrazów, takich jak etykiety zawartości, tagi i deskryptory obrazów, w celu porównania obrazów i sklasyfikowania ich według podobieństwa. Jednak wyszukiwanie podobieństwa wektorów oferuje wiele korzyści z tradycyjnego wyszukiwania opartego na słowach kluczowych i staje się istotnym składnikiem popularnych usług wyszukiwania zawartości.
Różnice między wyszukiwaniem wektorów a wyszukiwaniem słów kluczowych
Wyszukiwanie słów kluczowych to najbardziej podstawowa i tradycyjna metoda pobierania informacji. W tym podejściu wyszukiwarka szuka dokładnego dopasowania słów kluczowych lub fraz wprowadzonych przez użytkownika w zapytaniu wyszukiwania i porównuje je z etykietami i tagami podanymi dla obrazów. Następnie wyszukiwarka zwraca obrazy zawierające te dokładne słowa kluczowe jako tagi zawartości i etykiety obrazów. Wyszukiwanie słów kluczowych w dużym stopniu zależy od możliwości używania odpowiednich i określonych terminów wyszukiwania przez użytkownika.
Wyszukiwanie wektorowe wyszukuje duże kolekcje wektorów w przestrzeni wielowymiarowej, aby znaleźć wektory podobne do danego zapytania. Wyszukiwanie wektorowe wyszukuje podobieństwa semantyczne, przechwytując kontekst i znaczenie zapytania wyszukiwania. Takie podejście jest często bardziej wydajne niż tradycyjne techniki pobierania obrazów, ponieważ może zmniejszyć przestrzeń wyszukiwania i poprawić dokładność wyników.
Aplikacje biznesowe
Osadzanie wielomodalne ma wiele aplikacji w różnych polach, w tym:
- Zarządzanie zasobami cyfrowymi: osadzanie wielomodalne może służyć do zarządzania dużymi kolekcjami obrazów cyfrowych, takich jak muzea, archiwa lub galerie online. Użytkownicy mogą wyszukiwać obrazy na podstawie funkcji wizualnych i pobierać obrazy zgodne z ich kryteriami.
- Zabezpieczenia i nadzór: wektoryzacja może być używana w systemach zabezpieczeń i nadzoru do wyszukiwania obrazów na podstawie określonych funkcji lub wzorców, takich jak w, śledzenie osób i obiektów lub wykrywanie zagrożeń.
- Pobieranie obrazów kryminalistycznych: wektoryzacja może służyć do wyszukiwania obrazów na podstawie ich zawartości wizualnej lub metadanych, takich jak w przypadku cyber-przestępczości.
- Handel elektroniczny: Wektoryzacja może być używana w aplikacjach zakupów online do wyszukiwania podobnych produktów na podstawie ich funkcji lub opisów lub dostarczania rekomendacji na podstawie poprzednich zakupów.
- Moda i projektowanie: Wektoryzacja może być używana w modzie i projektowaniu do wyszukiwania obrazów na podstawie ich cech wizualnych, takich jak kolor, wzorzec lub tekstura. Może to pomóc projektantom lub sprzedawcom detalicznym zidentyfikować podobne produkty lub trendy.
Uwaga
Osadzanie wielomodalne nie jest przeznaczone do analizowania obrazów medycznych pod kątem funkcji diagnostycznych lub wzorców chorób. Nie używaj osadzania wielomodalnego do celów medycznych.
Co to są osadzanie wektorów?
Osadzanie wektorów to sposób reprezentowania zawartości — tekstu lub obrazów — jako wektorów liczb rzeczywistych w przestrzeni wielowymiarowej. Wektory osadzeniowe są często uczone na podstawie dużych zbiorów danych tekstowych i wizualnych przy użyciu algorytmów uczenia maszynowego, takich jak sieci neuronowe.
Każdy wymiar wektora odpowiada innej funkcji lub atrybutu zawartości, takiej jak znaczenie semantyczne, rola składniowa lub kontekst, w którym często się pojawia. W narzędziu Foundry Tools w usłudze Azure Vision osadzanie wektorów obrazów i tekstu ma wymiary 1024.
Ważne
Osadzanie wektorów można porównać i dopasować tylko wtedy, gdy pochodzą one z tego samego typu modelu. Obrazy wektorowane przez jeden model nie będą przeszukiwalne za pomocą innego modelu. Najnowszy interfejs API analizy obrazów oferuje dwa modele, wersja 2023-04-15 , która obsługuje wyszukiwanie tekstu w wielu językach, oraz starszy 2022-04-11 model, który obsługuje tylko język angielski.
Proces pobierania obrazu
Poniżej przedstawiono główne kroki procesu pobierania obrazu przy użyciu osadzania wielomodalnego.
- Wektoryzowanie obrazów i tekstu: interfejsy API osadzania wielomodalnego, VectorizeImage i VectorizeText mogą służyć do wyodrębniania wektorów funkcji z obrazu lub tekstu odpowiednio. Interfejsy API zwracają pojedynczy wektor funkcji reprezentujący całe dane wejściowe.
Uwaga
Osadzenie wielomodalne nie wykonuje żadnego biometrycznego przetwarzania ludzkich twarzy. Aby uzyskać informacje na temat wykrywania i identyfikacji twarzy, zobacz usługę rozpoznawania twarzy platformy Azure.
- Mierzenie podobieństwa: Systemy wyszukiwania wektorów zwykle używają metryk odległości, takich jak odległość cosinusu lub odległość euklidesowa, aby porównać wektory i sklasyfikować je według podobieństwa. Demo Vision Studio używa odległości cosinusowej do mierzenia podobieństwa.
- Pobieranie obrazów: użyj pierwszych N wektorów podobnych do zapytania wyszukiwania i pobierz obrazy odpowiadające tym wektorom z biblioteki zdjęć, aby podać wynik końcowy.
Ocena istotności
Usługa pobierania obrazu zwraca pole o nazwie "istotność". Termin "istotność" oznacza miarę podobieństwa między zapytaniem a osadzaniem obrazów. Wynik istotności składa się z dwóch części:
- Podobieństwo cosinusu (które mieści się w zakresie [0,1]) między osadzeniem zapytania a obrazem.
- Wynik metadanych, który odzwierciedla podobieństwo między zapytaniem a metadanymi skojarzonymi z obrazem.
Ważne
Wynik istotności jest dobrą miarą służącą do klasyfikacji wyników, takich jak obrazy w odniesieniu do pojedynczego zapytania. Jednak ocena istotności nie może być dokładnie porównywana między zapytaniami. W związku z tym nie można łatwo mapować wyniku istotności na poziom ufności. Nie można również trywialnie utworzyć algorytmu progowego, aby wyeliminować nieistotne wyniki wyłącznie na podstawie wyniku istotności.
Wymagania dotyczące danych wejściowych
Dane wejściowe obrazu
- Rozmiar pliku obrazu musi być mniejszy niż 20 megabajtów (MB)
- Wymiary obrazu muszą być większe niż 10 x 10 pikseli i mniejsze niż 16 000 x 16 000 pikseli
Wprowadzenie tekstu
- Ciąg tekstowy musi zawierać się między (włącznie) jednym wyrazem i 70 wyrazami.
Następny krok
Włącz osadzanie wielomodalne dla usługi wyszukiwania i wykonaj kroki generowania osadzania wektorów dla tekstu i obrazów.