Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Na tej stronie opisano sposób używania kamery głębi w zestawie Azure Kinect DK. Kamera głębi jest drugą z dwóch kamer. Jak opisano w poprzednich sekcjach, drugi aparat jest aparatem RGB.
Zasady operacyjne
Kamera głębokości zestawu Azure Kinect DK implementuje zasadę Czasu lotu (ToF) na bazie modulacji fali ciągłej amplitudą (AMCW). Kamera rzuca modulowane oświetlenie w spektrum bliskiej podczerwieni (NIR) na scenę. Następnie rejestruje pośredni pomiar czasu, jaki zajmuje światłu, aby przemieszczać się z kamery do sceny i z powrotem.
Te pomiary są przetwarzane w celu wygenerowania mapy głębokości. Mapa głębokości to zestaw wartości współrzędnych Z dla każdego piksela obrazu mierzonego w jednostkach milimetrów.
Wraz z mapą głębokości uzyskujemy również tzw. czysty odczyt środowiska IR. Wartość pikseli w precyzyjnym odczycie IR jest proporcjonalna do ilości światła odbitego od sceny. Obraz wygląda podobnie do zwykłego obrazu środowiska IR. Na poniższej ilustracji przedstawiono przykładową mapę głębokości (po lewej) i odpowiedni obraz czystego środowiska IR (po prawej).
Kluczowe funkcje
Cechy techniczne kamery głębokości obejmują:
- Mikroukład obrazujący 1-megapikselowy ToF z zaawansowaną technologią pikseli, która pozwala na wyższe częstotliwości modulacji i precyzyjniejsze określanie głębokości.
- Dwie diody laserowe NIR umożliwiają tryby głębokości bliskiego i szerokiego pola widzenia (FoV).
- Najmniejszy na świecie piksel ToF o wymiarach 3,5μm na 3,5μm.
- Automatyczny wybór wzmocnienia na piksel umożliwiający duży zakres dynamiczny, dzięki któremu obiekty bliskie i dalekie mogą być przechwytywane wyraźnie.
- Globalna migawka, która pozwala na lepszą wydajność światła słonecznego.
- Metoda obliczania głębokości wielofazowej, która umożliwia niezawodną dokładność nawet w przypadku zmiany układu, lasera i zasilania.
- Niskie błędy systematyczne i losowe.
Kamera głębinowa przesyła nieprzetworzone modulowane obrazy IR do komputera hosta. Na komputerze oprogramowanie akcelerowane przez GPU do przetwarzania głębi konwertuje nieprzetworzony sygnał na mapy głębokości. Kamera głębinowa obsługuje kilka trybów. Tryby wąskiego pola widoku (FoV) są idealne dla scen o mniejszych zakresach w wymiarach X i Y, ale z większym zakresem w wymiarze Z. Jeśli scena ma duże zakresy X i Y, ale mniejsze zakresy Z, szerokie tryby FoV są lepiej dopasowane.
Kamera głębi obsługuje tryby binning 2x2, aby rozszerzyć zakres Z w porównaniu z odpowiednimi trybami bez binowania. Binning odbywa się kosztem obniżenia rozdzielczości obrazu. Wszystkie tryby mogą być uruchamiane z maksymalnie 30 klatek na sekundę (fps) z wyjątkiem trybu 1 megapiksela (MP), który działa z maksymalną szybkością 15 klatek na sekundę. Kamera głębokości zapewnia również pasywny tryb IR. W tym trybie światła na kamerze nie są aktywne i obserwuje się tylko oświetlenie otoczenia.
Wydajność aparatu
Wydajność aparatu jest mierzona jako systematyczne i losowe błędy.
Błąd systematyczny
Błąd systematyczny jest definiowany jako różnica między zmierzoną głębokością po usunięciu szumu a prawidłową głębokością (wartością odniesienia). Obliczamy średnią czasową z wielu klatek sceny statycznej, aby wyeliminować jak najwięcej szumów głębokości. Dokładniej mówiąc, systemowy błąd jest definiowany jako:
Gdzie dt oznacza mierzoną głębokość w czasie t, N jest liczbą ramek używanych w procedurze uśredniania, a dgt stanowi wartość rzeczywistą głębokości.
Specyfikacja błędu systematycznego kamery głębokości wyklucza interferencję wielościeżkową (MPI). MPI ma miejsce wtedy, gdy jeden piksel czujnika integruje światło odbite przez więcej niż jeden obiekt. MpI jest częściowo złagodzony w naszej kamerze głębi przy użyciu wyższych częstotliwości modulacji, wraz z unieważnieniem głębokości, które wprowadzimy później.
Błąd losowy
Załóżmy, że zrobimy 100 obrazów tego samego obiektu bez przenoszenia aparatu. Głębokość obiektu będzie nieco różnić się w każdym z 100 obrazów. Ta różnica jest spowodowana hałasem strzału. Szum strzału to liczba fotonów uderzających w czujnik różni się w zależności od losowego współczynnika w czasie. Ten losowy błąd na scenie statycznej definiujemy jako odchylenie standardowe głębokości w czasie obliczone jako:
Gdzie N określa liczbę pomiarów głębokości, dt reprezentuje pomiar głębokości w czasie t i d oznacza wartość średnią obliczoną na wszystkich pomiarach głębokości dt.
Unieważnienie
W niektórych sytuacjach kamera głębi może nie dostarczać poprawnych wartości dla niektórych pikseli. W takich sytuacjach piksele głębokości są uznawane za nieważne. Nieprawidłowe piksele są wskazywane przez wartość głębokości równą 0. Przyczyny, dla których aparat głębokości nie może wygenerować prawidłowych wartości, to:
- Poza aktywną maską oświetlenia IR
- Sygnał nasycony IR
- Niski sygnał IR
- Odfiltruj odstający
- Interferencja wielu ścieżek
Maska świetlna
Piksele są invalidowane, gdy znajdują się poza aktywną maską oświetlenia IR. Nie zalecamy używania sygnału takich pikseli do obliczania głębokości. Na poniższej ilustracji przedstawiono przykład unieważnienia spowodowanego maską oświetlenia. Unieważnione piksele to piksele koloru czarnego poza okręgiem w szerokich trybach FoV (po lewej) i sześciokąt w wąskich trybach FoV (po prawej).
Siła sygnału
Piksele są unieważniane, gdy zawierają nasycony sygnał IR. Gdy piksele są nasycone, informacje o fazie są tracone. Na poniższej ilustracji przedstawiono przykład unieważnienia przez nasycony sygnał IR. Zobacz strzałki wskazywane na przykładowe piksele zarówno w głębi, jak i na obrazach IR.
Unieważnienie może również wystąpić, gdy sygnał IR nie jest wystarczająco silny, aby wygenerować głębokość. Na poniższej ilustracji przedstawiono przykład unieważnienia przez sygnał niskiego środowiska IR. Zobacz strzałki wskazywane na przykładowe piksele zarówno w głębi, jak i na obrazach IR.
Niejednoznaczna głębokość
Piksele można również unieważnić, jeśli odebrały sygnały z więcej niż jednego obiektu w scenie. Typowy przypadek, w którym można zobaczyć tego rodzaju unieważnienie, znajduje się w rogach. Ze względu na geometrię sceny światło IR z kamery odbiło się od jednej ściany i na drugą. To odbite światło powoduje niejednoznaczność w zmierzonej głębokości piksela. Filtry w algorytmie głębokości wykrywają te niejednoznaczne sygnały i unieważniają piksele.
Na poniższych ilustracjach przedstawiono przykłady unieważnienia przez wykrywanie wielu ścieżek. Można również zobaczyć, jak ten sam obszar powierzchni, który został unieważniony z jednego widoku aparatu (górny wiersz) może pojawić się ponownie z innego widoku aparatu (dolny wiersz). Ten obraz pokazuje, że powierzchnie unieważnione z jednej perspektywy mogą być widoczne z innej strony.
Innym częstym przykładem wielościeżkowości są piksele, które zawierają mieszany sygnał z przedniego planu i tła (na przykład wokół krawędzi obiektów). Podczas szybkiego ruchu możesz zauważyć więcej unieważnionych pikseli wokół krawędzi. Dodatkowe unieważnione piksele są spowodowane interwałem ekspozycji podczas nieprzetworzonego przechwytywania danych dotyczących głębokości.