Kamera głębi Azure Kinect DK

Na tej stronie opisano sposób używania kamery głębi w zestawie Azure Kinect DK. Kamera głębi jest drugą z dwóch kamer. Jak opisano w poprzednich sekcjach, drugi aparat jest aparatem RGB.

Zasady operacyjne

Kamera głębokości zestawu Azure Kinect DK implementuje zasadę Czasu lotu (ToF) na bazie modulacji fali ciągłej amplitudą (AMCW). Kamera rzuca modulowane oświetlenie w spektrum bliskiej podczerwieni (NIR) na scenę. Następnie rejestruje pośredni pomiar czasu, jaki zajmuje światłu, aby przemieszczać się z kamery do sceny i z powrotem.

Te pomiary są przetwarzane w celu wygenerowania mapy głębokości. Mapa głębokości to zestaw wartości współrzędnych Z dla każdego piksela obrazu mierzonego w jednostkach milimetrów.

Wraz z mapą głębokości uzyskujemy również tzw. czysty odczyt środowiska IR. Wartość pikseli w precyzyjnym odczycie IR jest proporcjonalna do ilości światła odbitego od sceny. Obraz wygląda podobnie do zwykłego obrazu środowiska IR. Na poniższej ilustracji przedstawiono przykładową mapę głębokości (po lewej) i odpowiedni obraz czystego środowiska IR (po prawej).

Głębokość i IR obok siebie

Kluczowe funkcje

Cechy techniczne kamery głębokości obejmują:

Mikroukład obrazujący 1-megapikselowy ToF z zaawansowaną technologią pikseli, która pozwala na wyższe częstotliwości modulacji i precyzyjniejsze określanie głębokości.
Dwie diody laserowe NIR umożliwiają tryby głębokości bliskiego i szerokiego pola widzenia (FoV).
Najmniejszy na świecie piksel ToF o wymiarach 3,5μm na 3,5μm.
Automatyczny wybór wzmocnienia na piksel umożliwiający duży zakres dynamiczny, dzięki któremu obiekty bliskie i dalekie mogą być przechwytywane wyraźnie.
Globalna migawka, która pozwala na lepszą wydajność światła słonecznego.
Metoda obliczania głębokości wielofazowej, która umożliwia niezawodną dokładność nawet w przypadku zmiany układu, lasera i zasilania.
Niskie błędy systematyczne i losowe.

Moduł głębokości

Kamera głębinowa przesyła nieprzetworzone modulowane obrazy IR do komputera hosta. Na komputerze oprogramowanie akcelerowane przez GPU do przetwarzania głębi konwertuje nieprzetworzony sygnał na mapy głębokości. Kamera głębinowa obsługuje kilka trybów. Tryby wąskiego pola widoku (FoV) są idealne dla scen o mniejszych zakresach w wymiarach X i Y, ale z większym zakresem w wymiarze Z. Jeśli scena ma duże zakresy X i Y, ale mniejsze zakresy Z, szerokie tryby FoV są lepiej dopasowane.

Kamera głębi obsługuje tryby binning 2x2, aby rozszerzyć zakres Z w porównaniu z odpowiednimi trybami bez binowania. Binning odbywa się kosztem obniżenia rozdzielczości obrazu. Wszystkie tryby mogą być uruchamiane z maksymalnie 30 klatek na sekundę (fps) z wyjątkiem trybu 1 megapiksela (MP), który działa z maksymalną szybkością 15 klatek na sekundę. Kamera głębokości zapewnia również pasywny tryb IR. W tym trybie światła na kamerze nie są aktywne i obserwuje się tylko oświetlenie otoczenia.

Wydajność aparatu

Wydajność aparatu jest mierzona jako systematyczne i losowe błędy.

Błąd systematyczny

Błąd systematyczny jest definiowany jako różnica między zmierzoną głębokością po usunięciu szumu a prawidłową głębokością (wartością odniesienia). Obliczamy średnią czasową z wielu klatek sceny statycznej, aby wyeliminować jak najwięcej szumów głębokości. Dokładniej mówiąc, systemowy błąd jest definiowany jako:

Błąd systematyczny głębokości

Gdzie d_t oznacza mierzoną głębokość w czasie t, N jest liczbą ramek używanych w procedurze uśredniania, a d_gt stanowi wartość rzeczywistą głębokości.

Specyfikacja błędu systematycznego kamery głębokości wyklucza interferencję wielościeżkową (MPI). MPI ma miejsce wtedy, gdy jeden piksel czujnika integruje światło odbite przez więcej niż jeden obiekt. MpI jest częściowo złagodzony w naszej kamerze głębi przy użyciu wyższych częstotliwości modulacji, wraz z unieważnieniem głębokości, które wprowadzimy później.

Błąd losowy

Załóżmy, że zrobimy 100 obrazów tego samego obiektu bez przenoszenia aparatu. Głębokość obiektu będzie nieco różnić się w każdym z 100 obrazów. Ta różnica jest spowodowana hałasem strzału. Szum strzału to liczba fotonów uderzających w czujnik różni się w zależności od losowego współczynnika w czasie. Ten losowy błąd na scenie statycznej definiujemy jako odchylenie standardowe głębokości w czasie obliczone jako:

Losowy błąd głębokości

Gdzie N określa liczbę pomiarów głębokości, d_t reprezentuje pomiar głębokości w czasie t i d oznacza wartość średnią obliczoną na wszystkich pomiarach głębokości d_t.

Unieważnienie

W niektórych sytuacjach kamera głębi może nie dostarczać poprawnych wartości dla niektórych pikseli. W takich sytuacjach piksele głębokości są uznawane za nieważne. Nieprawidłowe piksele są wskazywane przez wartość głębokości równą 0. Przyczyny, dla których aparat głębokości nie może wygenerować prawidłowych wartości, to:

Poza aktywną maską oświetlenia IR
Sygnał nasycony IR
Niski sygnał IR
Odfiltruj odstający
Interferencja wielu ścieżek

Maska świetlna

Piksele są invalidowane, gdy znajdują się poza aktywną maską oświetlenia IR. Nie zalecamy używania sygnału takich pikseli do obliczania głębokości. Na poniższej ilustracji przedstawiono przykład unieważnienia spowodowanego maską oświetlenia. Unieważnione piksele to piksele koloru czarnego poza okręgiem w szerokich trybach FoV (po lewej) i sześciokąt w wąskich trybach FoV (po prawej).

Unieważnianie maski oświetlenia zewnętrznego

Siła sygnału

Piksele są unieważniane, gdy zawierają nasycony sygnał IR. Gdy piksele są nasycone, informacje o fazie są tracone. Na poniższej ilustracji przedstawiono przykład unieważnienia przez nasycony sygnał IR. Zobacz strzałki wskazywane na przykładowe piksele zarówno w głębi, jak i na obrazach IR.

Nasycenie unieważnienia

Unieważnienie może również wystąpić, gdy sygnał IR nie jest wystarczająco silny, aby wygenerować głębokość. Na poniższej ilustracji przedstawiono przykład unieważnienia przez sygnał niskiego środowiska IR. Zobacz strzałki wskazywane na przykładowe piksele zarówno w głębi, jak i na obrazach IR.

Unieważnianie sygnału niskiego poziomu

Niejednoznaczna głębokość

Piksele można również unieważnić, jeśli odebrały sygnały z więcej niż jednego obiektu w scenie. Typowy przypadek, w którym można zobaczyć tego rodzaju unieważnienie, znajduje się w rogach. Ze względu na geometrię sceny światło IR z kamery odbiło się od jednej ściany i na drugą. To odbite światło powoduje niejednoznaczność w zmierzonej głębokości piksela. Filtry w algorytmie głębokości wykrywają te niejednoznaczne sygnały i unieważniają piksele.

Na poniższych ilustracjach przedstawiono przykłady unieważnienia przez wykrywanie wielu ścieżek. Można również zobaczyć, jak ten sam obszar powierzchni, który został unieważniony z jednego widoku aparatu (górny wiersz) może pojawić się ponownie z innego widoku aparatu (dolny wiersz). Ten obraz pokazuje, że powierzchnie unieważnione z jednej perspektywy mogą być widoczne z innej strony.

Unieważnianie wielościeżkowe — narożnik

Innym częstym przykładem wielościeżkowości są piksele, które zawierają mieszany sygnał z przedniego planu i tła (na przykład wokół krawędzi obiektów). Podczas szybkiego ruchu możesz zauważyć więcej unieważnionych pikseli wokół krawędzi. Dodatkowe unieważnione piksele są spowodowane interwałem ekspozycji podczas nieprzetworzonego przechwytywania danych dotyczących głębokości.

Unieważnianie MultiPath — krawędzie

Dalsze kroki

Układy współrzędnych

Last updated on 2019-06-26

Udostępnij przez