Visual Odometry (4) - 3D-2D PnP (Perspective-n-Point)

Xiang Gao, Tao Zhang 저자의 'Introduction to Visual SLAM from Theory to Practice' 책을 통해 SLAM에 대해 공부한 내용을 기록하고자 한다.

책의 내용은 주로 'SLAM의 기초 이론', 'system architecture', 'mainstream module'을 다룬다.

포스팅에는 기초 이론만 다룰 것이며, 실습을 해보고 싶다면 다음 github를 참조하자.

https://github.com/gaoxiang12/slambook2

GitHub - gaoxiang12/slambook2: edition 2 of the slambook

edition 2 of the slambook. Contribute to gaoxiang12/slambook2 development by creating an account on GitHub.

github.com

Visual Odometry 이전 과정인 feature extraction 및 feature matching 과정에 대한 내용은 다음 글을 참조하자.

https://jjuke-brain.tistory.com/entry/Visual-Odometry-1-ORB-Feature-Feature-Matching

Visual Odometry (1) - Feature Method, ORB Feature, Feature Matching

Xiang Gao, Tao Zhang 저자의 'Introduction to Visual SLAM from Theory to Practice' 책을 통해 SLAM에 대해 공부한 내용을 기록하고자 한다. 책의 내용은 주로 'SLAM의 기초 이론', 'system architecture', 'ma..

jjuke-brain.tistory.com

카메라의 motion(pose)를 추정할 때의 세 가지 경우 중 2D-2D case인 epipolar geometry를 다루는 내용은 다음을 참조하자.

https://jjuke-brain.tistory.com/entry/Visual-Odometry-2-Epipolar-Geometry-Triangulation?category=987160

Monocular vision에서 카메라의 motion으로부터 픽셀의 depth를 얻는 triangulation의 개념은 다음을 참조하자.

https://jjuke-brain.tistory.com/entry/Visual-Odometry-3-Triangulation

Visual Odometry (3) - Triangulation

jjuke-brain.tistory.com

PnP(Perspective-n-Point)

PnP(Perspective-n-Point)

PnP는 feature matching 결과를 통한 카메라 motion 추정 방법 중 3D-2D case이다.

n개의 3차원 점들과 그것들이 투영된 위치가 주어졌을 때, 카메라의 pose를 추정하는 것이다.

2D-2D epipolar geometry는 8개 이상의 feature point 쌍이 필요했고, initialization, pure rotation, scale 등에 있어서 문제점이 있었다. (자세한 내용은 이전 포스팅을 참조하자.)

두 이미지에서 feature points 중 하나라도 3차원 위치(좌표)가 주어진다면, 카메라 motion 추정에 최소 3개의 쌍이 필요해진다. (보통은 검증을 위해 한 쌍이 추가로 필요하다.)

Feature point의 3차원 위치는 triangulation이나 RGB-D 카메라의 depth map 등으로 얻게 되는데, binocular 또는 RGB-D visual odometry에서는 PnP를 사용하여 직접적으로 카메라의 motion을 추정할 수 있다.

3D-2D 방법은 epipolar constraints가 필요 없고, 더 좋은 결과를 보이므로, 가장 중요한 pose estimation 방법이다.

PnP에는 P3P, DLT, EPnP, UPnP, Bundle Adjustment 등 많은 방법이 있는데, 여기서는 DLT, P3P, BA 정도만 다룰 것이다.

Direct Linear Transformation (DLT)

어떤 점들의 3차원 위치와 그것들의 projection을 알 때, 카메라의 pose를 구하는 방법을 살펴보자.

이 방법으로 map과 image가 주어졌을 때 카메라의 pose를 알아보는 문제, 두 카메라의 상대적인 motion을 구하는 문제 등을 해결할 수 있다.

사전에 Lie Algebra 관련 지식을 (개념적으로나마) 알고 있으면 좋다.

간단한 Lie Algebra 내용은 다음 글을 참조하자.

https://jjuke-brain.tistory.com/entry/Lie-Group-and-Lie-Algebra?category=987160

3D point $P$ 의 homogeneous coordinates를 $P = (X, Y, Z, 1)^{T}$ 라 하고, image $I_{1}$ 에 투영된 normalized homogeneous coordinate를 $x_{1} = (u_{1}, v_{1}, 1)^{T}$ 라 할 때, camera의 pose $R, t$ 가 주어져 있다.

(Normalized homogeneous coordinate를 사용하는 이유는 intrinsic matrix $K$ 의 영향이 없기 때문이다.)

3 × 4 사이즈의 augmented matrix $[R | t]$ 를 정의하면, 다음과 같은 식을 만들 수 있다.

$s x_{1} = [R | t] P$

풀어쓰면,

$s (\begin{matrix} u_{1} \\ v_{1} \\ 1 \end{matrix}) = (\begin{matrix} t_{1} & t_{2} & t_{3} & t_{4} \\ t_{5} & t_{6} & t_{7} & t_{8} \\ t_{9} & t_{1} 0 & t_{1} 1 & t_{1} 2 \end{matrix}) (\begin{matrix} X \\ Y \\ Z \\ 1 \end{matrix})$

마지막 행으로 $s$ 를 제거하면 다음과 같은 두 constraints를 얻는다.

$u_{1} = \frac{t_{1} X + t_{2} Y + t_{3} Z + t_{4}}{t_{9} X + t_{10} Y + t_{11} Z + t_{12}}, v_{1} = \frac{t_{5} X + t_{6} Y + t_{7} Z + t_{8}}{t_{9} X + t_{10} Y + t_{11} Z + t_{12}}$

$T$ 를 행벡터로 표현하면 아래와 같고, (여기서, $T$ 가 $SE (3)$ 의 transformation matrix는 아님에 유의하자.)

$t_{1} = (t_{1}, t_{2}, t_{3}, t_{4})^{T}, t_{2} = (t_{5}, t_{6}, t_{7}, t_{8})^{T}, t_{3} = (t_{9}, t_{10}, t_{11}, t_{12})^{T}$

이를 통해 두 constraints를 간단히 표현하면 다음과 같다.

${\begin{cases} t_{1}^{T} P - t_{3}^{T} P u_{1} = 0 \\ t_{2}^{T} P - t_{3}^{T} P v_{1} = 0 \end{cases}$

위와 같이, 각 feature point는 $t$ 에 대해 두 개의 linear constraints를 제공한다.

총 $N$ 개의 feature points가 있따고 가정하면, 다음과 같은 linear equation system을 구성할 수 있다.

$(\begin{matrix} P_{1}^{T} & 0 & - u_{1} P_{1}^{T} \\ 0 & P_{1}^{T} & - v_{1} P_{1}^{T} \\ ⋮ & ⋮ & ⋮ \\ P_{N}^{T} & 0 & - u_{N} P_{N}^{T} \\ 0 & P_{N}^{T} & - v_{N} P_{N}^{T} \end{matrix}) (\begin{matrix} t_{1} \\ t_{2} \\ t_{3} \end{matrix}) = 0$

$t$ 는 총 12개의 미지수를 갖고 있으므로(12차원), matrix $T$ 의 해는 최소 6쌍의 matching point 쌍으로 얻을 수 있다.

이와 같은 방법이 바로 Direct Linear Transform (DLT)이다.

DLT에서는 $T$ 행렬의 미지수들 사이의 correlation을 고려하지 않고 직접적으로 구한다.

이때 rotation matrix $R$ 은 $SO (3)$ 에 속하기 때문에, DLT로 얻은 해는 $SE (3)$ 의 조건을 만족할 필요가 없다. (일반적인 행렬일 뿐이다.)

그리고 DLT에서 추정한 $R$ 의 왼쪽 3 × 3 matrix를 근사화하여 rotation matrix를 찾는다.

이 때에는 QR decomposition을 사용하거나, 다음 식으로 계산한다.

$R \leftarrow {(R R^{T})}^{- 1 / 2} R$

이 식은 matrix space의 결과를 $SE (3)$ , 즉 3D transformation으로 reproject하고, rotation과 translation 두 부분으로 변환하는 개념이다. (상세한 설명은 생략한다.)

한 가지 주목할 점은, SLAM에서는 보통 주어져 있지만, 위에서 normalized plane coordinate ( $x$ )를 사용해서 intrinsic matrix $K$ 의 영향을 받지 않는다고 하였다.

따라서 intrinsic parameter를 모른다 해도 $K, R, t$ 세 개의 matrix를 구해야 할 때 PnP를 사용할 수 있다. (미지수가 증가하므로 결과가 좋지 않기는 하다.)

P3P

P3P는 PnP를 푸는 또 다른 방법중 하나이다. DLT에서는 6쌍이 필요하다고 했는데, P3P에서는 3쌍만 있으면 카메라의 pose를 구할 수 있다.

P3P에서는 주어진 3개 점들 간의 관계를 알아야 한다.

Input data는 세 쌍의 3차원 점과 2차원 점이 주어진다. 3차원 점을 $A, B, C$ (world coordinate), 각각의 projection인 2차원 점을 $a, b, c$ (camera coordinate)로 두자.

또한, 가능한 solution 중에서 맞는 것을 고르기 위한 검증용 point 쌍 하나가 필요하다. ( $D, d$ )

카메라 좌표계에서의 3차원 점들의 좌표를 계산하면 그에 상응하는 point를 얻게 되고, PnP problem을 ICP problem(3D-3D problem)으로 바꿀 수 있다.

위 그림을 보면, 다음과 같이 닮은 삼각형 3개가 있다.

$△ O a b - △ O A B, △ O b c - △ O B C, △ O a c - △ O A C$

Cosine 법칙에 의해 다음 세 가지 식이 성립한다.

${\begin{cases} {\overset{―}{O A}}^{2} + {\overset{―}{O B}}^{2} - 2 \cdot \overset{―}{O A} \cdot \overset{―}{O B} \cdot \cos ⟨ a, b ⟩ = {\overset{―}{A B}}^{2} \\ {\overset{―}{O B}}^{2} + {\overset{―}{O C}}^{2} - 2 \cdot \overset{―}{O B} \cdot \overset{―}{O C} \cdot \cos ⟨ b, c ⟩ = {\overset{―}{B C}}^{2} \\ {\overset{―}{O A}}^{2} + {\overset{―}{O C}}^{2} - 2 \cdot \overset{―}{O A} \cdot \overset{―}{O C} \cdot \cos ⟨ a, c ⟩ = {\overset{―}{A C}}^{2} \end{cases}$

세 식의 양 변을 ${\overset{―}{O C}}^{2}$ 으로 나누고, $x = \overset{―}{O A} / \overset{―}{O C}, y = \overset{―}{O B} / \overset{―}{O C}$ 라 하면,

${\begin{cases} x^{2} + y^{2} - 2 x y \cos ⟨ a, b ⟩ = {\overset{―}{A B}}^{2} / {\overset{―}{O C}}^{2} \\ y^{2} + 1^{2} - 2 y \cos ⟨ b, c ⟩ = {\overset{―}{B C}}^{2} / {\overset{―}{O C}}^{2} \\ x^{2} + 1^{2} - 2 x \cos ⟨ a, c ⟩ = {\overset{―}{A C}}^{2} / {\overset{―}{O C}}^{2} \end{cases}$

$v = {\overset{―}{A B}}^{2} / {\overset{―}{O C}}^{2}, u = {\overset{―}{B C}}^{2} / {\overset{―}{A B}}^{2}, w = {\overset{―}{A C}}^{2} / {\overset{―}{A B}}^{2}$ 이라 하면,

${\begin{cases} x^{2} + y^{2} - 2 x y \cos ⟨ a, b ⟩ - v = 0 \\ y^{2} + 1^{2} - 2 y \cos ⟨ b, c ⟩ - u v = 0 \\ x^{2} + 1^{2} - 2 x \cos ⟨ a, c ⟩ - w v = 0 \end{cases}$

마지막으로 처음 식의 $v$ 를 우변으로 넘겨 다른 식과 연립하면 다음 식들을 얻는다.

${\begin{cases} (1 - u) y^{2} - u x^{2} - 2 \cos ⟨ b, c ⟩ y + 2 u x y \cos ⟨ a, b ⟩ + 1 = 0 \\ (1 - w) x^{2} - w y^{2} - 2 \cos ⟨ a, c ⟩ x + 2 w x y \cos ⟨ a, b ⟩ + 1 = 0 \end{cases}$

2D 점들의 좌표를 통해 3개의 $\cos$ 을 계산할 수 있고, 3차원 점들의 좌표로 $u, w$ 를 계산할 수 있다.

미지수는 $x, y$ 로, 카메라가 움직임에 따라 바뀌게 된다.

직접 식을 풀기는 복잡하기 때문에, Wu's method라는 방법을 사용한다.

solution은 epipolar geometry에서 essential matrix $E$ 를 구할 때와 마찬가지로 4개의 solution이 나오는데, 앞서 문제 정의에서 추가로 준비해둔 검증용 point 쌍 하나를 이용하여 최종 solution을 고름으로써 camera frame에서의 $A, B, C$ 의 3차원 좌표를 구할 수 있다.

이후에 3D-3D point 쌍을 기반으로 camera의 $R, t$ 를 계산할 수 있는데, 이는 ICP problem이 된다.

정리하자면, P3P에서는 삼각형의 닮음 관계를 활용하여 camera frame의 projection points $a, b, c$ 의 3차원 좌표를 구하고, 최종적으로 3D-3D pose estimation problem으로 문제를 변환한다.

P3P의 단점은 다음과 같다.

P3P는 3개 점의 정보만 포함하므로, matching points 쌍이 3개보다 많이 주어진 경우, 그 정보를 다 활용할 수 없다.
3차원 점이나 2차원 점들이 noise나 mismatch의 영향을 받는 경우, 정확한 결과를 얻을 수 없다.

따라서 SLAM에서는 일반적으로 먼저 P3P나 EPnP를 사용하여 카메라 pose를 추정한 후에, bundle adjustment로 least-square optimization problem을 구성한다.

Bundle Adjustment (BA)

PnP problem은 linear 뿐만 아니라, reprojection error에 대한 nonlinear least-square problem으로 구성할 수 있다. 즉, reprojection error를 최소화하는 방법으로 PnP를 풀 수 있다.

Linear method는 '카메라 pose 추정 후 point의 위치를 추정'한다는 구분 되는 step으로 나뉘지만, nonlinear optimization은 두 과정에서 구하는 것들을 한꺼번에 optimization variables로 두어 최적화(general solution method)한다.

이렇게 camera pose와 3D point 좌표를 한꺼번에 최적화하는 문제를 Bundle Adjustment(BA)라 한다.

Optimizing the Camera Pose with BA

카메라가 연속적으로 움직이면 BA를 통해 직접적으로 카메라 pose를 구할 수 있다.

가장 기초적인 형태는 앞서 계속 살펴봤던 two-view form으로, $n$ 개의 3D point $P$ 와 그 점들의 projection인 $p$ 가 주어지고, camera의 pose인 $R, t$ 를 구하려 한다.

$i$ 번째 coordinate를 $P_{i} = [X_{i}, Y_{i}, Z_{i}]^{T}$ , $i$ 번째 투영된 pixel의 coordinate를 $u_{i} = [u_{i}, v_{i}]^{T}$ 로 둔다.

2D pixel position과 3D spatial position의 관계(자세한 내용은 링크를 참조하자.)에 따라, 다음이 성립한다.

$s_{i} [\begin{matrix} u_{i} \\ v_{i} \\ 1 \end{matrix}] = KT [\begin{matrix} X_{i} \\ Y_{i} \\ Z_{i} \\ 1 \end{matrix}]$

Matrix 형태로 나타내면 다음과 같다.

Homogeneous coordinates에서는 에러의 차원이 3이지만, $u$ 의 마지막 차원이 1이기 때문에 해당 차원의 에러는 항상 0이고, 따라서 간단히 non-homogeneous coordinates로 나타냈다.

$s_{i} u_{i} = KT P_{i}$

이때 알지 못하는 카메라의 pose와 관측된 점의 noise 때문에, 식은 residual(error)이 존재하게 된다.

이 residual을 합하여 least-square problem을 구성하고, 이를 최소화하여 camera pose를 찾을 것이다.

$T^{*} = \underset{T}{argmin} \frac{1}{2} \sum_{i = 1}^{n} ‖ u_{i} - \frac{1}{s_{i}} KT P_{i} ‖_{2}^{2}$

위 사진에서와 같이, reprojection error는 residual term(error)으로, 투영된 위치와 관측된 위치 간의 차이이다.

$p_{1}, p_{2}$ 는 feature matching에 의한 점 $P$ 의 projection인데, 계산을 통해 얻은 projection인 ${\hat{p}}_{2}$ 는 실제 값과 $e$ 만큼의 차이가 있다. 따라서 카메라의 pose를 조정하여 이 차이를 줄인다. (한 점의 에러가 아닌 전체 에러를 줄이는 것이 목표임을 기억하자.)

Lie Algebra를 활용하여 Gauss-Newton method, 혹은 Levenberg-Marquardt method 등으로 optimization 문제를 풀 수 있다. (linear optimization 관련 자세한 내용은 링크를 참조하자.)

이 과정에서 각 error term의 도함수를 구해야 하는데, 이때 다음과 같이 linearization한다.

$e (x + Δ x) \approx e (x) + J^{T} Δ x$

이때 $J^{T}$ 의 형태에 주목하자.

$e$ 는 pixel 좌표계에서의 에러(2D)이고, $x$ 는 카메라의 pose(6D)이다. 따라서 $J^{T}$ 의 사이즈는 2 × 6이다.

이를 유도하기 위해서는 Lie Algebra(링크 참조), 특히 perturbation model에 대한 개념이 필요하다.

먼저, camera frame의 점의 좌표를 $P^{'}$ 으로 정의하고, 처음 3개 차원만 고려해보자.

$P^{'} = (TP)_{1 : 3} = [X^{'}, Y^{'}, Z^{'}]^{T}$

이에 대한 projection model은 다음과 같다.

$s u = K P^{'}$

전개하면,

$[\begin{matrix} s u \\ s v \\ s \end{matrix}] = [\begin{matrix} f_{x} & 0 & c_{x} \\ 0 & f_{y} & c_{y} \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} X^{'} \\ Y^{'} \\ Z^{'} \end{matrix}]$

세 번째 행으로 $s$ , 즉 $P^{'}$ 의 distance를 제거하면 다음을 얻는다.

$u = f_{x} \frac{X^{'}}{Z^{'}} + c_{x}, v = f_{y} \frac{Y^{'}}{Z^{'}} + c_{y}$

이 식의 모양은 camera model을 배울 때 봤던 식 $X^{'} = f \frac{X}{Z}, Y^{'} = f \frac{Y}{Z}$ 과 비슷하다.

Error를 찾기 위해서는 $u, v$ 와 관측 값을 비교해 보아야 한다.

$T$ 에 disturbance quantity $δ ξ$ 를 left multiply한 후에 $e$ 의 도함수를 구한다.

Chain rule에 의해 다음을 만족하게 된다.

$\frac{\partial e}{\partial δ ξ} = lim_{δ ξ \to 0} \frac{e (δ ξ \oplus ξ) - e (ξ)}{δ ξ} = \frac{\partial e}{\partial P^{'}} \frac{\partial P^{'}}{\partial δ ξ}$

여기서 $\oplus$ 는 Lie Algebra에서의 disturbance의 left multiplication을 뜻한다.

첫 번째 항은 투영된 점에 대한 error의 도함수로, 위에서 $s$ 를 제거하여 얻은 식에서 쉽게 얻을 수 있다.

$\frac{\partial e}{\partial P^{'}} = - [\begin{matrix} \frac{\partial u}{\partial X^{'}} & \frac{\partial u}{\partial Y^{'}} & \frac{\partial u}{\partial Z^{'}} \\ \frac{\partial v}{\partial X^{'}} & \frac{\partial v}{\partial Y^{'}} & \frac{\partial v}{\partial Z^{'}} \end{matrix}] = - [\begin{matrix} \frac{f_{x}}{Z^{'}} & 0 & - \frac{f_{x} X^{'}}{Z^{' 2}} \\ 0 & \frac{f_{y}}{Z^{'}} & - \frac{f_{y} Y^{'}}{Z^{' 2}} \end{matrix}]$

두 번째 항은 Lie Algebra에 대한 변환된 점의 도함수이다.

$\frac{\partial (TP)}{\partial δ ξ} = (TP)^{⊙} = [\begin{matrix} I & - P^{' \land} \\ 0^{T} & 0^{T} \end{matrix}]$

처음 문제 정의에서 $P^{'}$ 를 처음 3개 차원만 정의한다고 하였으므로, 다음과 같이 간략하게 표현할 수 있다.

$\frac{\partial P^{'}}{\partial δ ξ} = [I, - P^{' \land}]$

이렇게 구한 두 term들을 곱하면 다음과 같은 2 × 6 사이즈의 Jacobian matrix를 얻는다.

$\frac{\partial e}{\partial δ ξ} = - [\begin{matrix} \frac{f_{x}}{Z^{'}} & 0 & - \frac{f_{x} X^{'}}{Z^{' 2}} & - \frac{f_{x} X^{'} Y^{'}}{Z^{' 2}} & f_{x} + \frac{f_{x} X^{' 2}}{Z^{' 2}} & - \frac{f_{x} Y^{'}}{Z^{'}} \\ 0 & \frac{f_{y}}{Z^{'}} & - \frac{f_{y} Y^{'}}{Z^{' 2}} & - f_{y} - \frac{f_{y} Y^{' 2}}{Z^{' 2}} & \frac{f_{y} X^{'} Y^{'}}{Z^{' 2}} & \frac{f_{y} X^{'}}{Z^{'}} \end{matrix}]$

이 Jacobian matrix는 left perturbation model에 대한 reprojection error의 1차 도함수를 나타낸다.

error는 '관측값 - 예측값'이므로, - 부호를 유지한다. (예측값 - 관측값 형태로 정의할 경우에는 - 부호를 뺌)

$se (3)$ 의 정의가 rotation 후 translation이라면, 처음 3개 column과 뒤쪽 3개 column 순서를 바꾸면 된다.

Pose를 최적화하는 것 외에도 feature point들의 3차원 좌표를 최적화 하고싶다.

따라서 $e$ 를 3D 점의 좌표 $P$ 에 대한 도함수도 필요하다.

마찬가지로 chain rule을 적용하면,

$\frac{\partial e}{\partial P} = \frac{\partial e}{\partial P^{'}} \frac{\partial P^{'}}{\partial P}$

첫 번째 항은 이전에 유도했고, 두 번째 항은 $P^{'}$ 의 정의에 의해 다음과 같이 계산할 수 있다.

$P^{'} = (TP)_{1 : 3} = RP + t$

$∴ \frac{\partial e}{\partial P} = - [\begin{matrix} \frac{f_{x}}{Z^{'}} & 0 & - \frac{f_{x} X^{'}}{Z^{' 2}} \\ 0 & \frac{f_{y}}{Z^{'}} & - \frac{f_{y} Y^{'}}{Z^{' 2}} \end{matrix}] R$

이렇게 camera pose와 feature point 좌표 에 대한 두 개의 Jacobian matrix를 유도해 보았다.

이는 optimization 과정에서 gradient를 제공하므로 아주 중요하다.

저작자표시 비영리 변경금지

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Visual Odometry (4) - 3D-2D PnP (Perspective-n-Point)