Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Assessing the Efficiency of COLMAP, DROID-SLAM, and NeRF-SLAM in 3D Road Scene Reconstruction

Ascard, Marcus LU and Movahedi, Farjam LU (2023) In Master's Theses in Mathematical Sciences FMAM05 20231
Mathematics (Faculty of Engineering)
Abstract
3D reconstruction is a field in computer vision which has evolved rapidly as a result of the recent advancements in deep learning. As 3D reconstruction pipelines now can run in real-time, this has opened up new possibilities for teams developing Advanced Driver Assistance Systems (ADAS), which rely on the camera system of the vehicle to enhance the safety and driving experience.

This thesis presents a comparative analysis of two state-of-the-art visual SLAM pipelines, DROID-SLAM and NeRF-SLAM, and the classical Structure-from-Motion system, COLMAP. The objective was to utilize the multi-camera system on a Volvo vehicle, and public datasets, to accurately estimate trajectories and generate annotatable 3D road scenes. To assess the... (More)
3D reconstruction is a field in computer vision which has evolved rapidly as a result of the recent advancements in deep learning. As 3D reconstruction pipelines now can run in real-time, this has opened up new possibilities for teams developing Advanced Driver Assistance Systems (ADAS), which rely on the camera system of the vehicle to enhance the safety and driving experience.

This thesis presents a comparative analysis of two state-of-the-art visual SLAM pipelines, DROID-SLAM and NeRF-SLAM, and the classical Structure-from-Motion system, COLMAP. The objective was to utilize the multi-camera system on a Volvo vehicle, and public datasets, to accurately estimate trajectories and generate annotatable 3D road scenes. To assess the performance of the three methods, an evaluation pipeline was developed.

The results showed that COLMAP and DROID-SLAM can generate estimated trajectories with high accuracy when utilizing the Volvo vehicle's multi-camera system. Additionally, these systems were found to be capable of creating annotatable 3D road scenes, with some differences in quality and runtime efficiency. Generally, COLMAP demonstrated high-quality results, but its extensive runtimes makes it impractical to use at scale. The method found to be the least promising for Volvo Cars' use case was NeRF-SLAM, which failed to produce acceptable reconstructions using the multi-camera system.

Conclusively, DROID-SLAM showed the most potential for Volvo Cars' use case out of the three methods evaluated in this thesis. Despite being predominantly used off-the-shelf, it demonstrated the ability to generate impressive results with low runtimes. Nevertheless, additional research and fine-tuning is needed to optimize its performance for Volvo Cars' setup. (Less)
Popular Abstract (Swedish)
3-dimensionell (3D) rekonstruktion, ett område inom datorseende, har under senare år gjort stora framsteg som en konsekvens av de omfattande genombrott som har skett inom Artificiell Intelligens (AI). Inom datorseende har man som mål att försöka förklara hur världen ser ut för en dator, där saker som vi människor finner uppenbara behöver beskrivas i detalj med matematiska begrepp för att datorn ska få en korrekt uppfattning om omgivningen. Idag har tekniken utvecklats så långt att man kan programmera datorprogram att återskapa ett objekt eller ett område i 3D, där denna detaljerade 3D-rekonstruktion sedan kan roteras, skalas och studeras från alla håll. För att illustrera det med ett exempel så kan man tänka sig att vi skulle vilja skapa... (More)
3-dimensionell (3D) rekonstruktion, ett område inom datorseende, har under senare år gjort stora framsteg som en konsekvens av de omfattande genombrott som har skett inom Artificiell Intelligens (AI). Inom datorseende har man som mål att försöka förklara hur världen ser ut för en dator, där saker som vi människor finner uppenbara behöver beskrivas i detalj med matematiska begrepp för att datorn ska få en korrekt uppfattning om omgivningen. Idag har tekniken utvecklats så långt att man kan programmera datorprogram att återskapa ett objekt eller ett område i 3D, där denna detaljerade 3D-rekonstruktion sedan kan roteras, skalas och studeras från alla håll. För att illustrera det med ett exempel så kan man tänka sig att vi skulle vilja skapa en digital modell av ett kontor. Med 3D-rekonstruktionstekniker kan vi genom att förse dessa datorprogram med en videosekvens av kontoret, samt ge programmet tillgång till inre kameraparametrar (en typ av information som är specifik för kameran som använts), därefter återskapa kontoret digitalt som en 3D modell. Utöver att återskapa miljön i 3D så gör dessa typer av program även en uppskattning om hur kameran har rört sig under inspelningen av videosekvensen.

För att öka säkerheten och förarupplevelsen i sina bilar utvecklar Volvo Cars förarassistanssystem (ADAS), så som kollisionsundvikande system, där kameror och andra sensorer som är placerade runtom bilen utnyttjas för att öka bilens uppfattning av dess omgivning. Historiskt sett har man fokuserat på att använda sensorer så som ljusradarer (LiDARs) för att mäta avstånd till olika föremål i bilens omgivning, vilket likt 3D-rekonstruktion modellerar omgivningen i 3D. Detta tillvägagångssätt har däremot en del brister när målet är att återskapa en så detaljerad 3D miljö av omgivningen som möjligt. Bland annat så tillhandahåller inte LiDARs några färger, vilket försvårar urskiljning av olika objekt i 3D miljön avsevärt. Därtill är kvalitén av 3D modellen högt beroende av positionen av LiDARn. På grund av detta ville man undersöka om kamerorna på Volvobilar kan utnyttjas för att återskapa noggranna och detaljerade vägscener i 3D, via 3D-rekonstruktionsteknikerna COLMAP, DROID-SLAM och NeRF-SLAM. Under det här examensarbetet har dessa tre tekniker använts för att återskapa 3D vägscener, med videosekvenser från simulerade miljöer såväl som verkliga bilder tagna med kamerorna från en Volvobil. För att utvärdera effektiviteten hos diverse rekonstruktionstekniker programmerades ett utvärderingsprogram.

Resultaten visade att COLMAP och DROID-SLAM kunde uppskatta kamerornas (som är monterade på Volvobilen) rörelsebanor med en felmarginal på decimeternivå. Vidare så lyckades teknikerna skapa 3D-rekonstruktioner av vägscener med potential för att kunna användas i ADAS i framtiden. Generellt sett nådde COLMAP högst prestanda, men de långa körningstiderna för denna teknik gör den opraktisk att använda i stor skala. Den teknik som visade sig vara minst lovande för ändamålet var NeRF-SLAM, som inte lyckades producera acceptabla 3D rekonstruktioner när samtliga kameror på Volvobilen användes. Slutligen visade DROID-SLAM störst potential för detta användningsområde. Trots att algoritmen användes utan större modifikationer, visade den förmågan att generera imponerande resultat med låga körningstider. Dock krävs ytterligare forskning och finjustering för att optimera DROID-SLAMs prestanda givet Volvo Cars system. (Less)
Please use this url to cite or link to this publication:
author
Ascard, Marcus LU and Movahedi, Farjam LU
supervisor
organization
course
FMAM05 20231
year
type
H2 - Master's Degree (Two Years)
subject
keywords
3D reconstruction, Visual SLAM, Pose evaluation, Point cloud evaluation, Road scenes
publication/series
Master's Theses in Mathematical Sciences
report number
LUTFMA-3510-2023
ISSN
1404-6342
other publication id
2023:E35
language
English
id
9127302
date added to LUP
2023-06-26 14:15:14
date last changed
2023-06-26 14:15:14
@misc{9127302,
  abstract     = {{3D reconstruction is a field in computer vision which has evolved rapidly as a result of the recent advancements in deep learning. As 3D reconstruction pipelines now can run in real-time, this has opened up new possibilities for teams developing Advanced Driver Assistance Systems (ADAS), which rely on the camera system of the vehicle to enhance the safety and driving experience. 

This thesis presents a comparative analysis of two state-of-the-art visual SLAM pipelines, DROID-SLAM and NeRF-SLAM, and the classical Structure-from-Motion system, COLMAP. The objective was to utilize the multi-camera system on a Volvo vehicle, and public datasets, to accurately estimate trajectories and generate annotatable 3D road scenes. To assess the performance of the three methods, an evaluation pipeline was developed. 

The results showed that COLMAP and DROID-SLAM can generate estimated trajectories with high accuracy when utilizing the Volvo vehicle's multi-camera system. Additionally, these systems were found to be capable of creating annotatable 3D road scenes, with some differences in quality and runtime efficiency. Generally, COLMAP demonstrated high-quality results, but its extensive runtimes makes it impractical to use at scale. The method found to be the least promising for Volvo Cars' use case was NeRF-SLAM, which failed to produce acceptable reconstructions using the multi-camera system. 

Conclusively, DROID-SLAM showed the most potential for Volvo Cars' use case out of the three methods evaluated in this thesis. Despite being predominantly used off-the-shelf, it demonstrated the ability to generate impressive results with low runtimes. Nevertheless, additional research and fine-tuning is needed to optimize its performance for Volvo Cars' setup.}},
  author       = {{Ascard, Marcus and Movahedi, Farjam}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Theses in Mathematical Sciences}},
  title        = {{Assessing the Efficiency of COLMAP, DROID-SLAM, and NeRF-SLAM in 3D Road Scene Reconstruction}},
  year         = {{2023}},
}