Robust Visual Localization through Covisibility-Guided 2D-3D Matching with Fused Descriptors
(2025) In Master’s Theses in Mathematical Sciences FMAM05 20242Mathematics (Faculty of Engineering)
- Abstract
- In this thesis project we present a 2D-3D matching method leveraging fused local and global descriptors
for robust camera pose estimation. The query image is localized by incorporating a covisibility search
method to identify multiple candidate parts of the scene where the query camera is likely to be located.
The localization begins with a search that looks through database images, collect associated 3D points
and expands the 3D points through a covisibility expansion. The keypoints in the query image are
then matched to the expanded 3D points to compute a 6-DoF pose estimation. We achieve similar
results in terms of robustness as state-of-the-art methods on some established benchmarks. We also
present ablation studies of our... (More) - In this thesis project we present a 2D-3D matching method leveraging fused local and global descriptors
for robust camera pose estimation. The query image is localized by incorporating a covisibility search
method to identify multiple candidate parts of the scene where the query camera is likely to be located.
The localization begins with a search that looks through database images, collect associated 3D points
and expands the 3D points through a covisibility expansion. The keypoints in the query image are
then matched to the expanded 3D points to compute a 6-DoF pose estimation. We achieve similar
results in terms of robustness as state-of-the-art methods on some established benchmarks. We also
present ablation studies of our choices of hyperparameters as well as suggestions of improvements of
our method. (Less) - Popular Abstract (Swedish)
- Hur kan man bäst bestämma varifrån en bild är tagen? Den frågan har blivit mer relevant de senaste åren
när krig och konflikter kommit närmare inpå. GPS-jamming är vanligt förekommande inom teknologisk
krigföring, vilket gör våra nuvarande positioneringssystem opålitliga. Inom autonoma fordon är frågan
högst relevant för att möjliggöra säker navigering i en föränderlig miljö. Även populärkulturellt har
frågan fått uppmärksamhet, inte minst genom spelet GeoGuessr, där målet är att bestämma en position
utifrån bilder från Google Street View. Oavsett användningsområde finns det många applikationer där
det är värdefullt att utifrån en bild kunna bestämma en kameras position och orientering på en karta.
En gren inom datorseende, kallad... (More) - Hur kan man bäst bestämma varifrån en bild är tagen? Den frågan har blivit mer relevant de senaste åren
när krig och konflikter kommit närmare inpå. GPS-jamming är vanligt förekommande inom teknologisk
krigföring, vilket gör våra nuvarande positioneringssystem opålitliga. Inom autonoma fordon är frågan
högst relevant för att möjliggöra säker navigering i en föränderlig miljö. Även populärkulturellt har
frågan fått uppmärksamhet, inte minst genom spelet GeoGuessr, där målet är att bestämma en position
utifrån bilder från Google Street View. Oavsett användningsområde finns det många applikationer där
det är värdefullt att utifrån en bild kunna bestämma en kameras position och orientering på en karta.
En gren inom datorseende, kallad visuell lokalisering, adresserar problemet med att bestämma position
och orientering av en kamera utifrån referensbilder och ett 3D punktmoln av den omgivande miljön.
För att göra detta används så kallade deskriptorer – informationsbärande datastrukturer som beskriver
distinkta punkter i en bild och kan användas för att hitta liknande punkter i en annan bild. En deskriptor
från exempelvis ett hörn på en byggnad i en referensbild kan användas för att hitta motsvarande hörn i
en annan bild.
Det ledande sättet att utföra visuell lokalisering sker genom så kallad hierarkisk lokalisering. Där
hämtas bilder från referensbilderna som liknar bilden vi önskar lokalisera. Deskriptorerna från dessa
bilder jämförs sedan med deskriptorerna i bilden som ska lokaliseras för att hitta motsvarigheter. När
motsvarigheter hittats kan vi estimera positionen och orienteringen på kameran som tog bilden.
Hierarkisk lokalisering kräver att deskriptorerna från referensbilderna sparas. Dessa kräver dock hög
minnesanvändning. Denna masteruppsats ämnar att effektivt och precist kunna estimera en kameras
position och orientering utan att behöva spara alla deskriptorer.
Istället för att hitta motsvarigheter mellan bilder använder vi en deskriptor för att representera varje
3D-punkt i vår scen. Korrespondenser mellan vår bild och 3D-molnet kan direkt bestämmas genom att
jämföra deskriptorerna i vår bild med 3D-deskriptorerna. Detta, kombinerat med en utvecklad sökmetod, genererar liknande robusthet som hierarkisk lokalisering. Vår metod visar sig dock ha svårare att prestera precisionsmässigt på nivå med hierarkisk lokalisering. (Less)
Please use this url to cite or link to this publication:
http://lup.lub.lu.se/student-papers/record/9191414
- author
- Lidholm, Johanna
- supervisor
-
- Viktor Larsson LU
- Ludvig Dillén LU
- organization
- course
- FMAM05 20242
- year
- 2025
- type
- H2 - Master's Degree (Two Years)
- subject
- keywords
- Visual localization, direct matching, image retrieval
- publication/series
- Master’s Theses in Mathematical Sciences
- report number
- 2025:E18
- ISSN
- 1404-6342
- other publication id
- LUTFMA-3574-2025
- language
- English
- id
- 9191414
- date added to LUP
- 2025-06-11 10:35:48
- date last changed
- 2025-06-11 10:35:48
@misc{9191414, abstract = {{In this thesis project we present a 2D-3D matching method leveraging fused local and global descriptors for robust camera pose estimation. The query image is localized by incorporating a covisibility search method to identify multiple candidate parts of the scene where the query camera is likely to be located. The localization begins with a search that looks through database images, collect associated 3D points and expands the 3D points through a covisibility expansion. The keypoints in the query image are then matched to the expanded 3D points to compute a 6-DoF pose estimation. We achieve similar results in terms of robustness as state-of-the-art methods on some established benchmarks. We also present ablation studies of our choices of hyperparameters as well as suggestions of improvements of our method.}}, author = {{Lidholm, Johanna}}, issn = {{1404-6342}}, language = {{eng}}, note = {{Student Paper}}, series = {{Master’s Theses in Mathematical Sciences}}, title = {{Robust Visual Localization through Covisibility-Guided 2D-3D Matching with Fused Descriptors}}, year = {{2025}}, }