Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Robust Visual Localization through Covisibility-Guided 2D-3D Matching with Fused Descriptors

Lidholm, Johanna (2025) In Master’s Theses in Mathematical Sciences FMAM05 20242
Mathematics (Faculty of Engineering)
Abstract
In this thesis project we present a 2D-3D matching method leveraging fused local and global descriptors
for robust camera pose estimation. The query image is localized by incorporating a covisibility search
method to identify multiple candidate parts of the scene where the query camera is likely to be located.
The localization begins with a search that looks through database images, collect associated 3D points
and expands the 3D points through a covisibility expansion. The keypoints in the query image are
then matched to the expanded 3D points to compute a 6-DoF pose estimation. We achieve similar
results in terms of robustness as state-of-the-art methods on some established benchmarks. We also
present ablation studies of our... (More)
In this thesis project we present a 2D-3D matching method leveraging fused local and global descriptors
for robust camera pose estimation. The query image is localized by incorporating a covisibility search
method to identify multiple candidate parts of the scene where the query camera is likely to be located.
The localization begins with a search that looks through database images, collect associated 3D points
and expands the 3D points through a covisibility expansion. The keypoints in the query image are
then matched to the expanded 3D points to compute a 6-DoF pose estimation. We achieve similar
results in terms of robustness as state-of-the-art methods on some established benchmarks. We also
present ablation studies of our choices of hyperparameters as well as suggestions of improvements of
our method. (Less)
Popular Abstract (Swedish)
Hur kan man bäst bestämma varifrån en bild är tagen? Den frågan har blivit mer relevant de senaste åren
när krig och konflikter kommit närmare inpå. GPS-jamming är vanligt förekommande inom teknologisk
krigföring, vilket gör våra nuvarande positioneringssystem opålitliga. Inom autonoma fordon är frågan
högst relevant för att möjliggöra säker navigering i en föränderlig miljö. Även populärkulturellt har
frågan fått uppmärksamhet, inte minst genom spelet GeoGuessr, där målet är att bestämma en position
utifrån bilder från Google Street View. Oavsett användningsområde finns det många applikationer där
det är värdefullt att utifrån en bild kunna bestämma en kameras position och orientering på en karta.

En gren inom datorseende, kallad... (More)
Hur kan man bäst bestämma varifrån en bild är tagen? Den frågan har blivit mer relevant de senaste åren
när krig och konflikter kommit närmare inpå. GPS-jamming är vanligt förekommande inom teknologisk
krigföring, vilket gör våra nuvarande positioneringssystem opålitliga. Inom autonoma fordon är frågan
högst relevant för att möjliggöra säker navigering i en föränderlig miljö. Även populärkulturellt har
frågan fått uppmärksamhet, inte minst genom spelet GeoGuessr, där målet är att bestämma en position
utifrån bilder från Google Street View. Oavsett användningsområde finns det många applikationer där
det är värdefullt att utifrån en bild kunna bestämma en kameras position och orientering på en karta.

En gren inom datorseende, kallad visuell lokalisering, adresserar problemet med att bestämma position
och orientering av en kamera utifrån referensbilder och ett 3D punktmoln av den omgivande miljön.
För att göra detta används så kallade deskriptorer – informationsbärande datastrukturer som beskriver
distinkta punkter i en bild och kan användas för att hitta liknande punkter i en annan bild. En deskriptor
från exempelvis ett hörn på en byggnad i en referensbild kan användas för att hitta motsvarande hörn i
en annan bild.

Det ledande sättet att utföra visuell lokalisering sker genom så kallad hierarkisk lokalisering. Där
hämtas bilder från referensbilderna som liknar bilden vi önskar lokalisera. Deskriptorerna från dessa
bilder jämförs sedan med deskriptorerna i bilden som ska lokaliseras för att hitta motsvarigheter. När
motsvarigheter hittats kan vi estimera positionen och orienteringen på kameran som tog bilden.
Hierarkisk lokalisering kräver att deskriptorerna från referensbilderna sparas. Dessa kräver dock hög
minnesanvändning. Denna masteruppsats ämnar att effektivt och precist kunna estimera en kameras
position och orientering utan att behöva spara alla deskriptorer.

Istället för att hitta motsvarigheter mellan bilder använder vi en deskriptor för att representera varje
3D-punkt i vår scen. Korrespondenser mellan vår bild och 3D-molnet kan direkt bestämmas genom att
jämföra deskriptorerna i vår bild med 3D-deskriptorerna. Detta, kombinerat med en utvecklad sökmetod, genererar liknande robusthet som hierarkisk lokalisering. Vår metod visar sig dock ha svårare att prestera precisionsmässigt på nivå med hierarkisk lokalisering. (Less)
Please use this url to cite or link to this publication:
author
Lidholm, Johanna
supervisor
organization
course
FMAM05 20242
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Visual localization, direct matching, image retrieval
publication/series
Master’s Theses in Mathematical Sciences
report number
2025:E18
ISSN
1404-6342
other publication id
LUTFMA-3574-2025
language
English
id
9191414
date added to LUP
2025-06-11 10:35:48
date last changed
2025-06-11 10:35:48
@misc{9191414,
  abstract     = {{In this thesis project we present a 2D-3D matching method leveraging fused local and global descriptors
for robust camera pose estimation. The query image is localized by incorporating a covisibility search
method to identify multiple candidate parts of the scene where the query camera is likely to be located.
The localization begins with a search that looks through database images, collect associated 3D points
and expands the 3D points through a covisibility expansion. The keypoints in the query image are
then matched to the expanded 3D points to compute a 6-DoF pose estimation. We achieve similar
results in terms of robustness as state-of-the-art methods on some established benchmarks. We also
present ablation studies of our choices of hyperparameters as well as suggestions of improvements of
our method.}},
  author       = {{Lidholm, Johanna}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master’s Theses in Mathematical Sciences}},
  title        = {{Robust Visual Localization through Covisibility-Guided 2D-3D Matching with Fused Descriptors}},
  year         = {{2025}},
}