Robust Visual Localization through Covisibility-Guided 2D-3D Matching with Fused Descriptors

Lidholm, Johanna

Robust Visual Localization through Covisibility-Guided 2D-3D Matching with Fused Descriptors

Mark

Lidholm, Johanna (2025) In Master’s Theses in Mathematical Sciences FMAM05 20242
Mathematics (Faculty of Engineering)

Abstract: In this thesis project we present a 2D-3D matching method leveraging fused local and global descriptors
for robust camera pose estimation. The query image is localized by incorporating a covisibility search
method to identify multiple candidate parts of the scene where the query camera is likely to be located.
The localization begins with a search that looks through database images, collect associated 3D points
and expands the 3D points through a covisibility expansion. The keypoints in the query image are
then matched to the expanded 3D points to compute a 6-DoF pose estimation. We achieve similar
results in terms of robustness as state-of-the-art methods on some established benchmarks. We also
present ablation studies of our... (More); In this thesis project we present a 2D-3D matching method leveraging fused local and global descriptors
for robust camera pose estimation. The query image is localized by incorporating a covisibility search
method to identify multiple candidate parts of the scene where the query camera is likely to be located.
The localization begins with a search that looks through database images, collect associated 3D points
and expands the 3D points through a covisibility expansion. The keypoints in the query image are
then matched to the expanded 3D points to compute a 6-DoF pose estimation. We achieve similar
results in terms of robustness as state-of-the-art methods on some established benchmarks. We also
present ablation studies of our choices of hyperparameters as well as suggestions of improvements of
our method. (Less)
Popular Abstract (Swedish): Hur kan man bäst bestämma varifrån en bild är tagen? Den frågan har blivit mer relevant de senaste åren
när krig och konflikter kommit närmare inpå. GPS-jamming är vanligt förekommande inom teknologisk
krigföring, vilket gör våra nuvarande positioneringssystem opålitliga. Inom autonoma fordon är frågan
högst relevant för att möjliggöra säker navigering i en föränderlig miljö. Även populärkulturellt har
frågan fått uppmärksamhet, inte minst genom spelet GeoGuessr, där målet är att bestämma en position
utifrån bilder från Google Street View. Oavsett användningsområde finns det många applikationer där
det är värdefullt att utifrån en bild kunna bestämma en kameras position och orientering på en karta.

En gren inom datorseende, kallad... (More); Hur kan man bäst bestämma varifrån en bild är tagen? Den frågan har blivit mer relevant de senaste åren
när krig och konflikter kommit närmare inpå. GPS-jamming är vanligt förekommande inom teknologisk
krigföring, vilket gör våra nuvarande positioneringssystem opålitliga. Inom autonoma fordon är frågan
högst relevant för att möjliggöra säker navigering i en föränderlig miljö. Även populärkulturellt har
frågan fått uppmärksamhet, inte minst genom spelet GeoGuessr, där målet är att bestämma en position
utifrån bilder från Google Street View. Oavsett användningsområde finns det många applikationer där
det är värdefullt att utifrån en bild kunna bestämma en kameras position och orientering på en karta.

En gren inom datorseende, kallad visuell lokalisering, adresserar problemet med att bestämma position
och orientering av en kamera utifrån referensbilder och ett 3D punktmoln av den omgivande miljön.
För att göra detta används så kallade deskriptorer – informationsbärande datastrukturer som beskriver
distinkta punkter i en bild och kan användas för att hitta liknande punkter i en annan bild. En deskriptor
från exempelvis ett hörn på en byggnad i en referensbild kan användas för att hitta motsvarande hörn i
en annan bild.

Det ledande sättet att utföra visuell lokalisering sker genom så kallad hierarkisk lokalisering. Där
hämtas bilder från referensbilderna som liknar bilden vi önskar lokalisera. Deskriptorerna från dessa
bilder jämförs sedan med deskriptorerna i bilden som ska lokaliseras för att hitta motsvarigheter. När
motsvarigheter hittats kan vi estimera positionen och orienteringen på kameran som tog bilden.
Hierarkisk lokalisering kräver att deskriptorerna från referensbilderna sparas. Dessa kräver dock hög
minnesanvändning. Denna masteruppsats ämnar att effektivt och precist kunna estimera en kameras
position och orientering utan att behöva spara alla deskriptorer.

Istället för att hitta motsvarigheter mellan bilder använder vi en deskriptor för att representera varje
3D-punkt i vår scen. Korrespondenser mellan vår bild och 3D-molnet kan direkt bestämmas genom att
jämföra deskriptorerna i vår bild med 3D-deskriptorerna. Detta, kombinerat med en utvecklad sökmetod, genererar liknande robusthet som hierarkisk lokalisering. Vår metod visar sig dock ha svårare att prestera precisionsmässigt på nivå med hierarkisk lokalisering. (Less)

- Open Access
- |
- PDF

Links

Document download statistics

Related Materials

Related object is popular science:
popular Science summary

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/9191414

author

Lidholm, Johanna

supervisor

Viktor Larsson ^LU
Ludvig Dillén ^LU

organization

Mathematics (Faculty of Engineering)

course

FMAM05 20242

year

2025

type

H2 - Master's Degree (Two Years)

subject

Technology and Engineering

keywords

Visual localization, direct matching, image retrieval

publication/series

Master’s Theses in Mathematical Sciences

report number

2025:E18

ISSN

1404-6342

other publication id

LUTFMA-3574-2025

language

English

id

9191414

date added to LUP

2025-06-11 10:35:48

date last changed

2025-06-11 10:35:48

@misc{9191414,
  abstract     = {{In this thesis project we present a 2D-3D matching method leveraging fused local and global descriptors
for robust camera pose estimation. The query image is localized by incorporating a covisibility search
method to identify multiple candidate parts of the scene where the query camera is likely to be located.
The localization begins with a search that looks through database images, collect associated 3D points
and expands the 3D points through a covisibility expansion. The keypoints in the query image are
then matched to the expanded 3D points to compute a 6-DoF pose estimation. We achieve similar
results in terms of robustness as state-of-the-art methods on some established benchmarks. We also
present ablation studies of our choices of hyperparameters as well as suggestions of improvements of
our method.}},
  author       = {{Lidholm, Johanna}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master’s Theses in Mathematical Sciences}},
  title        = {{Robust Visual Localization through Covisibility-Guided 2D-3D Matching with Fused Descriptors}},
  year         = {{2025}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Robust Visual Localization through Covisibility-Guided 2D-3D Matching with Fused Descriptors