Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Representations of Graphs and Their Impact on Graph Neural Networks

Möller, Tobias LU (2025) In Master's Theses in Mathematical Sciences FMAM05 20251
Mathematics (Faculty of Engineering)
Abstract
Graph Neural Networks (GNNs) are increasingly used for predictive tasks on data where relationships between
entities are best represented as graphs. Much work has been done to improve GNN architectures, but how the ac-
tual data graph should be designed is not well studied. In this Master’s Thesis, we investigate how different graph
representations, specifically node classification and link prediction representations, impact the performance of
GNN models (GraphSAGE, GAT, HAN) across datasets with varying characteristics (label homophily, hetero-
geneity, and multi-labeled datasets). To ensure a fair comparison, models for both representations are designed
with similar architectures and evaluated using identical data splits.... (More)
Graph Neural Networks (GNNs) are increasingly used for predictive tasks on data where relationships between
entities are best represented as graphs. Much work has been done to improve GNN architectures, but how the ac-
tual data graph should be designed is not well studied. In this Master’s Thesis, we investigate how different graph
representations, specifically node classification and link prediction representations, impact the performance of
GNN models (GraphSAGE, GAT, HAN) across datasets with varying characteristics (label homophily, hetero-
geneity, and multi-labeled datasets). To ensure a fair comparison, models for both representations are designed
with similar architectures and evaluated using identical data splits. Experiments using common node classifica-
tion benchmark datasets show that the node classification representation is preferred in most cases. However,
link prediction representations show advantages on graphs with high homophily and lower node degrees. This
study provides practical guidelines for selecting suitable graph representations for predictive tasks on graphs,
and suggests directions for future research on the topic. (Less)
Popular Abstract (Swedish)
Hur lär AI bäst av grafdata?

Genom att strukturera data som matematiska grafer kan vi låta AI lära sig relationer mellan allt från vetenskapliga artiklar till personer i ett socialt nätverk. Men hur graferna ska designas kan visa sig vara avgörande för hur väl dessa AI-modeller presterar.

Majoriteten av världens data är sparad i relationsdatabaser. Dessa består av tabeller där varje datapunkt är en rad, vilket fungerar bra så länge datapunkterna inte beror på andra datapunkter. Men när det finns många relationer, som i ett socialt nätverk till exempel, där varje användare har relationer med andra användare, passar grafdatabaser bättre. Dessa består av noder som är ihopkopplade av kanter, där noderna representerar datapunkter och... (More)
Hur lär AI bäst av grafdata?

Genom att strukturera data som matematiska grafer kan vi låta AI lära sig relationer mellan allt från vetenskapliga artiklar till personer i ett socialt nätverk. Men hur graferna ska designas kan visa sig vara avgörande för hur väl dessa AI-modeller presterar.

Majoriteten av världens data är sparad i relationsdatabaser. Dessa består av tabeller där varje datapunkt är en rad, vilket fungerar bra så länge datapunkterna inte beror på andra datapunkter. Men när det finns många relationer, som i ett socialt nätverk till exempel, där varje användare har relationer med andra användare, passar grafdatabaser bättre. Dessa består av noder som är ihopkopplade av kanter, där noderna representerar datapunkter och kanterna representerar relationer. Under de två senaste decennierna har man börjat applicera AI på denna sortens grafer, och fått modeller att lära sig relationer mellan datapunkter. Detta används bland annat för att klassificera datapunkter, som t.ex. att hitta bottar i användarbaser, eller för att hitta nya relationer.

Men grafer kan skapas på väldigt många olika sätt! Man kan ha flera olika sorters noder och välja att varje sorts information ska representeras av en specifik nodtyp, eller så kan man baka in så mycket information som möjligt i få nodtyper. Olika layouter på grafdatabaser kommer att göra det olika lätt för en AI-modell att lära sig relationerna i datan. Vi har i detta projekt valt ut två layouter för grafdatabaser, och sett hur väl AI-modeller presterar på dessa. En av layouterna kan ses som det vanliga sättet att utforma en grafdatabas på idag, bl.a. IMDB använder denna layout, medan den andra layouten är en som vi utformat själva.

Utifrån experiment kunde vi dra slutsatsen att hur grafdatabasen är utformad starkt påverkar hur väl AI:n presterar. Vi kunde också se att det inte alltid var standardlayouten som presterade bäst. För ett antal dataset var layouten som vi föreslog den bästa. Det visade sig att informationens egenskaper, som till exempel hur många relationer det finns mellan olika datapunkter, påverkar vilken layout som är bäst.

Då detta ämne inte diskuterats tidigare tillför arbetet ny information i fältet, och kan förhoppningsvis inspirera liknande arbeten. Våra fynd kan fungera som riktlinjer för personer som jobbar med data och AI. När exempelvis Data Scientists ska designa en grafdatabas och sedan använda AI på den, kan de på förhand jämföra egenskaperna på deras data och på de dataset vi undersökt, kolla hur väl de båda layouterna presterade, och utifrån det veta vilken layout som är bäst att använda. (Less)
Please use this url to cite or link to this publication:
author
Möller, Tobias LU
supervisor
organization
course
FMAM05 20251
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Graph Machine Learning, Graph Neural Networks, GNN, Graph Representation Learning, Graph Representations, Link Prediction, Node Classification, Graph Attention Network, Heterogeneous Graphs, Homogeneous Graphs, Neo4j, Graph Database
publication/series
Master's Theses in Mathematical Sciences
report number
LUTFMA-3572-2025
ISSN
1404-6342
other publication id
2025:E15
language
English
id
9187673
date added to LUP
2025-08-05 12:46:06
date last changed
2025-08-05 12:46:06
@misc{9187673,
  abstract     = {{Graph Neural Networks (GNNs) are increasingly used for predictive tasks on data where relationships between
entities are best represented as graphs. Much work has been done to improve GNN architectures, but how the ac-
tual data graph should be designed is not well studied. In this Master’s Thesis, we investigate how different graph
representations, specifically node classification and link prediction representations, impact the performance of
GNN models (GraphSAGE, GAT, HAN) across datasets with varying characteristics (label homophily, hetero-
geneity, and multi-labeled datasets). To ensure a fair comparison, models for both representations are designed
with similar architectures and evaluated using identical data splits. Experiments using common node classifica-
tion benchmark datasets show that the node classification representation is preferred in most cases. However,
link prediction representations show advantages on graphs with high homophily and lower node degrees. This
study provides practical guidelines for selecting suitable graph representations for predictive tasks on graphs,
and suggests directions for future research on the topic.}},
  author       = {{Möller, Tobias}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Theses in Mathematical Sciences}},
  title        = {{Representations of Graphs and Their Impact on Graph Neural Networks}},
  year         = {{2025}},
}