Representations of Graphs and Their Impact on Graph Neural Networks

Möller, Tobias

Representations of Graphs and Their Impact on Graph Neural Networks

Mark

Möller, Tobias ^LU (2025) In Master's Theses in Mathematical Sciences FMAM05 20251
Mathematics (Faculty of Engineering)

Abstract: Graph Neural Networks (GNNs) are increasingly used for predictive tasks on data where relationships between
entities are best represented as graphs. Much work has been done to improve GNN architectures, but how the ac-
tual data graph should be designed is not well studied. In this Master’s Thesis, we investigate how different graph
representations, specifically node classification and link prediction representations, impact the performance of
GNN models (GraphSAGE, GAT, HAN) across datasets with varying characteristics (label homophily, hetero-
geneity, and multi-labeled datasets). To ensure a fair comparison, models for both representations are designed
with similar architectures and evaluated using identical data splits.... (More); Graph Neural Networks (GNNs) are increasingly used for predictive tasks on data where relationships between
entities are best represented as graphs. Much work has been done to improve GNN architectures, but how the ac-
tual data graph should be designed is not well studied. In this Master’s Thesis, we investigate how different graph
representations, specifically node classification and link prediction representations, impact the performance of
GNN models (GraphSAGE, GAT, HAN) across datasets with varying characteristics (label homophily, hetero-
geneity, and multi-labeled datasets). To ensure a fair comparison, models for both representations are designed
with similar architectures and evaluated using identical data splits. Experiments using common node classifica-
tion benchmark datasets show that the node classification representation is preferred in most cases. However,
link prediction representations show advantages on graphs with high homophily and lower node degrees. This
study provides practical guidelines for selecting suitable graph representations for predictive tasks on graphs,
and suggests directions for future research on the topic. (Less)
Popular Abstract (Swedish): Hur lär AI bäst av grafdata?

Genom att strukturera data som matematiska grafer kan vi låta AI lära sig relationer mellan allt från vetenskapliga artiklar till personer i ett socialt nätverk. Men hur graferna ska designas kan visa sig vara avgörande för hur väl dessa AI-modeller presterar.

Majoriteten av världens data är sparad i relationsdatabaser. Dessa består av tabeller där varje datapunkt är en rad, vilket fungerar bra så länge datapunkterna inte beror på andra datapunkter. Men när det finns många relationer, som i ett socialt nätverk till exempel, där varje användare har relationer med andra användare, passar grafdatabaser bättre. Dessa består av noder som är ihopkopplade av kanter, där noderna representerar datapunkter och... (More); Hur lär AI bäst av grafdata?

Genom att strukturera data som matematiska grafer kan vi låta AI lära sig relationer mellan allt från vetenskapliga artiklar till personer i ett socialt nätverk. Men hur graferna ska designas kan visa sig vara avgörande för hur väl dessa AI-modeller presterar.

Majoriteten av världens data är sparad i relationsdatabaser. Dessa består av tabeller där varje datapunkt är en rad, vilket fungerar bra så länge datapunkterna inte beror på andra datapunkter. Men när det finns många relationer, som i ett socialt nätverk till exempel, där varje användare har relationer med andra användare, passar grafdatabaser bättre. Dessa består av noder som är ihopkopplade av kanter, där noderna representerar datapunkter och kanterna representerar relationer. Under de två senaste decennierna har man börjat applicera AI på denna sortens grafer, och fått modeller att lära sig relationer mellan datapunkter. Detta används bland annat för att klassificera datapunkter, som t.ex. att hitta bottar i användarbaser, eller för att hitta nya relationer.

Men grafer kan skapas på väldigt många olika sätt! Man kan ha flera olika sorters noder och välja att varje sorts information ska representeras av en specifik nodtyp, eller så kan man baka in så mycket information som möjligt i få nodtyper. Olika layouter på grafdatabaser kommer att göra det olika lätt för en AI-modell att lära sig relationerna i datan. Vi har i detta projekt valt ut två layouter för grafdatabaser, och sett hur väl AI-modeller presterar på dessa. En av layouterna kan ses som det vanliga sättet att utforma en grafdatabas på idag, bl.a. IMDB använder denna layout, medan den andra layouten är en som vi utformat själva.

Utifrån experiment kunde vi dra slutsatsen att hur grafdatabasen är utformad starkt påverkar hur väl AI:n presterar. Vi kunde också se att det inte alltid var standardlayouten som presterade bäst. För ett antal dataset var layouten som vi föreslog den bästa. Det visade sig att informationens egenskaper, som till exempel hur många relationer det finns mellan olika datapunkter, påverkar vilken layout som är bäst.

Då detta ämne inte diskuterats tidigare tillför arbetet ny information i fältet, och kan förhoppningsvis inspirera liknande arbeten. Våra fynd kan fungera som riktlinjer för personer som jobbar med data och AI. När exempelvis Data Scientists ska designa en grafdatabas och sedan använda AI på den, kan de på förhand jämföra egenskaperna på deras data och på de dataset vi undersökt, kolla hur väl de båda layouterna presterade, och utifrån det veta vilken layout som är bäst att använda. (Less)

- Open Access
- |
- PDF

Links

Document download statistics

Related Materials

Related object is popular science:
Popular Abstract

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/9187673

author

Möller, Tobias ^LU

supervisor

Alexandros Sopasakis ^LU
Donglin Liu ^LU

organization

Mathematics (Faculty of Engineering)

course

FMAM05 20251

year

2025

type

H2 - Master's Degree (Two Years)

subject

Mathematics and Statistics

keywords

Graph Machine Learning, Graph Neural Networks, GNN, Graph Representation Learning, Graph Representations, Link Prediction, Node Classification, Graph Attention Network, Heterogeneous Graphs, Homogeneous Graphs, Neo4j, Graph Database

publication/series

Master's Theses in Mathematical Sciences

report number

LUTFMA-3572-2025

ISSN

1404-6342

other publication id

2025:E15

language

English

id

9187673

date added to LUP

2025-08-05 12:46:06

date last changed

2025-08-05 12:46:06

@misc{9187673,
  abstract     = {{Graph Neural Networks (GNNs) are increasingly used for predictive tasks on data where relationships between
entities are best represented as graphs. Much work has been done to improve GNN architectures, but how the ac-
tual data graph should be designed is not well studied. In this Master’s Thesis, we investigate how different graph
representations, specifically node classification and link prediction representations, impact the performance of
GNN models (GraphSAGE, GAT, HAN) across datasets with varying characteristics (label homophily, hetero-
geneity, and multi-labeled datasets). To ensure a fair comparison, models for both representations are designed
with similar architectures and evaluated using identical data splits. Experiments using common node classifica-
tion benchmark datasets show that the node classification representation is preferred in most cases. However,
link prediction representations show advantages on graphs with high homophily and lower node degrees. This
study provides practical guidelines for selecting suitable graph representations for predictive tasks on graphs,
and suggests directions for future research on the topic.}},
  author       = {{Möller, Tobias}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Theses in Mathematical Sciences}},
  title        = {{Representations of Graphs and Their Impact on Graph Neural Networks}},
  year         = {{2025}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Representations of Graphs and Their Impact on Graph Neural Networks