Representations of Graphs and Their Impact on Graph Neural Networks
(2025) In Master's Theses in Mathematical Sciences FMAM05 20251Mathematics (Faculty of Engineering)
- Abstract
- Graph Neural Networks (GNNs) are increasingly used for predictive tasks on data where relationships between
entities are best represented as graphs. Much work has been done to improve GNN architectures, but how the ac-
tual data graph should be designed is not well studied. In this Master’s Thesis, we investigate how different graph
representations, specifically node classification and link prediction representations, impact the performance of
GNN models (GraphSAGE, GAT, HAN) across datasets with varying characteristics (label homophily, hetero-
geneity, and multi-labeled datasets). To ensure a fair comparison, models for both representations are designed
with similar architectures and evaluated using identical data splits.... (More) - Graph Neural Networks (GNNs) are increasingly used for predictive tasks on data where relationships between
entities are best represented as graphs. Much work has been done to improve GNN architectures, but how the ac-
tual data graph should be designed is not well studied. In this Master’s Thesis, we investigate how different graph
representations, specifically node classification and link prediction representations, impact the performance of
GNN models (GraphSAGE, GAT, HAN) across datasets with varying characteristics (label homophily, hetero-
geneity, and multi-labeled datasets). To ensure a fair comparison, models for both representations are designed
with similar architectures and evaluated using identical data splits. Experiments using common node classifica-
tion benchmark datasets show that the node classification representation is preferred in most cases. However,
link prediction representations show advantages on graphs with high homophily and lower node degrees. This
study provides practical guidelines for selecting suitable graph representations for predictive tasks on graphs,
and suggests directions for future research on the topic. (Less) - Popular Abstract (Swedish)
- Hur lär AI bäst av grafdata?
Genom att strukturera data som matematiska grafer kan vi låta AI lära sig relationer mellan allt från vetenskapliga artiklar till personer i ett socialt nätverk. Men hur graferna ska designas kan visa sig vara avgörande för hur väl dessa AI-modeller presterar.
Majoriteten av världens data är sparad i relationsdatabaser. Dessa består av tabeller där varje datapunkt är en rad, vilket fungerar bra så länge datapunkterna inte beror på andra datapunkter. Men när det finns många relationer, som i ett socialt nätverk till exempel, där varje användare har relationer med andra användare, passar grafdatabaser bättre. Dessa består av noder som är ihopkopplade av kanter, där noderna representerar datapunkter och... (More) - Hur lär AI bäst av grafdata?
Genom att strukturera data som matematiska grafer kan vi låta AI lära sig relationer mellan allt från vetenskapliga artiklar till personer i ett socialt nätverk. Men hur graferna ska designas kan visa sig vara avgörande för hur väl dessa AI-modeller presterar.
Majoriteten av världens data är sparad i relationsdatabaser. Dessa består av tabeller där varje datapunkt är en rad, vilket fungerar bra så länge datapunkterna inte beror på andra datapunkter. Men när det finns många relationer, som i ett socialt nätverk till exempel, där varje användare har relationer med andra användare, passar grafdatabaser bättre. Dessa består av noder som är ihopkopplade av kanter, där noderna representerar datapunkter och kanterna representerar relationer. Under de två senaste decennierna har man börjat applicera AI på denna sortens grafer, och fått modeller att lära sig relationer mellan datapunkter. Detta används bland annat för att klassificera datapunkter, som t.ex. att hitta bottar i användarbaser, eller för att hitta nya relationer.
Men grafer kan skapas på väldigt många olika sätt! Man kan ha flera olika sorters noder och välja att varje sorts information ska representeras av en specifik nodtyp, eller så kan man baka in så mycket information som möjligt i få nodtyper. Olika layouter på grafdatabaser kommer att göra det olika lätt för en AI-modell att lära sig relationerna i datan. Vi har i detta projekt valt ut två layouter för grafdatabaser, och sett hur väl AI-modeller presterar på dessa. En av layouterna kan ses som det vanliga sättet att utforma en grafdatabas på idag, bl.a. IMDB använder denna layout, medan den andra layouten är en som vi utformat själva.
Utifrån experiment kunde vi dra slutsatsen att hur grafdatabasen är utformad starkt påverkar hur väl AI:n presterar. Vi kunde också se att det inte alltid var standardlayouten som presterade bäst. För ett antal dataset var layouten som vi föreslog den bästa. Det visade sig att informationens egenskaper, som till exempel hur många relationer det finns mellan olika datapunkter, påverkar vilken layout som är bäst.
Då detta ämne inte diskuterats tidigare tillför arbetet ny information i fältet, och kan förhoppningsvis inspirera liknande arbeten. Våra fynd kan fungera som riktlinjer för personer som jobbar med data och AI. När exempelvis Data Scientists ska designa en grafdatabas och sedan använda AI på den, kan de på förhand jämföra egenskaperna på deras data och på de dataset vi undersökt, kolla hur väl de båda layouterna presterade, och utifrån det veta vilken layout som är bäst att använda. (Less)
Please use this url to cite or link to this publication:
http://lup.lub.lu.se/student-papers/record/9187673
- author
- Möller, Tobias LU
- supervisor
- organization
- course
- FMAM05 20251
- year
- 2025
- type
- H2 - Master's Degree (Two Years)
- subject
- keywords
- Graph Machine Learning, Graph Neural Networks, GNN, Graph Representation Learning, Graph Representations, Link Prediction, Node Classification, Graph Attention Network, Heterogeneous Graphs, Homogeneous Graphs, Neo4j, Graph Database
- publication/series
- Master's Theses in Mathematical Sciences
- report number
- LUTFMA-3572-2025
- ISSN
- 1404-6342
- other publication id
- 2025:E15
- language
- English
- id
- 9187673
- date added to LUP
- 2025-08-05 12:46:06
- date last changed
- 2025-08-05 12:46:06
@misc{9187673, abstract = {{Graph Neural Networks (GNNs) are increasingly used for predictive tasks on data where relationships between entities are best represented as graphs. Much work has been done to improve GNN architectures, but how the ac- tual data graph should be designed is not well studied. In this Master’s Thesis, we investigate how different graph representations, specifically node classification and link prediction representations, impact the performance of GNN models (GraphSAGE, GAT, HAN) across datasets with varying characteristics (label homophily, hetero- geneity, and multi-labeled datasets). To ensure a fair comparison, models for both representations are designed with similar architectures and evaluated using identical data splits. Experiments using common node classifica- tion benchmark datasets show that the node classification representation is preferred in most cases. However, link prediction representations show advantages on graphs with high homophily and lower node degrees. This study provides practical guidelines for selecting suitable graph representations for predictive tasks on graphs, and suggests directions for future research on the topic.}}, author = {{Möller, Tobias}}, issn = {{1404-6342}}, language = {{eng}}, note = {{Student Paper}}, series = {{Master's Theses in Mathematical Sciences}}, title = {{Representations of Graphs and Their Impact on Graph Neural Networks}}, year = {{2025}}, }