Diffusion Models: A Survey and Their Role in Limited Data Scenarios

Lundquist, Oscar; Larsson, Kim

Diffusion Models: A Survey and Their Role in Limited Data Scenarios

Mark

Lundquist, Oscar ^LU and Larsson, Kim (2025) In Master's Theses in Mathematical Sciences FMSM01 20251
Mathematical Statistics

Abstract: Diffusion models have emerged as powerful generative modeling frameworks, excelling at producing state-of-the-art high-quality, diverse data samples across various domains. Although slightly suffering from slow sampling speed compared to other predominant approaches, various methods such as implicit and latent methods have addressed this issue.

In many machine learning algorithms, including diffusion models, the availability and size of training datasets is a critical factor in their performance. This presents challenges in limited-data scenarios commonly encountered in specialized fields such as with medical data. This thesis comprehensively surveys diffusion models, analyzing their mathematical foundations, architectural innovations,... (More); Diffusion models have emerged as powerful generative modeling frameworks, excelling at producing state-of-the-art high-quality, diverse data samples across various domains. Although slightly suffering from slow sampling speed compared to other predominant approaches, various methods such as implicit and latent methods have addressed this issue.

In many machine learning algorithms, including diffusion models, the availability and size of training datasets is a critical factor in their performance. This presents challenges in limited-data scenarios commonly encountered in specialized fields such as with medical data. This thesis comprehensively surveys diffusion models, analyzing their mathematical foundations, architectural innovations, and application domains, while specifically addressing their capabilities and limitations in low-data contexts.

Through empirical evaluations on the standard image datasets CIFAR-10 and MNIST, and medical tabular data, we systematically investigate how dataset size influences diffusion model performance. Furthermore, we explore their potential in augmenting scarce datasets through data synthesis, evaluating the effectiveness of diffusion-augmented classification tasks. Our findings indicate that in several limited-data scenarios, integrating synthetic samples generated by diffusion models enhances classification accuracy, underscoring their practical utility in real-world, data-constrained environments. (Less)
Popular Abstract (Swedish): Tänk dig att du vill lära en dator att känna igen sjukdomar från medicinska bilder, men bara har tillgång till ett fåtal patienter med dessa sjukdomar. Eller att du vill utveckla AI för specialiserade industriapplikationer där datan är dyr och svår att samla in. Vad gör du då? Det är det här vårt examensarbete handlar om: att använda avancerade AI-modeller, så kallade diffusion-modeller, för att generera ny och realistisk data när man bara har tillgång till begränsade dataset.

Diffusion-modeller är en typ av maskininlärningsmodell som nyligen fått stor uppmärksamhet tack vare deras förmåga att skapa realistiska bilder och data. Grundidén baseras på att stegvis sudda ut och sedan återskapa en bild så att AI-modellen därmed lär sig förstå... (More); Tänk dig att du vill lära en dator att känna igen sjukdomar från medicinska bilder, men bara har tillgång till ett fåtal patienter med dessa sjukdomar. Eller att du vill utveckla AI för specialiserade industriapplikationer där datan är dyr och svår att samla in. Vad gör du då? Det är det här vårt examensarbete handlar om: att använda avancerade AI-modeller, så kallade diffusion-modeller, för att generera ny och realistisk data när man bara har tillgång till begränsade dataset.

Diffusion-modeller är en typ av maskininlärningsmodell som nyligen fått stor uppmärksamhet tack vare deras förmåga att skapa realistiska bilder och data. Grundidén baseras på att stegvis sudda ut och sedan återskapa en bild så att AI-modellen därmed lär sig förstå hur data förändras när brus tillförs och tas bort igen. Genom att lära sig att iterativt ta bort brus från suddiga bilder kan modellen sedan generera helt nya exempel på bilder eller andra datatyper från rent brus.

I vårt arbete har vi undersökt hur effektivt dessa diffusion-modeller fungerar när man har väldigt lite data att träna på, vilket är vanligt inom områden som medicin, biologi eller andra fält där datainsamling är komplicerad och dyr. Vi har särskilt fokuserat på två olika scenarier: bilddata, där majoriteten av utvecklingen av diffusion-modeller utvecklats, och tabulär medicinsk data.

Resultaten från experimenten visar att diffusion-modeller kan hjälpa till att öka kvaliteten på andra AI-system när tillgången på data är begränsad, i vissa fall. Genom att förstärka begränsade datasetet med konstgjorda exempel, skapade av diffusion-modellerna, blev i dessa fallen AI-systemen bättre på att klassificera bilder och medicinsk data. AI-systemens uppgifter utgjordes av två fall: det första fallet var att avgöra vilket nummer en handskriven siffra på en bild var och det andra fallet var att förutspå om en patient har en viss sjukdom eller inte baserat på dess medicinska historia. Resultaten visade att AI-modeller tränade med både äkta och diffusion-genererad data presterade bättre än de som tränats enbart på det lilla ursprungliga original-datasetet för vissa begränsade dataset, medan andra begränsade dataset inte uppvisade någon förbättring med extra diffusion-genererad data.

Upptäckten från experimenten pekar alltså på att diffusion-modeller har en tydlig potential i verkliga applikationer där bristen på data tidigare har varit en stor utmaning. Detta öppnar dörrar för bättre AI-lösningar, som bättre diagnoser inom sjukvården, där insamling av data annars vore svår, kostsam eller rent av omöjlig och syntetisk data från diffusion-modeller kan förbättra diagonstiken.

En spännande detalj är att vinsten från diffusion-modellerna är som allra störst när datasetet är extremt litet. Det är då tillägget av den genererade datan till de andra AI-systemen har som störst effekt. Hypotesen var att diffusion-modellerna skulle introducera artifakter i dessa små dataset, men experimenten visar att diffusion-modellerna i vissa fall även kan hantera små dataset. Det här innebär att modellerna potientiellt kan fungera bra i fall där det finns extremt lite data, vilket är ett hoppfullt resultat som kan betyda mycket för framtidens forskning och praktiska AI-tillämpningar. (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/9210579

author

Lundquist, Oscar ^LU and Larsson, Kim

supervisor

Andreas Jakobsson ^LU

organization

Mathematical Statistics

course

FMSM01 20251

year

2025

type

H2 - Master's Degree (Two Years)

subject

Mathematics and Statistics

keywords

Diffusion Models, Generative Modeling, Data Limitations, Data Augmentation, Data Synthesizing

publication/series

Master's Theses in Mathematical Sciences

report number

LUTFMS-3541-2025

ISSN

1404-6342

other publication id

2025:E96

language

English

id

9210579

date added to LUP

2025-08-29 13:59:04

date last changed

2025-10-02 16:56:03

@misc{9210579,
  abstract     = {{Diffusion models have emerged as powerful generative modeling frameworks, excelling at producing state-of-the-art high-quality, diverse data samples across various domains. Although slightly suffering from slow sampling speed compared to other predominant approaches, various methods such as implicit and latent methods have addressed this issue.

In many machine learning algorithms, including diffusion models, the availability and size of training datasets is a critical factor in their performance. This presents challenges in limited-data scenarios commonly encountered in specialized fields such as with medical data. This thesis comprehensively surveys diffusion models, analyzing their mathematical foundations, architectural innovations, and application domains, while specifically addressing their capabilities and limitations in low-data contexts.

Through empirical evaluations on the standard image datasets CIFAR-10 and MNIST, and medical tabular data, we systematically investigate how dataset size influences diffusion model performance. Furthermore, we explore their potential in augmenting scarce datasets through data synthesis, evaluating the effectiveness of diffusion-augmented classification tasks. Our findings indicate that in several limited-data scenarios, integrating synthetic samples generated by diffusion models enhances classification accuracy, underscoring their practical utility in real-world, data-constrained environments.}},
  author       = {{Lundquist, Oscar and Larsson, Kim}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Theses in Mathematical Sciences}},
  title        = {{Diffusion Models: A Survey and Their Role in Limited Data Scenarios}},
  year         = {{2025}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Diffusion Models: A Survey and Their Role in Limited Data Scenarios