Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Distilling in the Dark: Effective Knowledge Distillation in LLMs Under Data Constraints

Sirin, Kaan Nadir LU (2025) In Master's Theses in Mathematical Sciences FMAM05 20251
Mathematics (Faculty of Engineering)
Abstract
Large language models (LLMs) have achieved remarkable capabilities but remain costly to deploy at scale. Knowledge distillation offers a way to transfer knowledge from large, high-capacity models into smaller, more efficient ones. This thesis investigates two key questions: (1) how specific design choices affect distillation performance, and (2) how distillation can be effectively performed in the absence of high-quality datasets. The first part of the thesis presents a systematic evaluation of distillation parameters. We show that forward KL divergence with a temperature of T = 1 consistently yields stronger student models than reverse KL or higher temperatures. Scaling the number of training examples further improves performance, and... (More)
Large language models (LLMs) have achieved remarkable capabilities but remain costly to deploy at scale. Knowledge distillation offers a way to transfer knowledge from large, high-capacity models into smaller, more efficient ones. This thesis investigates two key questions: (1) how specific design choices affect distillation performance, and (2) how distillation can be effectively performed in the absence of high-quality datasets. The first part of the thesis presents a systematic evaluation of distillation parameters. We show that forward KL divergence with a temperature of T = 1 consistently yields stronger student models than reverse KL or higher temperatures. Scaling the number of training examples further improves performance, and distilled models can match or outperform their undistilled counterparts on out-of-domain tasks. In the second part, we introduce a novel distillation method based on generation and sparse teacher logits. This approach enables effective knowledge transfer with as few as 320 examples and outperforms supervised fine-tuning. Among sparsification strategies, importance sampling proves superior to top-K even when using sparser distributions. Together, these results outline a practical and data-efficient strategy for distilling large models, even in settings with limited and low-quality data. (Less)
Popular Abstract (Swedish)
Att göra AI smart med små medel – ny metod utmanar gamla träningssätt

Under de senaste åren har det blivit allt tydligare att när tillräckligt stora språkmodeller tränas på enorma mängder text, lyckas de extrahera förvånansvärt mycket kunskap. Det leder till en rik representation av världen och en bred uppsättning färdigheter, vilket gör modellerna mycket användbara inom allt från att ge medicinska råd till att lösa matteproblem eller skriva kod. Men detta kommer med ett pris. Just den storlek som gör det möjligt för modeller att lära sig så rika representationer gör modellerna tunga och dyra att använda i praktiken. De kräver avancerad hårdvara, mycket minne och kan ändå vara långsamma.

Ett sätt att komma runt detta är att använda... (More)
Att göra AI smart med små medel – ny metod utmanar gamla träningssätt

Under de senaste åren har det blivit allt tydligare att när tillräckligt stora språkmodeller tränas på enorma mängder text, lyckas de extrahera förvånansvärt mycket kunskap. Det leder till en rik representation av världen och en bred uppsättning färdigheter, vilket gör modellerna mycket användbara inom allt från att ge medicinska råd till att lösa matteproblem eller skriva kod. Men detta kommer med ett pris. Just den storlek som gör det möjligt för modeller att lära sig så rika representationer gör modellerna tunga och dyra att använda i praktiken. De kräver avancerad hårdvara, mycket minne och kan ändå vara långsamma.

Ett sätt att komma runt detta är att använda knowledge distillation, eller kunskapsdistillering – en teknik som introducerades av AI-pionjären och Nobelpristagaren Geoffrey Hinton. I korthet går tekniken ut på att träna en mindre ”studentmodell” att efterlikna en större och mer kapabel ”lärarmodell”. Istället för att lära sig allt från början och direkt från råtext, tränas den mindre modellen på svaren från en större och mer kapabel lärare, baserat på ett gemensamt dataset. Det gör att studenten kan ta till sig mycket av lärarens kunskap och beteende, samtidigt som den är betydligt mer resurseffektiv.

Den här tekniken har på senare år blivit central i utvecklingen av moderna språkmodeller. Stora AI-företag som OpenAI, Meta och Google DeepMind använder distillering idag för att skapa mindre, smidigare versioner av sina mest avancerade modeller. Trots att tekniken är så spridd är det dock ofta oklart exakt hur den används, och vilka metoder som fungerar bäst. Syftet med vår studie är därmed att bättre förstå hur kunskapsdistillering fungerar i praktiken, och att utforska dess potential i mindre kartlagda områden.

I den första delen av studien undersöker vi hur olika designval – som hur den mindre modellen får vägledning eller hur man använder svaren från den större modellen – påverkar slutresultatet. Målet är att få en tydlig bild av vad som fungerar bra och vad som inte gör det, så att framtida studier inom området kan byggas på en stabil grund. Utöver att vi lägger den grunden visar vi också att en mindre modell kan förbättras avsevärt inom ett visst område – till exempel förståelse av svenska – utan att det påverkar dess förmåga inom andra områden som matematik eller programmering. Detta visar att det går att styra modellens inriktning utan att göra avkall på dess bredd.

Den andra delen av studien tar sig an en svårare fråga: hur destillerar man kunskap när man inte har tillgång till ett bra dataset att luta sig mot? I praktiken är data ofta bristfällig och rörig. För att lösa detta föreslår vi en ny metod som inte kräver högkvalitativ data, utan istället utnyttjar lärarmodellens egna svar på ett smart sätt. Vi testar metoden först i ett enklare experiment där målet är att ge studentmodellen en tydlig stil eller personlighet, i det här fallet tonen av en kaxig tonåring. Efter distilleringen med den nya metoden håller sig modellen konsekvent till den injicerade stilen och svarar alltid med tonen av en kaxig tonåring – utan att man behöver be om det i varje prompt. Detta är ett tydligt tecken på att stilen verkligen har bakats in. När vi jämför med traditionella träningsmetoder visar vår föreslagna metod dessutom klart bättre resultat.

Till sist tar vi metoden ett steg längre, och testar den i ett mer verklighetsnära och krävande sammanhang: att besvara medicinska frågor. Här provar vi att överföra expertkunskap från en stor modell till en mindre, med hjälp av vår egen distilleringsteknik. Trots att det dataset som används är litet och långt ifrån optimalt ser vi tydliga förbättringar i både precision och kvalitet på svaren.

Sammantaget visar studien att kunskapsdistillering – när den görs rätt – är en effektiv och flexibel metod som fungerar förvånansvärt bra även med begränsad och bristfällig data. Den visar också att det går att lära mindre modeller både avancerade beteenden och specialistkunskap – utan att det krävs särskilt mycket resurser. Resultaten gör vår studie till en viktig pusselbit i arbetet med att göra AI mer tillgänglig, snabb och effektiv – även när förutsättningarna är begränsade. Det öppnar upp för nya tillämpningar inom allt från små enheter till smala expertområden där stora modeller tidigare varit för tunga att använda. (Less)
Please use this url to cite or link to this publication:
author
Sirin, Kaan Nadir LU
supervisor
organization
course
FMAM05 20251
year
type
H2 - Master's Degree (Two Years)
subject
keywords
large language models, knowledge distillation, sparse logits, importance sampling, low-resource learning
publication/series
Master's Theses in Mathematical Sciences
report number
LUTFMA-3594-2025
ISSN
1404-6342
other publication id
2025:E63
language
English
additional info
Submit Record for Registration! - done by admin
id
9198982
date added to LUP
2025-09-15 11:10:48
date last changed
2025-09-15 11:10:48
@misc{9198982,
  abstract     = {{Large language models (LLMs) have achieved remarkable capabilities but remain costly to deploy at scale. Knowledge distillation offers a way to transfer knowledge from large, high-capacity models into smaller, more efficient ones. This thesis investigates two key questions: (1) how specific design choices affect distillation performance, and (2) how distillation can be effectively performed in the absence of high-quality datasets. The first part of the thesis presents a systematic evaluation of distillation parameters. We show that forward KL divergence with a temperature of T = 1 consistently yields stronger student models than reverse KL or higher temperatures. Scaling the number of training examples further improves performance, and distilled models can match or outperform their undistilled counterparts on out-of-domain tasks. In the second part, we introduce a novel distillation method based on generation and sparse teacher logits. This approach enables effective knowledge transfer with as few as 320 examples and outperforms supervised fine-tuning. Among sparsification strategies, importance sampling proves superior to top-K even when using sparser distributions. Together, these results outline a practical and data-efficient strategy for distilling large models, even in settings with limited and low-quality data.}},
  author       = {{Sirin, Kaan Nadir}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Theses in Mathematical Sciences}},
  title        = {{Distilling in the Dark: Effective Knowledge Distillation in LLMs Under Data Constraints}},
  year         = {{2025}},
}