Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Latent Space Growing of Generative Adversarial Networks

Sandström, Erik LU (2019) In Master's Thesis in Mathematical Sciences FMAM05 20191
Mathematics (Faculty of Engineering)
Abstract
This thesis presents a system, which builds on the Generative Adversarial Network (GAN) framework, with the focus of learning interpretable representations of data. The system is able to learn representations of data that are ordered in regards to the saliency of the attributes, in a completely unsupervised manner. The training strategy expands the latent space dimension while appropriately adding capacity to the model in a controlled way. This builds on the intuition that highly salient attributes are easiest to learn first. Empirical results on the Swiss roll dataset show that the representation is structured in regards to the saliency of the attributes when training the latent space progressively on a very simple GAN architecture.... (More)
This thesis presents a system, which builds on the Generative Adversarial Network (GAN) framework, with the focus of learning interpretable representations of data. The system is able to learn representations of data that are ordered in regards to the saliency of the attributes, in a completely unsupervised manner. The training strategy expands the latent space dimension while appropriately adding capacity to the model in a controlled way. This builds on the intuition that highly salient attributes are easiest to learn first. Empirical results on the Swiss roll dataset show that the representation is structured in regards to the saliency of the attributes when training the latent space progressively on a very simple GAN architecture. Experiments using a more complex system, trained on the CelebA dataset, scales the idea to a more interesting use case. Experiments using latent space interpolations show that our model successfully structures the latent space with respect to the saliency of the attributes, while also generating at least as real looking images and in less training time, than state-of-the-art methods. (Less)
Popular Abstract (Swedish)
Maskininlärning har de senaste åren bidragit till starten på ett omfattande paradigmskifte mot ett smartare och mer uppkopplat samhälle. Det här examensarbetet bidrar till den utvecklingen genom att öka förståelsen kring hur bilder på ansikten kan representeras så att ansiktsdragen hos personen blir naturligt beskrivna i representationen. Resultatet är ett system som kan generera verklighetstrogna bilder på ansikten och modifiera dessa på ett kontrollerat sätt.

I det här arbetet presenteras en så kallad generativ modell, som kan generera verklighetstrogna bilder på ansikten på ett nytt och mer flexibelt sätt. Ett stort problem med dagens generativa modeller är att det ofta är svårt att skapa ansikten där användaren kan specificera till... (More)
Maskininlärning har de senaste åren bidragit till starten på ett omfattande paradigmskifte mot ett smartare och mer uppkopplat samhälle. Det här examensarbetet bidrar till den utvecklingen genom att öka förståelsen kring hur bilder på ansikten kan representeras så att ansiktsdragen hos personen blir naturligt beskrivna i representationen. Resultatet är ett system som kan generera verklighetstrogna bilder på ansikten och modifiera dessa på ett kontrollerat sätt.

I det här arbetet presenteras en så kallad generativ modell, som kan generera verklighetstrogna bilder på ansikten på ett nytt och mer flexibelt sätt. Ett stort problem med dagens generativa modeller är att det ofta är svårt att skapa ansikten där användaren kan specificera till exempel hårfärg, kön, ögonfärg, ansiktsuttryck etcetera. Istället skapas ett slumpmässigt, men verklighetstroget ansikte, som är svårt att modifiera. Modellen som konstruerats för det här examensarbetet gör det lättare att modifiera redan skapade ansikten. Andra fördelar med den nyframtagna modellen är att den lär sig snabbare än existerande modeller och ger bilder med åtminstone lika god kvalitet som de bästa modellerna tillgängliga idag.

För att generera ett ansikte används en mycket komplicerad matematisk funktion som bekvämt nog kallas för generator. Generatorn behöver en insignal för att ge ett ansikte som utsignal och det är insignalen som vi kallar för representationen av ansiktet. Insignalen eller representationen består av flera siffror. Varje tal påverkar på något sätt utseendet av ansiktet, men det är väldigt svårt att relatera varje enskild siffra till ett separat ansiktsdrag, till exempel hudfärg, form på ansiktet och så vidare. Målet med modellen som konstruerats i det här arbetet är att starkare koppla insignalens effekt till specifika ansiktsdrag. Genom att stegvis öka antalet insignalssiffror till generatorn när modellen lär sig så påverkar siffror som tränats tidigt grova ansiktsdrag som till exempel kön, hårfärg, frisyr och hudfärg medan senare tränade siffror påverkar finare detaljer som till exempel ögonfärg och -form samt detaljer i ansiktsuttrycket. Ett exempel ges i Figur 1a och 1b där varje rad beskriver hur ett visst ansikte förändras då en specifik siffra i insignalen till generatorn ändrar värde. I Figur 1a sker stora förändringar, eftersom en siffra som tränades tidigt ändras. I Figur 1b ändras mer eller mindre endast hur mycket ögonen är öppna, eftersom en siffra som tränades sent ändras.

Den typen av generativ modell som används i det här arbetet kallas på engelska för ”Generative Adversarial Network”. Även om namnet låter aningen skräckinjagande, eller kanske bara häftigt, så är intuitionen bakom modellen väldigt simpel. Generatorns uppdrag är redan beskriven. Den behöver dock tränas för att generera verklighetstrogna ansikten. Till dess hjälp finns en annan funktion, kallad diskriminator, som försöker se skillnad på riktiga ansikten och ansikten skapade av generatorn. Generatorns uppdrag är därför att lura diskriminatorn medan diskriminatorn agerar polis och försöker upptäcka de ”förfalskade” ansiktena. Diskriminatorn ger feedback till generatorn om huruvida den lyckas skapa bra bilder och när diskriminatorn inte längre kan se skillnad på riktiga ansikten och förfalskade ansikten har generatorn tränats klart.

I detta arbete har enbart bilder på ansikten studerats, men i ett större sammanhang kan resultaten från detta arbete ses som en del i att producera bra representationer av godtycklig data. Representationer är mycket viktiga. Till exempel är en bild i en dator inte en bild så som vi människor tänker på den, utan bara en stor tabell med pixelvärden. Tabellrepresentationen är användbar för att visa bilden på datorn, men inte för att hjälpa datorn att ``förstå'' innehållet i bilden. Med en annan representation kan samma bild beskrivas, men med tydligare semantisk koppling till motivet. Att definiera vad som gör en ``bra'' representation är svårt eftersom det är problemspecifikt. För att till exempel klassificera en bild på ett djur kan en relevant representation vara till exempel hur många ben djuret har, om djuret har en mönstrad päls, om det har en svans, om det har klor etcetera. Om problemet är att räkna antalet röda pixlar i bilden hjälper däremot inte den beskrivna representationen. För naturliga problem som till exempel ansiktsigenkänning eller objektigenkänning hjälper dock en representation som är semantiskt tolkningsbar och här kan detta arbete visa på en potentiell väg för framtida forskning inom maskininlärning och datorrepresentationer av bilder. (Less)
Please use this url to cite or link to this publication:
author
Sandström, Erik LU
supervisor
organization
course
FMAM05 20191
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Generative models, GAN, Generative Adversarial Networks, Artificial Intelligence, CelebA, Latent Space, Deep Learning, Computer Vision, Machine Learning
publication/series
Master's Thesis in Mathematical Sciences
report number
LUTFMA-3384-2019
ISSN
1404-6342
other publication id
2019:E28
language
English
id
8984021
date added to LUP
2019-07-16 13:40:06
date last changed
2019-07-16 13:40:06
@misc{8984021,
  abstract     = {{This thesis presents a system, which builds on the Generative Adversarial Network (GAN) framework, with the focus of learning interpretable representations of data. The system is able to learn representations of data that are ordered in regards to the saliency of the attributes, in a completely unsupervised manner. The training strategy expands the latent space dimension while appropriately adding capacity to the model in a controlled way. This builds on the intuition that highly salient attributes are easiest to learn first. Empirical results on the Swiss roll dataset show that the representation is structured in regards to the saliency of the attributes when training the latent space progressively on a very simple GAN architecture. Experiments using a more complex system, trained on the CelebA dataset, scales the idea to a more interesting use case. Experiments using latent space interpolations show that our model successfully structures the latent space with respect to the saliency of the attributes, while also generating at least as real looking images and in less training time, than state-of-the-art methods.}},
  author       = {{Sandström, Erik}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Thesis in Mathematical Sciences}},
  title        = {{Latent Space Growing of Generative Adversarial Networks}},
  year         = {{2019}},
}