Skip to main content

Lund University Publications

LUND UNIVERSITY LIBRARIES

Neural Network Approaches To Survival Analysis

Kalderstam, Jonas LU (2015)
Abstract
Predicting the probable survival for a patient can be very challenging

for many diseases. In many forms of cancer, the choice of treatment

can be directly impacted by the estimated risk for the patient. This

thesis explores different methods to predict the patient's survival

chances using artificial neural networks (ANN).



ANN is a machine learning technique inspired by how

neurons in the brain function. It is capable of learning to recognize

patterns by looking at labeled examples, so-called supervised

learning. Certain characteristics of medical data make it difficult to

use ANN methods and the articles in this thesis investigates ... (More)
Predicting the probable survival for a patient can be very challenging

for many diseases. In many forms of cancer, the choice of treatment

can be directly impacted by the estimated risk for the patient. This

thesis explores different methods to predict the patient's survival

chances using artificial neural networks (ANN).



ANN is a machine learning technique inspired by how

neurons in the brain function. It is capable of learning to recognize

patterns by looking at labeled examples, so-called supervised

learning. Certain characteristics of medical data make it difficult to

use ANN methods and the articles in this thesis investigates different

methods of overcoming those difficulties.



One of the most prominent difficulties is the missing

data known as censoring. Survival data usually originates from medical

studies, which only are conducted during a limited time period for

example during five years. During this time, some patients will leave

the study for various reasons like death by unrelated causes. Some

patients will also survive the study without experiencing cancer

recurrence or death. These patients provide partial information about

the survival characteristics of the disease but are challenging to

include in statistical models.



Articles 1-3, and 5 utilize a genetic algorithm to train ANN

models to maximize (or minimize) non-differentiable functions, which

are impossible to combine with traditional ANN training techniques

which rely on gradient information. One of these functions is the

concordance index, which compares survival predictions in a pair-wise

fashion. This function is often used to compare prognostic models in

survival analysis, and is maximized directly using the genetic

algorithm approach. In contrast, Article 5

tries to produce the best grouping of the patients into low,

intermediate, or high risk by maximizing, or minimizing the area under

the survival curve.



Article 4 does not use a genetic

algorithm approach but instead takes the approach to modify the

underlying data. Regular gradient methods are used to train ANNs on

survival data where censored times are estimated in a maximum

likelihood framework. (Less)
Abstract (Swedish)
Popular Abstract in Swedish

Denna avhandling behandlar artificiella neuron nätverk och deras

applikation inom medicin. Den utgår ifrån att det är viktigt att

kunna uppskatta en patients överlevnadschanser för att kunna erbjuda

rätt behandling för olika former av cancer. Generellt kan man säga

att ju värre prognos desto mer omfattande behandling behöver man sätta

in. Vissa patienter kan botas med enbart kirurgi eller strålbehandling

medan andra även kräver tilläggsbehandling så som cytostatika

(cellgifter). Eftersom behandlingen kan vara påfrestande är det

givetvis ett mål att inte överbehandla patienter. I vissa fall har man

endast tillräckligt... (More)
Popular Abstract in Swedish

Denna avhandling behandlar artificiella neuron nätverk och deras

applikation inom medicin. Den utgår ifrån att det är viktigt att

kunna uppskatta en patients överlevnadschanser för att kunna erbjuda

rätt behandling för olika former av cancer. Generellt kan man säga

att ju värre prognos desto mer omfattande behandling behöver man sätta

in. Vissa patienter kan botas med enbart kirurgi eller strålbehandling

medan andra även kräver tilläggsbehandling så som cytostatika

(cellgifter). Eftersom behandlingen kan vara påfrestande är det

givetvis ett mål att inte överbehandla patienter. I vissa fall har man

endast tillräckligt med resurser för att erbjuda en viss andel av

patienterna den mer omfattande behandlingen. I båda fallen finns det

ett stort behov av att tillförlitligt kunna uppskatta en patients

prognos.



Det finns en uppsjö av olika faktorer som påverkar överlevnad och

eventuell risk. Till exempel ökar många gånger koncentrationen av PSA

(äggviteämne som produceras i prostatans körtelceller) i blodet vid

prostatacancer och höga halter av östrogen och progesteron (två

hormoner) kan ge ökad risk för bröstcancer. Att blodprov skulle

uppvisa förhöjda nivåer av PSA eller östrogen är dock långt ifrån ett

entydigt bevis på förekomsten av cancer. Bättre prediktion är möjlig

om man även tar hänsyn till andra faktorer så som ålder eller genetik,

men det blir snabbt ohanterligt att kombinera fler än ett fåtal

faktorer, speciellt om man måste göra det med hänsyn till tusentals

patienter.



I överlevnadsanalys försöker man lösa detta hjälp av statistiska

modeller som kan kombinera ett teoretiskt sätt obegränsat antal

faktorer. Ett sätt att skapa statistiska modeller är genom att använda

sig av maskininlärning, även kallat artificiell intelligens i vissa

sammanhang. Maskininlärning tillåter en dator att på egen hand lära

sig att identifiera mönster och samband. Det är med hjälp av

maskininlärning som en dator kan tyda dina röstkommandon, posten kan

sortera dina vykort och du kan söka efter bilder hos Google. I

avhandlingen ligger fokus på en speciell metod inom maskininlärning

kallad artificiella neuron nätverk (ANN) och på hur man kan träna

dessa nätverk för applikationer inom överlevnadsanalys. Ett ANN är en

förenklad modell av vår egen hjärna. Denna består av ett komplext nätverk

av miljarder nervceller kallade neuroner. I jämförelse består ett ANN

oftast av ett tiotal men ibland upp till flera tusen neuroner. Trots

den högst begränsade kapaciteten jämfört med en mänsklig hjärna är ANN

väldigt kapabla att lära sig att hitta mönster i data.



En annan maskininlärningsteknik som är inspirerad av naturen är

genetiska algoritmer. En genetisk algoritm är en simulering av

naturlig evolution där en population av modeller tillåts para sig och generera

nya modeller som är korsningar av sina "föräldrar". Precis som i

naturen förekommer det också slumpmässiga mutationer som introducerar

förändringar i avkommans "gener". Genom att låta strukturen hos ANN

representera generna kan datorn automatiskt utveckla egna modeller.



Konventionella träningsalgoritmer för ANN kräver ofta att den

felfunktion (ett mått på hur mycket fel modellen gör vid prediktion av

till exempel överlevnad) man försöker minimera kan deriveras, vilket

för prognostiska tillämpningar ofta innebär en

begränsning. Kombinationen av genetiska algoritmer och ANN gör det

möjligt att bygga prognostiska modeller på ett mer direkt sätt än vad

som annars hade varit möjligt. Detta eftersom en genetisk algoritm kan

minimera vilken felfunktion som helst. (Less)
Please use this url to cite or link to this publication:
author
supervisor
opponent
  • Taktak, Azzam, Department of Medical Physics and Clinical Engineering, Royal Liverpool University Hospital
organization
publishing date
type
Thesis
publication status
published
subject
keywords
Survival Analysis, Artificial Neural Networks, Machine Learning, Genetic Algorithms, Evolutionary Algorithms, Fysicumarkivet:2015:Kalderstam
pages
139 pages
publisher
Department of Astronomy and Theoretical Physics, Lund University
defense location
Sal F, Fysikum, Sölvegatan 14A, 221 00 Lund
defense date
2015-05-29 13:15:00
ISBN
978-91-7623-307-8
978-91-7623-308-5
language
English
LU publication?
yes
id
6b3fdf14-e854-424b-80e0-49f04cbcfef7 (old id 5364868)
date added to LUP
2016-04-04 10:00:55
date last changed
2018-11-21 20:56:13
@phdthesis{6b3fdf14-e854-424b-80e0-49f04cbcfef7,
  abstract     = {{Predicting the probable survival for a patient can be very challenging<br/><br>
for many diseases. In many forms of cancer, the choice of treatment<br/><br>
can be directly impacted by the estimated risk for the patient. This<br/><br>
thesis explores different methods to predict the patient's survival<br/><br>
chances using artificial neural networks (ANN).<br/><br>
<br/><br>
ANN is a machine learning technique inspired by how<br/><br>
neurons in the brain function. It is capable of learning to recognize<br/><br>
patterns by looking at labeled examples, so-called supervised<br/><br>
learning. Certain characteristics of medical data make it difficult to<br/><br>
use ANN methods and the articles in this thesis investigates different<br/><br>
methods of overcoming those difficulties.<br/><br>
<br/><br>
One of the most prominent difficulties is the missing<br/><br>
data known as censoring. Survival data usually originates from medical<br/><br>
studies, which only are conducted during a limited time period for<br/><br>
example during five years. During this time, some patients will leave<br/><br>
the study for various reasons like death by unrelated causes. Some<br/><br>
patients will also survive the study without experiencing cancer<br/><br>
recurrence or death. These patients provide partial information about<br/><br>
the survival characteristics of the disease but are challenging to<br/><br>
include in statistical models.<br/><br>
<br/><br>
Articles 1-3, and 5 utilize a genetic algorithm to train ANN<br/><br>
models to maximize (or minimize) non-differentiable functions, which<br/><br>
are impossible to combine with traditional ANN training techniques<br/><br>
which rely on gradient information. One of these functions is the<br/><br>
concordance index, which compares survival predictions in a pair-wise<br/><br>
fashion. This function is often used to compare prognostic models in<br/><br>
survival analysis, and is maximized directly using the genetic<br/><br>
algorithm approach. In contrast, Article 5<br/><br>
tries to produce the best grouping of the patients into low,<br/><br>
intermediate, or high risk by maximizing, or minimizing the area under<br/><br>
the survival curve.<br/><br>
<br/><br>
Article 4 does not use a genetic<br/><br>
algorithm approach but instead takes the approach to modify the<br/><br>
underlying data. Regular gradient methods are used to train ANNs on<br/><br>
survival data where censored times are estimated in a maximum<br/><br>
likelihood framework.}},
  author       = {{Kalderstam, Jonas}},
  isbn         = {{978-91-7623-307-8}},
  keywords     = {{Survival Analysis; Artificial Neural Networks; Machine Learning; Genetic Algorithms; Evolutionary Algorithms; Fysicumarkivet:2015:Kalderstam}},
  language     = {{eng}},
  publisher    = {{Department of Astronomy and Theoretical Physics, Lund University}},
  school       = {{Lund University}},
  title        = {{Neural Network Approaches To Survival Analysis}},
  url          = {{https://lup.lub.lu.se/search/files/5440161/5385348.pdf}},
  year         = {{2015}},
}