Advanced

Training Artificial Neural Networks on the Marginal Distribution Estimates of the C index

Johansson, Frank LU (2016) FYTK02 20161
Computational Biology and Biological Physics
Department of Astronomy and Theoretical Physics
Abstract
In this project, we compare two error functions for the purpose of training artificial neural networks on heavily censored data (data where key information is missing).

J. Kalderstam et al. has shown that it is possible to train artificial neural networks directly on Harrell's C index \cite{Harrell} using genetic algorithms. He has also investigated the possibilities of improving the performance of a neural network trained on what is is referred to as the mean squared censored error, introduced by Van Belle et al. using the marginal distributions estimates of the uncensored data.

This project develops the method further, investigating the difference in performance between a network trained on the C index and a network trained on a... (More)
In this project, we compare two error functions for the purpose of training artificial neural networks on heavily censored data (data where key information is missing).

J. Kalderstam et al. has shown that it is possible to train artificial neural networks directly on Harrell's C index \cite{Harrell} using genetic algorithms. He has also investigated the possibilities of improving the performance of a neural network trained on what is is referred to as the mean squared censored error, introduced by Van Belle et al. using the marginal distributions estimates of the uncensored data.

This project develops the method further, investigating the difference in performance between a network trained on the C index and a network trained on a new performance estimator, the Soft C, which introduces the marginal distribution estimates of the C index.

The Soft C trained network seems to outperform Cox Regression, which is a standard method that new methods are always compared to. However, the results of the compared performance of the error functions, during validation, were inconclusive and further studies are required in order to determine which of the error functions performs the best. (Less)
Popular Abstract (Swedish)
Inom sjukvården delas patienter ofta in i riskgrupper som avgör vilken behandling som passar varje patient bäst. Företrädesvis ska indelningen baseras på information om patienterna, som till exempel ålder och tumörstorlek, och det är möjligt att använda sig av känd patientinformation för att lära en dator att koppla en given patient till en viss riskgrupp. Detta görs genom att man minimerar någon vald feluppskattning mellan vilken riskgrupp datorn väljer och den kända riskgruppen. Efter detta kan man koppla patienter utan känd riskgrupp till korrekt behandling.

Det är vanligt att dela in i riskgrupper efter överlevnadstid. Man kan försöka förutsäga den troliga överlevnadstiden eller (som i detta projekt) ordna patienter efter deras... (More)
Inom sjukvården delas patienter ofta in i riskgrupper som avgör vilken behandling som passar varje patient bäst. Företrädesvis ska indelningen baseras på information om patienterna, som till exempel ålder och tumörstorlek, och det är möjligt att använda sig av känd patientinformation för att lära en dator att koppla en given patient till en viss riskgrupp. Detta görs genom att man minimerar någon vald feluppskattning mellan vilken riskgrupp datorn väljer och den kända riskgruppen. Efter detta kan man koppla patienter utan känd riskgrupp till korrekt behandling.

Det är vanligt att dela in i riskgrupper efter överlevnadstid. Man kan försöka förutsäga den troliga överlevnadstiden eller (som i detta projekt) ordna patienter efter deras överlevnadstid för att avgöra vem som är i kritiskt behov av behandling.

Att ta beslut om riskgrupper är ett svårt problem i sig och något som förvärrar saken är att många av proverna man tränar datorn på är ofullständiga. Det vill säga att patienterna föll ur undersökningen innan överlevnadstiden blev känd.

Syftet med detta projekt är att undersöka ett nytt sätt att beskriva avvikelsen mellan datorns indelning och den korrekta indelningen. Denna beskrivning ska förhoppningsvis förbättra hur man handskas med ofullständiga prover. (Less)
Please use this url to cite or link to this publication:
author
Johansson, Frank LU
supervisor
organization
course
FYTK02 20161
year
type
M2 - Bachelor Degree
subject
keywords
soft, concordance, c, index, artificial neural networks, marginal distribution estimates
language
English
id
8881860
date added to LUP
2016-06-30 12:16:49
date last changed
2016-11-15 13:52:49
@misc{8881860,
  abstract     = {In this project, we compare two error functions for the purpose of training artificial neural networks on heavily censored data (data where key information is missing).

J. Kalderstam et al. has shown that it is possible to train artificial neural networks directly on Harrell's C index \cite{Harrell} using genetic algorithms. He has also investigated the possibilities of improving the performance of a neural network trained on what is is referred to as the mean squared censored error, introduced by Van Belle et al. using the marginal distributions estimates of the uncensored data.

This project develops the method further, investigating the difference in performance between a network trained on the C index and a network trained on a new performance estimator, the Soft C, which introduces the marginal distribution estimates of the C index.

The Soft C trained network seems to outperform Cox Regression, which is a standard method that new methods are always compared to. However, the results of the compared performance of the error functions, during validation, were inconclusive and further studies are required in order to determine which of the error functions performs the best.},
  author       = {Johansson, Frank},
  keyword      = {soft,concordance,c,index,artificial neural networks,marginal distribution estimates},
  language     = {eng},
  note         = {Student Paper},
  title        = {Training Artificial Neural Networks on the Marginal Distribution Estimates of the C index},
  year         = {2016},
}