Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Self-supervised learning on tabular data: An investigation into different implementations of VIME

Jahnke, Tova LU (2024) FYSK04 20241
Department of Physics
Abstract
With the objective to classify a tabular data set of breast cancer patients with a high accuracy the self- supervised model VIME [1] is studied. The influence of several hyperparameters during pre-training is investigated and AUC of the downstream task is regarded as the measurement of performance. A larger unlabeled synthetic data set is generated using the Synthetic Data Vault (SDV) [2]. Different sizes is then pre-trained on and the result evaluated in the downstream task. Using synthetic data gives result of similar standard to the original set. Moreover an alternative mask generator implementing the correlations between features using two different methods is proposed. Both methods produce effective results compared to the original... (More)
With the objective to classify a tabular data set of breast cancer patients with a high accuracy the self- supervised model VIME [1] is studied. The influence of several hyperparameters during pre-training is investigated and AUC of the downstream task is regarded as the measurement of performance. A larger unlabeled synthetic data set is generated using the Synthetic Data Vault (SDV) [2]. Different sizes is then pre-trained on and the result evaluated in the downstream task. Using synthetic data gives result of similar standard to the original set. Moreover an alternative mask generator implementing the correlations between features using two different methods is proposed. Both methods produce effective results compared to the original stochastic version and have arguably great potential for further research. (Less)
Popular Abstract (Swedish)
Det har varit svårt att missa uppsvinget av den allmänna tillgången till AI de senaste åren. Juridiken, arbetsmarknaden och industrin behöver alla anpassa sig fort för att hänga med. Med chattbotar och generativ AI som kan skapa en bild föreställande precis vad som helst på bara några minuter är det svårt att inte bli imponerad. I media har det uttryckts fascination men även en slags rädsla för hur framtiden ska se ut. Vad som inte är lika välkänt är den artificiella intelligens vi redan har inkorporerat i våra liv. Äger du en smartphone med ansiktsigenkänning eller en självkörande bil har du redan stått öga mot öga med AI. Musik- och översättningsappar är ytterligare två exempel.

En del av artificiell intelligens kallas maskininlärning... (More)
Det har varit svårt att missa uppsvinget av den allmänna tillgången till AI de senaste åren. Juridiken, arbetsmarknaden och industrin behöver alla anpassa sig fort för att hänga med. Med chattbotar och generativ AI som kan skapa en bild föreställande precis vad som helst på bara några minuter är det svårt att inte bli imponerad. I media har det uttryckts fascination men även en slags rädsla för hur framtiden ska se ut. Vad som inte är lika välkänt är den artificiella intelligens vi redan har inkorporerat i våra liv. Äger du en smartphone med ansiktsigenkänning eller en självkörande bil har du redan stått öga mot öga med AI. Musik- och översättningsappar är ytterligare två exempel.

En del av artificiell intelligens kallas maskininlärning vilket är ett paraplybegrepp för olika metoder för att träna modeller och algoritmer till att bli ännu bättre med minimal direkt hjälp från människor. Dessa modeller kan bli otroligt duktiga på att hantera stora mängder data och hitta mönster och korrelationer. Detta kan i sin tur leda till effektiva förutsägelser om framtida data.

Antalet utbildade och kunniga dataspecialister ökar snabbt men det gör även efterfrågan på det de kan producera. Därmed är det viktigt att kunna bygga och träna modeller med så lite mänsklig interaktion som möjligt. Större nätvärk och datamängder ger generellt fördelaktigare resultat men detta till en kostnad då de kräver mer tid och arbete. Därför sysslar dataingenjörer och forskare med att på olika sätt optimera modeller. Ett exempel är ett relativt nytt koncept som kallas självövervakat lärande. Detta är ett koncept som kräver minimal mänsklig interaktion samtidigt som det kan ge bättre resultat än helt oövervakade motsvarigheter. Dessa modeller har huvudsakligen byggts med avseende på bilder och texter. På senare år har dock även tabulär data börjat användas. En stor fördel med denna typ av lärande är att det inte krävs lika mycket annoterad data (där svaret man ska hitta är känt, så att man kan träna direkt på det) som andra typer. Stora mängder annoterad data kan vara tidskrävande och därmed kostandsdrivande att ta fram. Därför har förslag för att effektivisera självövervakat lärande på tabulär data varit fokus i många artiklar på senare tid och även i den här. (Less)
Please use this url to cite or link to this publication:
@misc{9158488,
  abstract     = {{With the objective to classify a tabular data set of breast cancer patients with a high accuracy the self- supervised model VIME [1] is studied. The influence of several hyperparameters during pre-training is investigated and AUC of the downstream task is regarded as the measurement of performance. A larger unlabeled synthetic data set is generated using the Synthetic Data Vault (SDV) [2]. Different sizes is then pre-trained on and the result evaluated in the downstream task. Using synthetic data gives result of similar standard to the original set. Moreover an alternative mask generator implementing the correlations between features using two different methods is proposed. Both methods produce effective results compared to the original stochastic version and have arguably great potential for further research.}},
  author       = {{Jahnke, Tova}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Self-supervised learning on tabular data: An investigation into different implementations of VIME}},
  year         = {{2024}},
}