An Open-Source Autoencoder Compression Tool for High Energy Physics

Gallén, Axel

An Open-Source Autoencoder Compression Tool for High Energy Physics

Mark

Gallén, Axel ^LU (2023) FYSM60 20231
Particle and nuclear physics
Department of Physics

Abstract: A common problem across scientific fields and industries is data storage. This thesis presents an open-source lossy data compression tool with its foundation in Machine Learning - Baler. Baler has been used to compress High Energy Physics (HEP) data, and initial compression tests on Computational Fluid Dynamics (CFD) toy data have been performed. For HEP, a compression ratio of R = 1.6 has generated reconstructions that can be deemed sufficiently accurate for physics analysis. In contrast, CFD data compression has successfully yielded sufficient results for a significantly lower compression ratio, R = 88. Baler’s reconstruction accuracy at different compression ratios has been compared to a lossless compression method, gzip, and a lossy... (More); A common problem across scientific fields and industries is data storage. This thesis presents an open-source lossy data compression tool with its foundation in Machine Learning - Baler. Baler has been used to compress High Energy Physics (HEP) data, and initial compression tests on Computational Fluid Dynamics (CFD) toy data have been performed. For HEP, a compression ratio of R = 1.6 has generated reconstructions that can be deemed sufficiently accurate for physics analysis. In contrast, CFD data compression has successfully yielded sufficient results for a significantly lower compression ratio, R = 88. Baler’s reconstruction accuracy at different compression ratios has been compared to a lossless compression method, gzip, and a lossy compression method, Principal Component Analysis (PCA), with case-wise larger compression ratios over gzip; and accuracy at the same compression ratio overall exceeding that of PCA. (Less)
Popular Abstract (Swedish): Inom ett flertal olika vetenskapliga fält och industrier har ett gemensamt problem uppstått under den senaste tiden, nämligen ett problem angående lagring av data. På grund av att teknologi utvecklas hastigt så får många vetenskapliga fält ny utrustning kapabel av att generera mer och mer data. Samma historia gäller för vetenskapliga fält som är starkt beroende av simulationer, som också ökar i storlek med förbättringen av hård- och mjukvara. Partikelfysik är ett forskningsområde där detta är väldigt märkbart. ATLAS experimentet vid “The Large Hadron Collider” (LHC) är förutspått
att ha lagrat nära fem exabyte (5*10^18 bytes) av data vid början på nästa decennium och det planerade “Square Kilometre Array” (SKA) experimentet är väntat att... (More); Inom ett flertal olika vetenskapliga fält och industrier har ett gemensamt problem uppstått under den senaste tiden, nämligen ett problem angående lagring av data. På grund av att teknologi utvecklas hastigt så får många vetenskapliga fält ny utrustning kapabel av att generera mer och mer data. Samma historia gäller för vetenskapliga fält som är starkt beroende av simulationer, som också ökar i storlek med förbättringen av hård- och mjukvara. Partikelfysik är ett forskningsområde där detta är väldigt märkbart. ATLAS experimentet vid “The Large Hadron Collider” (LHC) är förutspått
att ha lagrat nära fem exabyte (5*10^18 bytes) av data vid början på nästa decennium och det planerade “Square Kilometre Array” (SKA) experimentet är väntat att lagra ca. 8.5 exabyte av data under dess planerade 15 år av verksamhet.

Med hänsyn till detta är komprimering av data ett givet område att undersöka för att minska mängden lagringskapacitet nödvändigt för att bibehålla all denna data. Den vanligaste komprimeringsmetoden kallas för icke-förstörande kompression, och kan komprimera data på ett sådant sätt att all ursprunglig data kan återskapas. Ett problem med icke-förstörande kompression är att oftast så räcker inte kompressions mängden för storskalig data, så mer drastiska åtgärder behöver användas. Ett alternativ för att kunna komprimera med högre “kompressions faktor” är förstörande kompression. Förstörande kompression kan överlag komprimera datan mer, men komprimeringen kommer med ett pris: datan kommer inte återskapas korrekt. Till en början låter inte detta som en praktisk lösning, men inom exempelvis partikelfysik så kan ändringen av data kompenseras med insamlingen av mer data.

Under denna uppsats har en förstörande kompressions metod utforskats med sin grund i maskininlärning. Modellen som använts är en så kallad “Autoencoder” som gör det möjligt att hitta korrelationer i data för att sedan kunna representera datan i form av en mindre representation, och med hjälp av korrelationsvikter, kunna återskapa representationen till den ursprungliga storleken. Som tidigare sagt så kommer detta till ett pris, men mängden som datan ändras med är möjligt att minska med hjälp av optimering av Autoencoderns arkitektur och parametrar.

Efter vidare undersökning så saknades ett strukturerat ramverk kapabelt att simpelt utföra förstörande kompression av data, så som del av arbetet för denna uppsats skapades ett “open-source” projekt med namnet Baler. Baler gör det enkelt för folk från väldigt olika fält att utföra förstörande kompression av deras data med hjälp av Autoencoders och, förhoppningsvis, godtyckligt för tillämpning i respektive fält.

Ett antal slutsatser har dragits under detta arbete. Först och främst så har Balers möjlighet att komprimera data från partikelfysik jämförts med en icke-förstörande kompressionsmetod (gzip) och en annan förstörande kompressionsmetod (Principal Component Analysis (PCA)) med slutsatser dragna att Autoencoder kompression är kapabel att komprimera data till en mindre storlek än gzip, men inte med tillräckligt bra rekonstruktion än, medans rekonstruktionen av data slås i majoriteten av fall jämfört med PCA.

Vidare så har en mängd dörrar öppnats kring vidarestudier, då marknaden för ett ramverk som Baler har visat sig vara betydligt mycket större än vad som var initialt trott. (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/9117991

author

Gallén, Axel ^LU

supervisor

organization

course

FYSM60 20231

year

2023

type

H1 - Master's Degree (One Year)

subject

Physics and Astronomy

keywords

Physics, Particle Physics, Analysis, Machine Learning, Neural Networks, Autoencoders, Data Compression, Lossy Compression, Baler

language

English

additional info

The project was done at the Division of Particle Physics

id

9117991

date added to LUP

2023-06-02 12:59:47

date last changed

2023-06-02 13:00:52

@misc{9117991,
  abstract     = {{A common problem across scientific fields and industries is data storage. This thesis presents an open-source lossy data compression tool with its foundation in Machine Learning - Baler. Baler has been used to compress High Energy Physics (HEP) data, and initial compression tests on Computational Fluid Dynamics (CFD) toy data have been performed. For HEP, a compression ratio of R = 1.6 has generated reconstructions that can be deemed sufficiently accurate for physics analysis. In contrast, CFD data compression has successfully yielded sufficient results for a significantly lower compression ratio, R = 88. Baler’s reconstruction accuracy at different compression ratios has been compared to a lossless compression method, gzip, and a lossy compression method, Principal Component Analysis (PCA), with case-wise larger compression ratios over gzip; and accuracy at the same compression ratio overall exceeding that of PCA.}},
  author       = {{Gallén, Axel}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{An Open-Source Autoencoder Compression Tool for High Energy Physics}},
  year         = {{2023}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

An Open-Source Autoencoder Compression Tool for High Energy Physics