An Open-Source Autoencoder Compression Tool for High Energy Physics
(2023) FYSM60 20231Particle and nuclear physics
Department of Physics
- Abstract
- A common problem across scientific fields and industries is data storage. This thesis presents an open-source lossy data compression tool with its foundation in Machine Learning - Baler. Baler has been used to compress High Energy Physics (HEP) data, and initial compression tests on Computational Fluid Dynamics (CFD) toy data have been performed. For HEP, a compression ratio of R = 1.6 has generated reconstructions that can be deemed sufficiently accurate for physics analysis. In contrast, CFD data compression has successfully yielded sufficient results for a significantly lower compression ratio, R = 88. Baler’s reconstruction accuracy at different compression ratios has been compared to a lossless compression method, gzip, and a lossy... (More)
- A common problem across scientific fields and industries is data storage. This thesis presents an open-source lossy data compression tool with its foundation in Machine Learning - Baler. Baler has been used to compress High Energy Physics (HEP) data, and initial compression tests on Computational Fluid Dynamics (CFD) toy data have been performed. For HEP, a compression ratio of R = 1.6 has generated reconstructions that can be deemed sufficiently accurate for physics analysis. In contrast, CFD data compression has successfully yielded sufficient results for a significantly lower compression ratio, R = 88. Baler’s reconstruction accuracy at different compression ratios has been compared to a lossless compression method, gzip, and a lossy compression method, Principal Component Analysis (PCA), with case-wise larger compression ratios over gzip; and accuracy at the same compression ratio overall exceeding that of PCA. (Less)
- Popular Abstract (Swedish)
- Inom ett flertal olika vetenskapliga fält och industrier har ett gemensamt problem uppstått under den senaste tiden, nämligen ett problem angående lagring av data. På grund av att teknologi utvecklas hastigt så får många vetenskapliga fält ny utrustning kapabel av att generera mer och mer data. Samma historia gäller för vetenskapliga fält som är starkt beroende av simulationer, som också ökar i storlek med förbättringen av hård- och mjukvara. Partikelfysik är ett forskningsområde där detta är väldigt märkbart. ATLAS experimentet vid “The Large Hadron Collider” (LHC) är förutspått
att ha lagrat nära fem exabyte (5*10^18 bytes) av data vid början på nästa decennium och det planerade “Square Kilometre Array” (SKA) experimentet är väntat att... (More) - Inom ett flertal olika vetenskapliga fält och industrier har ett gemensamt problem uppstått under den senaste tiden, nämligen ett problem angående lagring av data. På grund av att teknologi utvecklas hastigt så får många vetenskapliga fält ny utrustning kapabel av att generera mer och mer data. Samma historia gäller för vetenskapliga fält som är starkt beroende av simulationer, som också ökar i storlek med förbättringen av hård- och mjukvara. Partikelfysik är ett forskningsområde där detta är väldigt märkbart. ATLAS experimentet vid “The Large Hadron Collider” (LHC) är förutspått
att ha lagrat nära fem exabyte (5*10^18 bytes) av data vid början på nästa decennium och det planerade “Square Kilometre Array” (SKA) experimentet är väntat att lagra ca. 8.5 exabyte av data under dess planerade 15 år av verksamhet.
Med hänsyn till detta är komprimering av data ett givet område att undersöka för att minska mängden lagringskapacitet nödvändigt för att bibehålla all denna data. Den vanligaste komprimeringsmetoden kallas för icke-förstörande kompression, och kan komprimera data på ett sådant sätt att all ursprunglig data kan återskapas. Ett problem med icke-förstörande kompression är att oftast så räcker inte kompressions mängden för storskalig data, så mer drastiska åtgärder behöver användas. Ett alternativ för att kunna komprimera med högre “kompressions faktor” är förstörande kompression. Förstörande kompression kan överlag komprimera datan mer, men komprimeringen kommer med ett pris: datan kommer inte återskapas korrekt. Till en början låter inte detta som en praktisk lösning, men inom exempelvis partikelfysik så kan ändringen av data kompenseras med insamlingen av mer data.
Under denna uppsats har en förstörande kompressions metod utforskats med sin grund i maskininlärning. Modellen som använts är en så kallad “Autoencoder” som gör det möjligt att hitta korrelationer i data för att sedan kunna representera datan i form av en mindre representation, och med hjälp av korrelationsvikter, kunna återskapa representationen till den ursprungliga storleken. Som tidigare sagt så kommer detta till ett pris, men mängden som datan ändras med är möjligt att minska med hjälp av optimering av Autoencoderns arkitektur och parametrar.
Efter vidare undersökning så saknades ett strukturerat ramverk kapabelt att simpelt utföra förstörande kompression av data, så som del av arbetet för denna uppsats skapades ett “open-source” projekt med namnet Baler. Baler gör det enkelt för folk från väldigt olika fält att utföra förstörande kompression av deras data med hjälp av Autoencoders och, förhoppningsvis, godtyckligt för tillämpning i respektive fält.
Ett antal slutsatser har dragits under detta arbete. Först och främst så har Balers möjlighet att komprimera data från partikelfysik jämförts med en icke-förstörande kompressionsmetod (gzip) och en annan förstörande kompressionsmetod (Principal Component Analysis (PCA)) med slutsatser dragna att Autoencoder kompression är kapabel att komprimera data till en mindre storlek än gzip, men inte med tillräckligt bra rekonstruktion än, medans rekonstruktionen av data slås i majoriteten av fall jämfört med PCA.
Vidare så har en mängd dörrar öppnats kring vidarestudier, då marknaden för ett ramverk som Baler har visat sig vara betydligt mycket större än vad som var initialt trott. (Less)
Please use this url to cite or link to this publication:
http://lup.lub.lu.se/student-papers/record/9117991
- author
- Gallén, Axel LU
- supervisor
- organization
- course
- FYSM60 20231
- year
- 2023
- type
- H1 - Master's Degree (One Year)
- subject
- keywords
- Physics, Particle Physics, Analysis, Machine Learning, Neural Networks, Autoencoders, Data Compression, Lossy Compression, Baler
- language
- English
- additional info
- The project was done at the Division of Particle Physics
- id
- 9117991
- date added to LUP
- 2023-06-02 12:59:47
- date last changed
- 2023-06-02 13:00:52
@misc{9117991, abstract = {{A common problem across scientific fields and industries is data storage. This thesis presents an open-source lossy data compression tool with its foundation in Machine Learning - Baler. Baler has been used to compress High Energy Physics (HEP) data, and initial compression tests on Computational Fluid Dynamics (CFD) toy data have been performed. For HEP, a compression ratio of R = 1.6 has generated reconstructions that can be deemed sufficiently accurate for physics analysis. In contrast, CFD data compression has successfully yielded sufficient results for a significantly lower compression ratio, R = 88. Baler’s reconstruction accuracy at different compression ratios has been compared to a lossless compression method, gzip, and a lossy compression method, Principal Component Analysis (PCA), with case-wise larger compression ratios over gzip; and accuracy at the same compression ratio overall exceeding that of PCA.}}, author = {{Gallén, Axel}}, language = {{eng}}, note = {{Student Paper}}, title = {{An Open-Source Autoencoder Compression Tool for High Energy Physics}}, year = {{2023}}, }