Evaluation of float-truncation based compression techniques for the ATLAS jet trigger

Kildetoft, Love

Evaluation of float-truncation based compression techniques for the ATLAS jet trigger

Mark

Kildetoft, Love ^LU (2021) FYSK02 20211
Particle and nuclear physics
Department of Physics

Abstract: Data compression methods allow more data to be stored within a certain storage framework while still keeping the characteristics of the data in question. At the Large Hadron Collider on the grounds of CERN in Switzerland, limited data storage capability is and has always been an urgent problem. At the ATLAS experiment, one technique which allows researchers to save more data within the same storage framework is so called trigger level analysis [TLA].

This thesis work explores float truncation based data compression as an improvement to TLA. It is shown that this compression technique is promising for compressing several variables from TLA datasets, while however generating artifacts in the compressed distributions. This phenomenon is... (More); Data compression methods allow more data to be stored within a certain storage framework while still keeping the characteristics of the data in question. At the Large Hadron Collider on the grounds of CERN in Switzerland, limited data storage capability is and has always been an urgent problem. At the ATLAS experiment, one technique which allows researchers to save more data within the same storage framework is so called trigger level analysis [TLA].

This thesis work explores float truncation based data compression as an improvement to TLA. It is shown that this compression technique is promising for compressing several variables from TLA datasets, while however generating artifacts in the compressed distributions. This phenomenon is known as double quantization. It is explained how this effect is more or less unavoidable as it is an effect always present when discretizing a continuous distribution several times in succession.

Furthermore, this thesis work explores the applicability of chaining float-truncation techniques with machine learning techniques (so called autoencoder compression). It is shown that the original dataset is still well represented after applying the two techniques in succesion. (Less)
Popular Abstract (Swedish): Vid ATLAS-experimentet på forskningsanläggningen Large Hadron Collider vid CERN i Schweiz kan det som mest ske runt en miljard partikelkollisioner per sekund. Den data som produceras utifrån dessa tillåter fysiker att studera de mest grundläggande egenskaperna och beståndsdelarna hos och i naturen. Den modell som idag beskriver dessa är den så kallade standardmodellen. Även om denna har verifierats till hög experimentell precision saknas det fortfarande stora pusselbitar. Syftet med ATLAS-experimentet är att förklara fysikaliska fenomen som idag ligger bortom standardmodellen, så som mörk materia.

Det höga antalet partikelkollisioner motsvarar en dataström på runt 60 miljoner megabyte per sekund1. Med dagens lagringsteknik är det... (More); Vid ATLAS-experimentet på forskningsanläggningen Large Hadron Collider vid CERN i Schweiz kan det som mest ske runt en miljard partikelkollisioner per sekund. Den data som produceras utifrån dessa tillåter fysiker att studera de mest grundläggande egenskaperna och beståndsdelarna hos och i naturen. Den modell som idag beskriver dessa är den så kallade standardmodellen. Även om denna har verifierats till hög experimentell precision saknas det fortfarande stora pusselbitar. Syftet med ATLAS-experimentet är att förklara fysikaliska fenomen som idag ligger bortom standardmodellen, så som mörk materia.

Det höga antalet partikelkollisioner motsvarar en dataström på runt 60 miljoner megabyte per sekund1. Med dagens lagringsteknik är det därför rent tekniskt omöjligt att spara all data för framtida analys. Till följd måste en stor mängd data kastas, och även om detta urval görs på ett välgrundat och utförligt sätt så finns det fortfarande en stor risk att man går miste om data som potentiellt kan vara intressant i forskningssyfte.

Genom att använda så kallade datakompressions-metoder, där storleken på datan reduceras medan dess viktigaste kännetecken vidhålls, kan man spara mer data för analys. En sådan metod är flyttalstrunkering.

Data från ATLAS-experimentet sparas som tal med ett visst antal signifikanta decimaler. Detta motsvarar ett visst antal platser, så kallade bits i minnet hos en dator. Denna representation kallas vanligtvis ett flyttal. I flyttalstrunkering så reducerar man precisionen på varje tal genom att ta bort ett visst antal bits, och således ett visst antal signifikanta decimaler. Detta innebär i slutändan att varje tal tar upp mindre plats i minnet hos en dator, medan dess viktigaste egenskaper finns kvar.

I detta arbete presenteras en utförlig utvärdering av hur väl flyttalstrunkerad data från ATLAS-experimentet representerar den ursprungliga datan, och huruvida information av fysikalisk intresse fortfarande kan uthämtas från denna. Ytterliggare så testas även ett maskininlärningsbaserat tillvägagångssätt, där ett neuralt nätverk utformat för att komprimera samt rekonstruera data kedjas samman med flyttalstrunkering. Ett neuralt nätverk är ett matematiskt verktyg som modellerar mänskligt lärande, och som genom träning kan lära sig att känna igen och åtskilja mönster i data. Detta har potentialen att ge ytterliggare vinster i lagringsuttrymme, och kan således också tillåta fysiker att analysera mer data och komma till nya slutsatser kring vår fysikaliska verklighet. (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/9049610

author

Kildetoft, Love ^LU

supervisor

Caterina Doglioni ^LU
Antonio Boveia

organization

course

FYSK02 20211

year

2021

type

M2 - Bachelor Degree

subject

Physics and Astronomy

language

English

id

9049610

date added to LUP

2021-06-08 09:45:03

date last changed

2021-08-31 16:41:34

@misc{9049610,
  abstract     = {{Data compression methods allow more data to be stored within a certain storage framework while still keeping the characteristics of the data in question. At the Large Hadron Collider on the grounds of CERN in Switzerland, limited data storage capability is and has always been an urgent problem. At the ATLAS experiment, one technique which allows researchers to save more data within the same storage framework is so called trigger level analysis [TLA]. 
 
This thesis work explores float truncation based data compression as an improvement to TLA. It is shown that this compression technique is promising for compressing several variables from TLA datasets, while however generating artifacts in the compressed distributions. This phenomenon is known as double quantization. It is explained how this effect is more or less unavoidable as it is an effect always present when discretizing a continuous distribution several times in succession. 
 
Furthermore, this thesis work explores the applicability of chaining float-truncation techniques with machine learning techniques (so called autoencoder compression). It is shown that the original dataset is still well represented after applying the two techniques in succesion.}},
  author       = {{Kildetoft, Love}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Evaluation of float-truncation based compression techniques for the ATLAS jet trigger}},
  year         = {{2021}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Evaluation of float-truncation based compression techniques for the ATLAS jet trigger