Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/103422
Title: Coupling storage systems for efficient management of self-describing data formats
Author(s): Duwe, Kira Isabel
Referee(s): Kuhn, Wingerath
Granting Institution: Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik
Issue Date: 2023
Extent: IX, 234 Seiten
Type: HochschulschriftLook up in the Integrated Authority File of the German National Library
Type: PhDThesis
Exam Date: 2023
Language: English
URN: urn:nbn:de:gbv:ma9:1-1981185920-1053769
Subjects: Datenspeicher
Datenstrukturen
High-performance computing (HPC) systems
Abstract: In times of continuously growing data sizes, performing insightful analysis is increasingly difficult. Therefore, it is vital to sift through the data volumes most efficiently. However, the hardware hierarchy of high-performance computing (HPC) systems complicates the data analysis. Another factor increasing the complexity is the software stack on top. The stack splits into several mostly isolated layers. While this allows exchanging them, the isolation leads to performance and management issues, e.g., howand where to optimize the data access. To make filtering raw data easier, I/O libraries such as HDF5 (Hierarchical Data Format), and ADIOS2 (Adaptable IO System), and the according self-describing data formats are used. The goal is to provide self-explanatory data that can be exchanged between researchers easily through annotating the data, e.g. with information about the experiment. However, queries on this metadata are difficult as it is currently stored inside the corresponding data formats on data servers. Therefore, the starting point of this thesis is to dissect the HDF5 and ADIOS2’s BP file formats into file metadata, such as variables and attributes, and the data. Splitting the formats enables novel and highly efficient data management techniques without redundancy. By also replacing the file system underneath with the storage framework JULEA, dedicated backends like key-value, relational databases and object stores can be used to manage the different data categories. This approach is kept transparent to the application layer by implementing the separation inside the I/O library. Besides designing and implementing two custom storage engines, a novel data analysis interface (DAI) for JULEA has been developed. The DAI combines the possibility to pre-compute post-processing operations, e.g. computing the mean, with the option to tag specific features to reduce data access during analysis. The evaluation showed that the format dissection alone is not always beneficial when using a slow backend. However, when bringing the format dissection, the file metadata management in a relational database and the DAI together, the performance can compete with the native ADIOS2 engines when writing data even if the backend itself is not changed. In combination they can also outperforms the native engines by up to a factor of 60,000 when the custom metadata is queried. In conclusion, the proposed approach provides sufficient performance for the I/O typically performed in a large simulation while offering significant improvements for the post-processing. All this can be achieved without changing the application code because of the default pre-computation of statistics like the mean, thereby preserving the efforts that went into the development.
In Zeiten ständig wachsender Datenmengen wird es immer schwieriger, aufschlussreiche Analysen durchzuführen. Daher ist wichtig, die Datenmengen möglichst effizient zu durchforsten. Die Hardware-Hierarchie von High-Performance-Computing-Systemen (HPC) erschwert jedoch die Datenanalyse. Ein weiterer Faktor, der die Komplexität erhöht, ist der darüber liegende Software-Stack. Der Stack teilt sich in mehrere meist isolierte Schichten auf. Dies ermöglicht zwar den Austausch von Daten, aber die Isolierung führt zu Leistungs- und Verwaltungsproblemen, z. B. bei der Frage, wie und wo der Datenzugriff optimiert werden kann. Um die Filterung von Rohdaten zu erleichtern, werden E/A-Bibliotheken wie HDF5 (Hierarchical Data Format) und ADIOS2 (Adaptable IO System) sowie die entsprechenden selbstbeschreibenden Datenformate verwendet. Ziel ist es, selbsterklärende Daten zur Verfügung zu stellen, die durch Annotation der Daten, z.B. mit Informationen über das Experiment, leicht zwischen Forschern ausgetauscht werden können. Die Abfrage dieser Metadaten ist jedoch schwierig, da sie derzeit innerhalb der entsprechenden Datenformate auf Datenservern gespeichert sind. Daher ist der Ausgangspunkt dieser Arbeit die Zerlegung der HDF5- und der ADIOS2 Dateiformate (BP3, BP4, BP5) in Dateimetadaten, wie Variablen und Attribute, und die Daten. Die Aufspaltung der Formate ermöglicht neue und effiziente Datenverwaltungstechniken. Indem das darunter liegende Dateisystem durch das Speicherframework JULEA ersetzt wird, können dedizierte Backends wie Key-Value-Stores, relationale Datenbanken und Objektspeicher für die Verwaltung der verschiedenen Datenkategorien verwendet werden. Dieser Ansatz wird für die Anwendungsschicht transparent gehalten, indem die Trennung innerhalb der I/O-Bibliothek implementiert wird. Neben dem Entwurf und der Implementierung von zwei Speicher-Engines wurde eine neuartige Datenanalyse-Schnittstelle (DAI) für JULEA entwickelt. Das DAI kombiniert die Möglichkeit, Post-Processing-Operationen, z.B. die Berechnung des Mittelwerts, vorzuberechnen, mit der Option, bestimmte Merkmale zu markieren, um den Datenzugriff während der Analyse zu reduzieren. Die Evaluation hat gezeigt, dass die Formatzerlegung allein nicht immer von Vorteil ist, wenn ein langsames Backend verwendet wird. Wenn jedoch die Formatzerlegung, die Verwaltung von Dateimetadaten in einer relationalen Datenbank und das DAI zusammengebrachtwerden, kann die Leistung beim Schreiben von Daten mit den nativen ADIOS2-Engines konkurrieren, selbst wenn das Backend selbst nicht geändert wird. In Kombination können sie auch die nativen Engines um einen Faktor von bis zu 60.000 übertreffen, wenn die benutzerdefinierten Metadaten abgefragt werden. Zusammenfassend lässt sich sagen, dass der vorgeschlagene Ansatz eine ausreichende Leistung für die E/A bietet, die typischerweise in einer großen Simulation durchgeführt wird, und gleichzeitig signifikante Verbesserungen für das Post-Processing bietet. All dies kann erreicht werden, ohne dass der Anwendungscode geändert werden muss, da Statistiken wie der Mittelwert standardmäßig vorberechnet werden, wodurch die Ressourcen, die in die Entwicklung geflossen sind, erhalten bleiben.
URI: https://opendata.uni-halle.de//handle/1981185920/105376
http://dx.doi.org/10.25673/103422
Open Access: Open access publication
License: (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0(CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0
Appears in Collections:Fakultät für Informatik

Files in This Item:
File Description SizeFormat 
Duwe_Kira Isabel_Dissertation_2023.pdfDissertation3.82 MBAdobe PDFThumbnail
View/Open