Von 04. bis 08. März 2019 findet an der Universität Rostock die 18. Fachtagung für "Datenbanksysteme für Business, Technologie und Web" statt. Der Experte für Datenmanagement Matthias Böhm vom Know-Center wird das Paper “Efficient Data-Parallel Cumulative Aggregates for Large-Scale Machine Learning” präsentieren.

Die Fachtagung „Datenbanksysteme für Business, Technologie und Web“ (BTW) der Gesellschaft für Informatik (GI) ist die bedeutendste Datenbanktagung im deutschsprachigen Raum. Seit 1985 findet sie alle zwei Jahre statt und ist zu einem zentralen Forum für den rechtlichen Austausch von Wissenschaftlern, Praktikern und Anwendern zu Themen der Datenbank- und Informationssystemtechnologie geworden.

5 Tage an wissenschaftlichen Tagungsprogrammpunkten, einem Industrieprogramm und diversen Systemdemonstrationen bilden den Kern der 18. BTW-Tagung. Dabei werden offene Fragestellungen sowie bekannte Lösungsansätze behandelt. Inhaltliche Schwerpunkte bilden in diesem Jahr diese aktuellen Themen: Neue Hardware- und Speichertechnologien, Datenintegration und -extraktion, Provenance-Management, Datenschutz, Big Data Analytics, Cloud Computing sowie neue Anwendungsbereiche und Architekturansätze für die Datenverwaltung.

Der Donnerstag steht unter dem Vorzeichen “Machine Learning”. Matthias Böhm, BMVIT Stiftungsprofessor für Datamanagement am ISDS und Area Head für Data Management am Know-Center, wird dabei in seiner Session das aktuelle Paper “Efficient Data-Parallel Cumulative Aggregates for Large-Scale Machine Learning” vorstellen. Tutorien, Workshops sowie ein Studierendenprogramm runden die Tagung fachlich ab, sodass zukünftige Herausforderungen ausführlich untersucht und diskutiert werden können.

Zum Programm der BTW 2019

Literatur:
Matthias Boehm, Alexandre V. Evfimievski, Berthold Reinwald: Efficient Data-Parallel Cumulative Aggregates for Large-Scale Machine Learning.

Abstract:
Cumulative aggregates are often overlooked yet important operations in large-scale machine learning (ML) systems. Examples are prefix sums and more complex aggregates, but also preprocessing techniques such as the removal of empty rows or columns. These operations are challenging to parallelize over distributed, blocked matrices—as commonly used in ML systems—due to recursive data dependencies. However, computing prefix sums is a classic example of a presumably sequential operation that can be efficiently parallelized via aggregation trees. In this paper, we describe an efficient framework for data-parallel cumulative aggregates over distributed, blocked matrices. The basic idea is a self-similar operator composed of a forward cascade that reduces the data size by orders of magnitude per iteration until the data fits in local memory, a local cumulative aggregate over the partial aggregates, and a backward cascade to produce the final result. We also generalize this framework for complex cumulative aggregates of sum-product expressions, and characterize the class of supported operations. Finally, we describe the end-to-end compiler and runtime integration into SystemML, and the use of cumulative aggregates in other operations. Our experiments show that this framework achieves both high performance for moderate data sizes and good scalability.