Das Paper „An Unsupervised Machine Learning Approach to Body Text and Table of Contents Extraction from Digital Scientific Articles“ wurde auf der renommierten TPDL 2013 akzeptiert. This article is only available in German.

Die Konferenz zählt zu den führenden, internationalen Konferenzen zum Thema „Theory and Practice of Digital Libraries“ und wird vom 22.–26. September 2013 in Valletta (Malta) stattfinden. Die TPDL ist der jährliche Treffpunkt sowohl für Forscher und Entwickler als auch Anbieter, Vertreter und Nutzer von digitalen Bibliotheken.

Im Paper – von Dr. Roman Kern und DI Stefan Klampfl (Knowledge Relationship Discovery) verfasst – wird ein System vorgestellt, das die logische Struktur einer wissenschaftlichen Publikation in Form eines PDF Dokuments auf Basis von maschinellen Lernfervahren und Heuristiken erkennt. Diese logische Struktur besteht aus der Zuordnung von einzelnen Textblöcken in verschiedene Kategorien (Überschriften, Haupttext, Tabellen, etc.) und wird schließlich dazu benutzt, den Fließtext sowie das Inhaltsverzeichnis des Artikels zu extrahieren. Eine solche automatisierte Verarbeitung ist angesichts der wachsenden Menge an wissenschaftlicher Publikationen von besonderer Relevanz.

Nähere Informationen zur Konferenz finden Sie unter: http://www.tpdl2013.info/