Dipl.-Ing. Roman Kern absolvierte mit Auszeichnung seine Dissertation zum Thema „Framework für das Berechnen von Feature-Assoziationen für Knowledge Discovery Applikationen“ am Institut für Wissensmanagement der Technischen Universität Graz und im Bereich Knowledge Relationship Discovery des Know-Center. Article only available in German.

Der Themenleiter des Forschungsteams Knowledge Discovery am Know-Center zeigt sich sehr stolz auf seine richtungsweisende Arbeit: „Das Framework ist zukunftssicher und lässt sich in Big Data Applikationen einfach integrieren“. Kern schloss seine Arbeit im Dezember 2012 mit Auszeichnung ab: „Das ist wirklich ein umfassendes Werk. Man könnte fast von einem Lehrbuch sprechen – allerdings auf höchstem Level“, freut sich Univ.-Prof. Dr. Stefanie Lindstaedt.

Das Ziel einer Knowledge Discovery Applikation ist es, aus großen Datenmengen maschinell Information und Muster zu extrahieren. Dabei folgen die meisten Applikationen den gleichen Aufbau: Daten werden eingelesen und transformiert und dadurch in eine Form gebracht, die es maschinellen Methoden erlaubt, diese auszuwerten, typischerweise organisiert in sogenannten Instanzen und Features. Hier kommt oft das Vector Space-Modell zum Einsatz, in dem die Daten in einer Matrix angeordnet werden.

Kerns Arbeit beschreibt einen Ansatz, der diese limitierte Daten-Repräsentation in einer Reihe von Aspekten erweitert, um die Information innerhalb eines Daten-Satzes zu extrahieren, im Speziellen jene Information, die in den Beziehungen zwischen Features latent vorhanden ist. Eine zwei-dimensionale Matrix kann in einen bi-partiten Graphen transformiert werden. Diese Daten-Struktur kann dann zu einer „n-partiten Graph-Struktur“ erweitert werden, in der Knoten die Features innerhalb des Daten-Satzes repräsentieren. Zusätzliche Flexibilität kann mit der Erweiterung der Knoten gewonnen werden, um zusätzliche Information aufzunehmen, beispielsweise um externe Quellen anzubinden. Typischerweise geht eine allgemeinere, flexiblere Daten-Struktur mit höheren Laufzeit-Anforderungen einher, die oft einen praktischen Einsatz unmöglich macht. Der von Kern vorgestellte Ansatz erreicht dieses hohe Maß an Flexibilität, ohne allerdings ein Laufzeitverhalten aufzuweisen, das durch die theoretische Obergrenze der Laufzeitkomplexität vorgegeben ist.

Zur Demonstration des praktischen Nutzens des Ansatzes wurden eine Reihe von Knowledge Discovery Applikationen vorgestellt. Diese Applikationen unterscheiden sich in dem Ausmaß an benötigter Flexibilität und Größe der verwendeten Datensätze. Um die allgemeine Nützlichkeit des Ansatzes zu unterstreichen, unterscheiden sich die vorgestellten Applikationen auch hinsichtlich ihrer Domäne. Diese sind Social Web, Information Retrieval und Natural Language Processing. Beginnend mit einem Recommender System, das eine einfache Daten-Repräsentation verwendet, steigert sich die Flexibilität bis zu einer komplexen Applikation aus dem Bereich der Sprach-Technologien. Hier werden statistische, semantische und strukturelle Informationen ausgewertet, um mehrdeutige Wörter mittels eines unüberwachten Lernverfahrens aufzulösen. „Das Interessante und Spannende dabei war, diese unterschiedliche Computer Science Subdomänen mit einem einzigen algorithmischen Ansatz zu vereinen“, betont Kern abschließend in diesem Zusammenhang.