Efficent Data Structures for Knowledge Relationship Discovery

Das Ziel einer Knowledge Discovery Applikationen ist es, aus großen Datenmengen maschinell Information und Muster zu extrahieren. Dabei folgen die meisten Applikationen den gleichen Aufbau. Daten werden eingelesen und transformiert und dadurch in eine Form gebracht, die es maschinellen Methoden erlaubt diese auszuwerten, typischerweise organisiert in sogenannten Instanzen und Features. Hier kommt oft das Vector Space Modell zum Einsatz, in dem die Daten in einer Matrix angeordnet werden. Diese Arbeit beschreibt einen Ansatz, der diese limitierte Daten-Repräsentation in einer Reihe von Aspekten erweitert, um die Information innerhalb eines Daten-Satzes zu extrahieren, im Speziellen jene Information, die in der Beziehungen zwischen Features latent vorhanden ist. Eine zwei-dimensionale Matrix kann in einen bi-partiten Graphen transformiert werden. Diese Daten-Struktur kann dann erweitert werden zu einer n-partiten Graph-Struktur, in der Knoten die Features innerhalb des Daten-Satzes repräsentieren. Zusätzliche Flexibilität kann gewonnen werden, indem die Knoten erweitert werden, um zusätzliche Information aufzunehmen, beispielsweise um externe Quellen anzubinden. Typischerweise geht eine allgemeinere, flexiblere Daten-Struktur mit höheren Laufzeit-Anforderungen einher, die oft einen praktischen Einsatz unmöglich macht. Der vorgestellte Ansatz erreicht dieses hohe Maß an Flexibilität, ohne allerdings ein Laufzeitverhalten aufzuweisen, das durch die theoretische Obergrenze der Laufzeitkomplexität vorgegeben ist. Um die praktischen Nutzen des Ansatzes zu demonstrieren, werden eine Reihe von Knowledge Discovery Applikationen vorgestellt. Diese Applikationen unterscheiden sich in dem Ausmaß an benötigter Flexibilität und Größe der verwendeten Datensätze. Um die allgemeine Nützlichkeit des Ansatzes zu unterstreichen, unterscheiden sich die vorgestellten Applikationen auch hinsichtlich ihrer Domäne. Diese sind Social Web, Information Retrieval und Natural Language Processing. Startend mit einem Recommender System, das eine einfache Daten-Repräsentation verwendet, steigert sich die Flexibilität bis zu einer komplexen Applikation aus dem Bereich der Sprach-Technologien. Hier werden statistische, semantische und strukturelle Informationen ausgewertet um mehrdeutige Wörter mittels eines unüberwachten Lernverfahrens aufzulösen.  

Roman Kern

Kontakt

Wenn Sie diese Seite nutzen stimmen Sie der Verwendung von Cookies zu mehr Information

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close