xxx

Das Ziel einer Knowledge Discovery Applikationen ist es, aus großen Datenmengen maschinell Information und Muster zu extrahieren. Dabei folgen die meisten Applikationen den gleichen Aufbau. Daten werden eingelesen und transformiert und dadurch in eine Form gebracht, die es maschinellen Methoden erlaubt diese auszuwerten, typischerweise organisiert in sogenannten Instanzen und Features. Hier kommt oft das Vector Space Modell zum Einsatz, in dem die Daten in einer Matrix angeordnet werden. Diese Arbeit beschreibt einen Ansatz, der diese limitierte Daten-Repräsentation in einer Reihe von Aspekten erweitert, um die Information innerhalb eines Daten-Satzes zu extrahieren, im Speziellen jene Information, die in der Beziehungen zwischen Features latent vorhanden ist. Eine zwei-dimensionale Matrix kann in einen bi-partiten Graphen transformiert werden. Diese Daten-Struktur kann dann erweitert werden zu einer n-partiten Graph-Struktur, in der Knoten die Features innerhalb des Daten-Satzes repräsentieren. Zusätzliche Flexibilität kann gewonnen werden, indem die Knoten erweitert werden, um zusätzliche Information aufzunehmen, beispielsweise um externe Quellen anzubinden. Typischerweise geht eine allgemeinere, flexiblere Daten-Struktur mit höheren Laufzeit-Anforderungen einher, die oft einen praktischen Einsatz unmöglich macht. Der vorgestellte Ansatz erreicht dieses hohe Maß an Flexibilität, ohne allerdings ein Laufzeitverhalten aufzuweisen, das durch die theoretische Obergrenze der Laufzeitkomplexität vorgegeben ist. Um die praktischen Nutzen des Ansatzes zu demonstrieren, werden eine Reihe von Knowledge Discovery Applikationen vorgestellt. Diese Applikationen unterscheiden sich in dem Ausmaß an benötigter Flexibilität und Größe der verwendeten Datensätze. Um die allgemeine Nützlichkeit des Ansatzes zu unterstreichen, unterscheiden sich die vorgestellten Applikationen auch hinsichtlich ihrer Domäne. Diese sind Social Web, Information Retrieval und Natural Language Processing. Startend mit einem Recommender System, das eine einfache Daten-Repräsentation verwendet, steigert sich die Flexibilität bis zu einer komplexen Applikation aus dem Bereich der Sprach-Technologien. Hier werden statistische, semantische und strukturelle Informationen ausgewertet um mehrdeutige Wörter mittels eines unüberwachten Lernverfahrens aufzulösen.  

Klassifikation als Teilgebiet des überwachten Lernens ist ein wichtiges Gebiet des Data Minings und der Wissenserschließung. Normalerweise werden Klassifikatoren von ExpertInnen auf dem Gebiet des Maschinellen Lernens erstellt. Daraus folgt aber auch, dass die EndanwenderInnen im Allgemeinen nicht wissen, wie und warum der Klassifikator welche Entscheidungen trifft. Dieses fehlende Verständnis führt wiederum zu fehlendem Vertrauen in die Algorithmen. Außerdem ist es nicht möglich, wertvolles Domänenwissen in die Algorithmen zu integrieren, wenn man die AnwenderInnen aus dem Erstellungs-und Adaptionssprozess von Klassifikatoren ausschließt. In dieser Arbeit wird das Konzept von visuell unterst ̈tzter Klassifikation beschrieben. Es wird untersucht, ob eine st stärkere Integration von EndanwenderInnen in den Data Mining Prozess mit Hilfe von interaktiven Visualisierungen die Erstellung, das Verstehen, die Beurteilung und die Adaption von Klassifikatoren verbessern kann. Dafür werden mehrere Visualisierungen, die unabhängig vom spezifischen Klassifikator angewendet werden können, entworfen und implementiert. Weiterhin wird das Konzept des Visuellen Aktiven Lernens als Erweiterung des Aktiven Lernens im Data Mining eingeführt. In Experimenten werden diese Visualisierungen und das Visuelle Aktive Lernen hinsichtlich ihrer Verwendbarkeit für das Verstehen, die Beurteilung und die Adaption von Klassifikatoren evaluiert. In Experimenten konnte Folgendes gezeigt werden: Erstens, die entwickelten Visualisierungen können AnwenderInnen das Verstehen und Beurteilen von Klassifikationsmodellen ermöglichen. Zweitens, eine Visualisierung für einen speziellen Textklassifikator erlaubt AnwenderInnen Zugriff auf das interne Klassifikationsmodell. Drittens, eine Kombination aus Datenvisualisierungung und Klassifikatorvisualisierung ermöglicht DomänenexpertInnen, Klassifikatoren neu zu erstellen. Viertens, Visuelles Aktives Lernen liefert bessere Ergebnisse als klassisches Aktives Lernen in klassifikatorunabhängigen Fällen. Fünftens, eine Darstellung von automatisch extrahierten Schlüsselphrasen aus Texten ermöglicht ein schnelles und akkurates Annotieren von Textdokumenten und damit schnelles und akkurates Generieren von Trainingsdaten für die Textklassifikattion. Es kann geschlussfolgert werden, dass die Kombination aus Klassifikation und Visualisierung, d.h. visuell unterstützte Klassifikation, ein sinnvoller Ansatz ist. Von einer engeren Einbindung von DomänenexpertInnen in Klassifikationsanwendungen profitieren sowohl die Algorithmen, als auch die AnwenderInnen.  

Tagging bezeichnet das Annotieren von digitalen Ressourcen mit Schlagworten - so genannten "Tags" - mit dem Zweck Information besser zu organisieren, leichter wiederfindbar zu machen und deren gemeinsame Nutzung zu ermöglichen. Gegenwärtig existiert im Web eine große Anzahl von Applikationen die es Benutzern erlauben Informationen zu annotieren. Diese Systeme werden soziale Taggingsysteme genannt. Delicious beispielsweise erlaubt Benutzern ihre Lesezeichen mit Hilfe von Tags zu organisieren. In Flickr können Benutzer Bilder verschlagworten und YouTube ermöglicht die Vergabe von Tags um Videos innerhalb des Systems leichter auffindbar zu machen. Obwohl diese Systeme in den letzten Jahren zunehmend in den Fokus der Forschung gerückt sind, ist noch immer wenig über die Verwendung von Tags innerhalb dieser Plattformen und die damit einhergehenden Absichten der Benutzer bekannt. In weiterer Folge gibt es auch keine Studien darüber wie sich die Motivation von Benutzern und das daraus resultierende Verhalten in den Eigenschaften eines solchen Systems widerspiegeln. Die vorliegende Arbeit führt die Unterscheidung zweier neuer Arten von Taggingmotivation ein - Beschreibung und Kategorisierung. Bisher verfügbare Arbeiten, die sich mit der Analyse von Motivation in sozialen Taggingsystemen beschäftigen, basieren entweder auf der Einschätzung von Experten oder der Auswertung von Fragebögen. Bis heute existiert keine automatisierte Untersuchung von Taggingmotivation in diesen Systemen. Diese Dissertation stellt eine quantitative Analyse von Benutzermotivation vor, bei der statistische Eigenschaften des Tagvokabulars eines Benutzers untersucht werden. Für die Unterscheidung der zwei Arten von Taggingmotivation werden eine Reihe von Methoden eingeführt und sowohl qualitativ als auch quantitativ evaluiert. Als Resultat dieser Untersuchungen wird die Messung von Taggingmotivation mithilfe einfacher statistischer Größen ermöglicht. In zusätzlichen Experimenten wird analysiert, wie sich Daten der zwei Benutzergruppen unterschiedlich auf verschiedene Methoden der Wissenserschließung in Taggingsystemen auswirken. Besonderes Augenmerk wird hierbei auf die automatische Klassifikation sowie das Erfassen von Semantik gelegt. Die Resultate der Experimente zeigen, dass Kategorisierer besser für soziale Klassifikationszwecke geeignet sind, während Beschreiber besser zu der in Taggingsystemen auftretenden Semantik beitragen. Diese Ergebnisse zeigen einen Zusammenhang zwischen der Verwendung dieser Systeme und der in ihnen vorkommenden Semantik. Dies lässt darauf schließen, dass sich das Verhalten von Benutzern auf die Struktur dieser Systeme auswirkt - Information die besonders für Designer und Architekten dieser Plattformen von Bedeutung ist. Der wissenschaftliche Beitrag der vorliegenden Arbeit liegt in der Einführung und Unterscheidung zweier Arten von Taggingmotivation und der damit verbundenen Methoden um zwischen ihnen zu differenzieren. Mithilfe einer Auswertung auf mehreren Taggingdatensätzen wird gezeigt, dass Taggingmotivation sowohl innerhalb einzelner als auch zwischen unterschiedlichen Plattformen variiert. Des Weiteren wird der Einfluss der einzelnen Taggingmotivationsgruppen auf Verfahren der Wissenserschließung analysiert. Diese Arbeit ist relevant für Wissenschafter und Systemdesigner die an Benutzermotivation in sozialen Taggingsystemen und den daraus resultierenden Auswirkungen interessiert sind.  

 Das World Wide Web hat das Kommunikationsverhalten von Menschen sowie den Austausch von Informationen grundlegend verändert. Eine ständig wachsende Menge an digitalen Inhalten wird produziert und am Web verfügbar gemacht. Die Ideen des Semantic Webs und des Linking Open Data (LOD) Projekts tragen dazu bei, um den Zugriff auf Informationen am Web effizient zu ermöglichen. Durch derartige Ansätze wird es möglich, dass automatisierte Anwendungen Menschen bei deren Informationsbedürfnissen und täglichen Aufgaben unterstützen. Im Fokus dieser Dissertation stehen Herangehensweisen, um die Generierung und Nutzung von Linked Data zu optimieren. Die Forschungsarbeiten wurden in drei Themenbereiche gegliedert, welche besonders zur Optimierung von Linked Data beitragen: das Erstellen von vernetzbaren Daten, das Vernetzen von Linked Data und das Konsumieren von Linked Data. Zwei Hauptanwendungsfälle begleiten die Arbeit. Der erste Anwendungsfall "riese" befindet sich im Bereich öffentlicher Daten und stellt EuroStat Statistiken als Linked Data zur Verfügung. Der zweite Anwendungsfall "Link2WoD" adressiert die Medienindustrie und wurde entwickelt, um Online-Redakteure zu unterstützen. Der Demonstrator kann jedoch auch allgemein als Werkzeug für die Anreicherung von unstrukturierten Daten mit Linked Data eingesetzt werden. In der Arbeit werden Möglichkeiten für das Erstellen von vernetzbaren Daten aus strukturierten Daten, welche meist als relationale Daten vorliegen, gezeigt. Motiviert durch einen unserer Anwendungsfälle wird das Statistical Core Vocabulary (SCOVO) vorgestellt, welches der Repräsentation von statistischen Daten als Linked Data dient. Es erfolgt auch eine kurze Darstellung von Herangehensweisen, um vernetzbare Daten aus unstrukturierten Datenquellen zu extrahieren. In Bezug auf das Vernetzen von Linked Data werden sowohl benutzerbasierte wie auch automatische Methoden vorgestellt. Mit dem "User Contributed Interlinking" (UCI) haben wir eine auf Prinzipien von Wikis basierende Herangehensweise präsentiert, welche es Benutzern ermöglicht, einfach Links zu Datenbeständen hinzuzufügen. Darüber hinaus werden weitere Anwendungsbeispiele dieser Methodik gezeigt sowie automatisierte Ansätze, welche auf speziellen Spezifikationen und konzeptuellen Beziehungen basieren. Für das Konsumieren von Linked Data werden allgemeine Ansätze diskutiert, um die Daten sowohl für Menschen als auch für eine maschinelle Verarbeitung nutzbar zu machen. Dies erfolgt auch anhand einer Darstellung unserer Anwendungsfälle und Demonstratoren in den Anwendungsgebieten von öffentlichen Daten und in der Medienindustrie. Schließlich werden allgemeine Trends und Ideen für zukünftige Arbeiten präsentiert, um das volle Potenzial des Webs auszuschöpfen.