xxx

Das Ziel einer Knowledge Discovery Applikationen ist es, aus großen Datenmengen maschinell Information und Muster zu extrahieren. Dabei folgen die meisten Applikationen den gleichen Aufbau. Daten werden eingelesen und transformiert und dadurch in eine Form gebracht, die es maschinellen Methoden erlaubt diese auszuwerten, typischerweise organisiert in sogenannten Instanzen und Features. Hier kommt oft das Vector Space Modell zum Einsatz, in dem die Daten in einer Matrix angeordnet werden. Diese Arbeit beschreibt einen Ansatz, der diese limitierte Daten-Repräsentation in einer Reihe von Aspekten erweitert, um die Information innerhalb eines Daten-Satzes zu extrahieren, im Speziellen jene Information, die in der Beziehungen zwischen Features latent vorhanden ist. Eine zwei-dimensionale Matrix kann in einen bi-partiten Graphen transformiert werden. Diese Daten-Struktur kann dann erweitert werden zu einer n-partiten Graph-Struktur, in der Knoten die Features innerhalb des Daten-Satzes repräsentieren. Zusätzliche Flexibilität kann gewonnen werden, indem die Knoten erweitert werden, um zusätzliche Information aufzunehmen, beispielsweise um externe Quellen anzubinden. Typischerweise geht eine allgemeinere, flexiblere Daten-Struktur mit höheren Laufzeit-Anforderungen einher, die oft einen praktischen Einsatz unmöglich macht. Der vorgestellte Ansatz erreicht dieses hohe Maß an Flexibilität, ohne allerdings ein Laufzeitverhalten aufzuweisen, das durch die theoretische Obergrenze der Laufzeitkomplexität vorgegeben ist. Um die praktischen Nutzen des Ansatzes zu demonstrieren, werden eine Reihe von Knowledge Discovery Applikationen vorgestellt. Diese Applikationen unterscheiden sich in dem Ausmaß an benötigter Flexibilität und Größe der verwendeten Datensätze. Um die allgemeine Nützlichkeit des Ansatzes zu unterstreichen, unterscheiden sich die vorgestellten Applikationen auch hinsichtlich ihrer Domäne. Diese sind Social Web, Information Retrieval und Natural Language Processing. Startend mit einem Recommender System, das eine einfache Daten-Repräsentation verwendet, steigert sich die Flexibilität bis zu einer komplexen Applikation aus dem Bereich der Sprach-Technologien. Hier werden statistische, semantische und strukturelle Informationen ausgewertet um mehrdeutige Wörter mittels eines unüberwachten Lernverfahrens aufzulösen.  

Klassifikation als Teilgebiet des überwachten Lernens ist ein wichtiges Gebiet des Data Minings und der Wissenserschließung. Normalerweise werden Klassifikatoren von ExpertInnen auf dem Gebiet des Maschinellen Lernens erstellt. Daraus folgt aber auch, dass die EndanwenderInnen im Allgemeinen nicht wissen, wie und warum der Klassifikator welche Entscheidungen trifft. Dieses fehlende Verständnis führt wiederum zu fehlendem Vertrauen in die Algorithmen. Außerdem ist es nicht möglich, wertvolles Domänenwissen in die Algorithmen zu integrieren, wenn man die AnwenderInnen aus dem Erstellungs-und Adaptionssprozess von Klassifikatoren ausschließt. In dieser Arbeit wird das Konzept von visuell unterst ̈tzter Klassifikation beschrieben. Es wird untersucht, ob eine st stärkere Integration von EndanwenderInnen in den Data Mining Prozess mit Hilfe von interaktiven Visualisierungen die Erstellung, das Verstehen, die Beurteilung und die Adaption von Klassifikatoren verbessern kann. Dafür werden mehrere Visualisierungen, die unabhängig vom spezifischen Klassifikator angewendet werden können, entworfen und implementiert. Weiterhin wird das Konzept des Visuellen Aktiven Lernens als Erweiterung des Aktiven Lernens im Data Mining eingeführt. In Experimenten werden diese Visualisierungen und das Visuelle Aktive Lernen hinsichtlich ihrer Verwendbarkeit für das Verstehen, die Beurteilung und die Adaption von Klassifikatoren evaluiert. In Experimenten konnte Folgendes gezeigt werden: Erstens, die entwickelten Visualisierungen können AnwenderInnen das Verstehen und Beurteilen von Klassifikationsmodellen ermöglichen. Zweitens, eine Visualisierung für einen speziellen Textklassifikator erlaubt AnwenderInnen Zugriff auf das interne Klassifikationsmodell. Drittens, eine Kombination aus Datenvisualisierungung und Klassifikatorvisualisierung ermöglicht DomänenexpertInnen, Klassifikatoren neu zu erstellen. Viertens, Visuelles Aktives Lernen liefert bessere Ergebnisse als klassisches Aktives Lernen in klassifikatorunabhängigen Fällen. Fünftens, eine Darstellung von automatisch extrahierten Schlüsselphrasen aus Texten ermöglicht ein schnelles und akkurates Annotieren von Textdokumenten und damit schnelles und akkurates Generieren von Trainingsdaten für die Textklassifikattion. Es kann geschlussfolgert werden, dass die Kombination aus Klassifikation und Visualisierung, d.h. visuell unterstützte Klassifikation, ein sinnvoller Ansatz ist. Von einer engeren Einbindung von DomänenexpertInnen in Klassifikationsanwendungen profitieren sowohl die Algorithmen, als auch die AnwenderInnen.  

Tagging bezeichnet das Annotieren von digitalen Ressourcen mit Schlagworten - so genannten "Tags" - mit dem Zweck Information besser zu organisieren, leichter wiederfindbar zu machen und deren gemeinsame Nutzung zu ermöglichen. Gegenwärtig existiert im Web eine große Anzahl von Applikationen die es Benutzern erlauben Informationen zu annotieren. Diese Systeme werden soziale Taggingsysteme genannt. Delicious beispielsweise erlaubt Benutzern ihre Lesezeichen mit Hilfe von Tags zu organisieren. In Flickr können Benutzer Bilder verschlagworten und YouTube ermöglicht die Vergabe von Tags um Videos innerhalb des Systems leichter auffindbar zu machen. Obwohl diese Systeme in den letzten Jahren zunehmend in den Fokus der Forschung gerückt sind, ist noch immer wenig über die Verwendung von Tags innerhalb dieser Plattformen und die damit einhergehenden Absichten der Benutzer bekannt. In weiterer Folge gibt es auch keine Studien darüber wie sich die Motivation von Benutzern und das daraus resultierende Verhalten in den Eigenschaften eines solchen Systems widerspiegeln. Die vorliegende Arbeit führt die Unterscheidung zweier neuer Arten von Taggingmotivation ein - Beschreibung und Kategorisierung. Bisher verfügbare Arbeiten, die sich mit der Analyse von Motivation in sozialen Taggingsystemen beschäftigen, basieren entweder auf der Einschätzung von Experten oder der Auswertung von Fragebögen. Bis heute existiert keine automatisierte Untersuchung von Taggingmotivation in diesen Systemen. Diese Dissertation stellt eine quantitative Analyse von Benutzermotivation vor, bei der statistische Eigenschaften des Tagvokabulars eines Benutzers untersucht werden. Für die Unterscheidung der zwei Arten von Taggingmotivation werden eine Reihe von Methoden eingeführt und sowohl qualitativ als auch quantitativ evaluiert. Als Resultat dieser Untersuchungen wird die Messung von Taggingmotivation mithilfe einfacher statistischer Größen ermöglicht. In zusätzlichen Experimenten wird analysiert, wie sich Daten der zwei Benutzergruppen unterschiedlich auf verschiedene Methoden der Wissenserschließung in Taggingsystemen auswirken. Besonderes Augenmerk wird hierbei auf die automatische Klassifikation sowie das Erfassen von Semantik gelegt. Die Resultate der Experimente zeigen, dass Kategorisierer besser für soziale Klassifikationszwecke geeignet sind, während Beschreiber besser zu der in Taggingsystemen auftretenden Semantik beitragen. Diese Ergebnisse zeigen einen Zusammenhang zwischen der Verwendung dieser Systeme und der in ihnen vorkommenden Semantik. Dies lässt darauf schließen, dass sich das Verhalten von Benutzern auf die Struktur dieser Systeme auswirkt - Information die besonders für Designer und Architekten dieser Plattformen von Bedeutung ist. Der wissenschaftliche Beitrag der vorliegenden Arbeit liegt in der Einführung und Unterscheidung zweier Arten von Taggingmotivation und der damit verbundenen Methoden um zwischen ihnen zu differenzieren. Mithilfe einer Auswertung auf mehreren Taggingdatensätzen wird gezeigt, dass Taggingmotivation sowohl innerhalb einzelner als auch zwischen unterschiedlichen Plattformen variiert. Des Weiteren wird der Einfluss der einzelnen Taggingmotivationsgruppen auf Verfahren der Wissenserschließung analysiert. Diese Arbeit ist relevant für Wissenschafter und Systemdesigner die an Benutzermotivation in sozialen Taggingsystemen und den daraus resultierenden Auswirkungen interessiert sind.  

Betrachtet man die Entwicklung von mobilen Geräten der letzten Jahre, sieht man, dass Smartphones und Tablets immer mehr an Bedeutung gewinnen. Alleine in Österreich machen Smartphones bereits rund ein Drittel aller Mobiltelefone aus. Diese Geräte bringen aber nicht nur von Generation zu Generation schnellere Prozessoren, leistungsstärkere Grafikkarten und mehr Speicher, sondern auch immer mehr Sensoren die mittels APIs auslesbar sind. Das bietet Wissenschaftlern die Daten über das menschliche Verhalten (Bewegungen, Kommunikation, tägliche Abläufe, etc.) im echten Leben aufzeichnen wollen, eine sehr einfache Möglichkeit Benutzerdaten von einer möglichst breiten Zielgruppe zu erhalten. Nachdem diese Sensoren aber nun alle nur erdenklichen Informationen gesammelt haben, stellt sich die Frage nach einer passenden Visualisierung all dieser Zahlen. Diese Masterarbeit beschäftigt sich mit genau dieser Visualisierung von mobilen Sensordaten direkt auf mobilen Endgeräten. In einem ersten Schritt wird eine genaue Analyse der Aufgabenstellung durchgeführt und auf die zu visualisierenden Sensordaten, die vorherrschenden Limitierungen von mobilen Geräten hinsichtlich von Hardware-Resourcen sowie auf die speziellen User-Interaktions Paradigmen auf mobilen Geräten eingegangen. Weiters werden in dieser Arbeit grundsätzliche Visualisierungen vorgestellt, die es ermöglichen sehr viele verschiedene Arten von Daten effizient darzustellen. Nach einer genaueren Beleuchtung und einem Vergleich von ähnlichen Arbeiten, beschreibt der Hauptteil dieser Masterarbeit die Umsetzung eines Visualisierungs-Frameworks, dass eine performante und interaktive Darstellung von mobilen Sensordaten direkt am Smartphone bzw. Tablet erlaubt. Dieses Visualisierungs-Framework wurde mit einem Sensing-Framework zu einem voll funktionsfähigen Prototypen namens iPeeper kombiniert, der Sensordaten aufzeichnet, darstellt, und über mehrere Geräte synchronisiert.  

Das Internet entwickelt sich von einer Sammlung miteinander verknüpfter Dokumente hin zu einem interaktiven Medium, in dem der Begriff der „Bedeutung“ mit der vermehrten Veröffentlichung von strukturierten, untereinander verlinkten und für Maschinen verständ- lichen Daten eine große Rolle spielt. Im Kontext dieser Arbeit wird die Entwicklung eines „Semantic Web“ und der damit verwandten Technologien, wie das „Resource Description Framework“ (RDF) oder die Abfragesprache SPARQL erläutert, und ein Wizard zur automatisierten Generierung von Abfragen an Repositories der „Linked Open Data Cloud“ entwickelt. Mit diesem SPARQL-Wizard soll es für einen User auf möglichst einfache Art und Weise möglich sein, die Vorteile des Semantic Web bei der Informationsbeschaffung zu nutzen.

Das Konzept des Semantic Web sieht vor, Informationen anhand ihrer inhaltlichen Zusammenhänge strukturiert anzubieten, wodurch sie mit Hilfe der ihnen zugewiesenen Schlagwörter auffindbar gemacht werden können. Der Zugriff auf diese Daten funktioniert mit Hilfe der so genannten SPARQL-Suchanfragen (Queries), indem gezielt angegeben wird, welche Daten aus dieser großen Menge extrahiert werden sollen. Nach dem Erhalt können diese Daten weiterverarbeitet und unter anderem für eine benutzerfreundliche Darstellung visualisiert werden. Die Visualisierung der semantischen Daten hat mittlerweile eine sehr große Bedeutung im Bereich des Wissensmanagements und ist auch das Thema dieser Masterarbeit.Es wurde im Bereich der Visualisierung heterogener Daten schon einiges realisiert, dennoch wurde dabei auf das Thema der Wiederverwendung wenig eingegangen. Das Ziel dieser Arbeit ist einen generischen Ansatz zur visuellen Repräsentation der heterogenen Daten anzubieten. Die Idee der generischen Lösung basiert dabei auf dem Konzept der systematischen Wiederverwendung, nämlich der Softwareproduktlinien.Das für diesen Zweck entwickelte Framework unterstützt eine Reihe von interaktiven Diagrammen. Der Benutzer kann auf diesem Framework für eine SPARQL-Query eine Visualisierung durchführen und sie anschließen speichern. Um die gespeicherten Diagramme wieder zu verwenden kann das Framework anhand einer Query kontaktiert und das fertige Diagramm clientseitig angezeigt werden. Das Framework wurde so konzipiert, dass der Client ohne großen Aufwand ein Diagramm erstellen und in der Rolle des Entwicklers sogar das Framework um neue Diagramme erweitern kann, die dann als Visualisierungsvorlage angeboten werden.Die am Ende durchgeführte quantitative Evaluierung hat gezeigt, dass für dieses Framework vorgenommene Ansatz verglichen mit der traditionelle Methode zur Visualisierung effizienter ist.

This work presents the design and scientific background of a web-based information extraction system using the open-source GATE-library 1 (General Architecture for text engineering) [Ham12]. The application provides an extendable architecture for server-based high-level information extraction. Textual resources are annotated using a set of tools according to both, their semantic and grammatical representation. These annotations are then presented to the user via a web-interface.

Das Ziel dieser Arbeit ist das Extrahieren, Evaluieren und Speichern von Informationen aus tweets, wodurch eine Schnittstelle zwischen dem World Wide Web und dem semantischen Web modelliert wird. Unter der Verwendung des microblogging- und sozialen Netzwerkdienstes Twitter, wird ein Datensatz von tweets generiert. Dieser wird auf so genannte, von uns definierten, facts untersucht. Diese Filterung wird mit Hilfe von regular expressions (regex) durchgeführt. Die so gefundenen facts werden mit spezifischer Metainformation versehen und in einer Datenbank abgespeichert. Dies ermöglicht Maschinen die Daten intelligent zu durchsuchen und logische Verknüpfungen zwischen den Daten herzustellen. Durch die Verwendung der Programmiersprache Java ist die Applikation systemunabhängig. Die Arbeit liefert einfache Verständnisserklärungen zum semantischen Web, regex und Twitter, welche für die Applikation notwendig sind. Weiters werden das Konzept, verwendete Methoden, auftretende Probleme und gewonnene Resultate diskutiert.

 Das World Wide Web hat das Kommunikationsverhalten von Menschen sowie den Austausch von Informationen grundlegend verändert. Eine ständig wachsende Menge an digitalen Inhalten wird produziert und am Web verfügbar gemacht. Die Ideen des Semantic Webs und des Linking Open Data (LOD) Projekts tragen dazu bei, um den Zugriff auf Informationen am Web effizient zu ermöglichen. Durch derartige Ansätze wird es möglich, dass automatisierte Anwendungen Menschen bei deren Informationsbedürfnissen und täglichen Aufgaben unterstützen. Im Fokus dieser Dissertation stehen Herangehensweisen, um die Generierung und Nutzung von Linked Data zu optimieren. Die Forschungsarbeiten wurden in drei Themenbereiche gegliedert, welche besonders zur Optimierung von Linked Data beitragen: das Erstellen von vernetzbaren Daten, das Vernetzen von Linked Data und das Konsumieren von Linked Data. Zwei Hauptanwendungsfälle begleiten die Arbeit. Der erste Anwendungsfall "riese" befindet sich im Bereich öffentlicher Daten und stellt EuroStat Statistiken als Linked Data zur Verfügung. Der zweite Anwendungsfall "Link2WoD" adressiert die Medienindustrie und wurde entwickelt, um Online-Redakteure zu unterstützen. Der Demonstrator kann jedoch auch allgemein als Werkzeug für die Anreicherung von unstrukturierten Daten mit Linked Data eingesetzt werden. In der Arbeit werden Möglichkeiten für das Erstellen von vernetzbaren Daten aus strukturierten Daten, welche meist als relationale Daten vorliegen, gezeigt. Motiviert durch einen unserer Anwendungsfälle wird das Statistical Core Vocabulary (SCOVO) vorgestellt, welches der Repräsentation von statistischen Daten als Linked Data dient. Es erfolgt auch eine kurze Darstellung von Herangehensweisen, um vernetzbare Daten aus unstrukturierten Datenquellen zu extrahieren. In Bezug auf das Vernetzen von Linked Data werden sowohl benutzerbasierte wie auch automatische Methoden vorgestellt. Mit dem "User Contributed Interlinking" (UCI) haben wir eine auf Prinzipien von Wikis basierende Herangehensweise präsentiert, welche es Benutzern ermöglicht, einfach Links zu Datenbeständen hinzuzufügen. Darüber hinaus werden weitere Anwendungsbeispiele dieser Methodik gezeigt sowie automatisierte Ansätze, welche auf speziellen Spezifikationen und konzeptuellen Beziehungen basieren. Für das Konsumieren von Linked Data werden allgemeine Ansätze diskutiert, um die Daten sowohl für Menschen als auch für eine maschinelle Verarbeitung nutzbar zu machen. Dies erfolgt auch anhand einer Darstellung unserer Anwendungsfälle und Demonstratoren in den Anwendungsgebieten von öffentlichen Daten und in der Medienindustrie. Schließlich werden allgemeine Trends und Ideen für zukünftige Arbeiten präsentiert, um das volle Potenzial des Webs auszuschöpfen.