This work presents the design and scientific background of a web-based information extraction system using the open-source GATE-library 1 (General Architecture for text engineering) [Ham12]. The application provides an extendable architecture for server-based high-level information extraction. Textual resources are annotated using a set of tools according to both, their semantic and grammatical representation. These annotations are then presented to the user via a web-interface.

Das Ziel dieser Arbeit ist das Extrahieren, Evaluieren und Speichern von Informationen aus tweets, wodurch eine Schnittstelle zwischen dem World Wide Web und dem semantischen Web modelliert wird. Unter der Verwendung des microblogging- und sozialen Netzwerkdienstes Twitter, wird ein Datensatz von tweets generiert. Dieser wird auf so genannte, von uns definierten, facts untersucht. Diese Filterung wird mit Hilfe von regular expressions (regex) durchgeführt. Die so gefundenen facts werden mit spezifischer Metainformation versehen und in einer Datenbank abgespeichert. Dies ermöglicht Maschinen die Daten intelligent zu durchsuchen und logische Verknüpfungen zwischen den Daten herzustellen. Durch die Verwendung der Programmiersprache Java ist die Applikation systemunabhängig. Die Arbeit liefert einfache Verständnisserklärungen zum semantischen Web, regex und Twitter, welche für die Applikation notwendig sind. Weiters werden das Konzept, verwendete Methoden, auftretende Probleme und gewonnene Resultate diskutiert.