Die zentrale Herausforderung für die Entwicklung von Software für arbeitsintegriertes Lernen (work-integrated learning, WIL) ist es, Lerninhalte bereitzustellen, die an die situativen Gegebenheiten und das Vorwissen der NutzerInnen angepasst sind (adaptive Systeme). Um Adaptivität zu realisieren ist ein Benutzermodell (User Model) erforderlich, das kontinuierlich an den Lernfortschritt angepasst wird. Im Gegensatz zum Schul- und Universitätskontext existieren kaum adaptive Systeme zur Unterstützung von WIL. Ziel meiner Masterarbeit war es, ein WIL User Model, WIL User Model Services und eine Software-Architektur zur Unterstützung von WIL zu entwickeln. Das WIL System sollte sich an die Arbeitsaufgabe und das Vorwissen der BenutzerInnen anpassen, reale Arbeitsdokumente als Lerninhalte benützen und in die Arbeitsumgebung der Benutzer integriert sein. Anforderungen für das System wurden einerseits aus der Theorie zu WIL und andererseits aus existierenden Use Cases abgeleitet. Die Anforderungsanalyse ergab, dass drei Arten von Funktionalität zentral für die Unterstützung von WIL erscheinen: Non-invasive Wissensdiagnose, Empfehlungen von Inhalten und Empfehlungen von ExpertInnen. In meiner Mas- terarbeit wurden diese Funktionalitäten über verschiedene Arten von User Model Services konzeptualisiert (Logging, Production, Inference und Control Services), die gemeinsam die WIL User Model Services (WIL UMS) bilden. Die WIL UMS wur- den prototypisch im adaptiven WIL System APOSDLE implementiert. APOSDLE’s Benutzermodell wird über Log Daten (“Knowledge Indicating Events”) automatisch aktualisiert. Ausgehend vom Benutzermodell empfiehlt APOSDLE reale Arbeitsdo- kumente und ExpertInnen. APOSDLE und die WIL UMS wurden als intelligente Lösung zur Unterstützung von WIL in vier Unternehmen installiert, und sind in die Arbeitsumgebung der BenutzerInnen integriert.  

Die Handhabung einer riesigen Menge an stetig steigender persönlicher Daten wird immer schwieriger. Durch unauffällige Überwachung des Benutzers kann der derzeitige Benutzerkontext erfasst werden und dem Wissensarbeiter dadurch bessere Unterstützung ermöglicht werden. Das Ziel dieser Masterarbeit ist es, für eine aktuelle Aufgabe relevante Entitäten in einem Benutzer-Interaktions-Kontext-Modell zu ermitteln. Ein Aktivierungsausbreitungsansatz wird auf die Graphenstruktur eines Benutzer-Interaktions-Kontext-Modells angewandt um, basierend auf dem derzeitigen Benutzerkontext, relevante Aufgaben des selben und eines anderen Benutzers zu finden. Das Benutzer-Interaktions-Kontext-Modell, die entstandene Ontologie and die automatischen Populationsmechanismen wurden von Andreas Rath als Teil seiner Forschungstätigkeit verwirklicht. Die Ziele dieser Masterarbeit sind (a) die Identifikation von relevanten Aufgaben in einem Benutzer-Interaktions-Kontext-Modell, (b) die Ermittlung von Konzepten und Eigenschaften der Benutzer-Interaktions-Kontext-Ontologie für den Aktivierungsausbreitungsansatz, (c) die Evaluierung der erforderlichen Anzahl an Iterationen sowie (d) die Evaluierung einer gute Ergebnisse liefernden Kombination von Aktivierungsabbau, Schwellwert und Relationsgewichtung für den Aktivierungsausbreitungsansatz und (e) die Visualisierung des Aktivierungsausbreitungsgraphen basierend auf dem Benutzer-Interaktions-Kontext-Graphen.  

Das automatische Auffinden von Dokumenten in digitalen Bibliotheken und dem World Wide Web gewinnt Aufgrund der riesigen Datenmengen zunehmend an Bedeutung. Focused Crawling hat zum Ziel nur themenrelevante Dokumente abzufragen und wird deshalb hauptsächlich im Bereich von themenspezifischen Suchmaschinen eingesetzt. Crawler werden auch dazu verwendet um das World Wide Web nach Daten von individuellem Interesse abzusuchen. Im Umfeld von digitalen Bibliotheken kommt Focused Crawling beim Erzeugen von Dokumenten Sammlungen und zur Verwaltung dieser zum Einsatz. Focused Crawling, und damit auch diese Arbeit, gliedert sich in zwei Teilbereiche, einem Web Mining Teil und einen Strategie-Planungs Teil. Der Web Mining Teil behandelt dabei auftretende Probleme im Bereich von Skalierung und Performanz. Das in dieser Arbeit vorgestellte KFetch WebMiner System, ein erweiterbares und flexibles Crawling System, bietet Lösungen fuer die wichtigsten Probleme im Bereich von Web Mining an. Der zweite Teil der Arbeit befasst sich mit Information Retrieval und Maschinellem Lernen im Bereich von Focused Crawling. Verschiedene Crawling Algorithmen werden hier miteinander verglichen und der Einfluss von "Whitelist" und "Blacklists" wird untersucht. Es hat sich herausgestellt, dass die Verwendung von "Whitelists" zu einer Verbesserung führen kann. Des Weiteren wird ein Crawling Algorithmus vorgestellt, der auf Reinforcement Learning mit Funktions Approximation und Vorwissen basiert.

Linked Data bietet einen Rahmen für die Erstellung, Veröffentlichung und Weitergabe von Informationen durch den Einsatz semantischer Technologien. Die Linking Open Data Initiative spielt durch die Veröffentlichung und Vernetzung verschiedenster Datenquellen im Internet eine wichtige Rolle bei der Realisierung des Semantic Web auf globaler Ebene. Der Zugriff auf eine riesige Menge an Linked Data eröffnet spannende Möglichkeiten für die nächste Generation Web-basierter Anwendungen. Es gibt jedoch noch immer viel zu wenige Anwendungsfälle, die das volle Potential von Linked Data nutzen. Dies liegt hauptsächlich an einigen offenen Fragestellungen im Zusammenhang mit der Verwertung und der Veröffentlichung von Linked Data sowie mit Applikationen, die auf Linked Data aufbauen, sowohl aus Sicht der Entwickler als auch der Anwender.Diese Dissertation soll die Kernthemen der Verwendung von Linked Data adressieren (z. B. Suchen und Abfragen, vereinfachte Benutzeroberflächen, Identity Management und Disambiguierung) sowie die Veröffentlichung von Linked Data erleichtern. Es werden konzeptionelle Modelle präsentiert, die dabei helfen können, das Linked Data Ökosystem besser zu verstehen. Darüber hinaus wird ein innovativer Ansatz vorgestellt, um durch den intelligenten Einsatz semantischer Technologien eine einfach zu bedienende Anwendung für normale Web-Nutzer zu entwickeln. Diese Anwendung kann durch den Einsatz von Linked Data relevante Informationen automatisch erfassen, verarbeiten und präsentieren und dabei  komplexe semantische Mechanismen und Abfragestrukturen verbergen. Insgesamt leistet diese Arbeit Beiträge in fünf Bereichen:Erstens identifiziert diese Arbeit die Notwendigkeit von konzeptionellen Konstrukten, um Linked Data  besser zu verstehen, und stellt die Linked Data Wertschöpfungskette vor. Ferner werden mögliche Problembereiche aufgezeigt; einer davon der Mangel an benutzerfreundlichen Schnittstellen für die Nutzung von Linked Data Ressourcen. Zweitens wird eine Technik zum Auffinden relevanter URIs aus unterschiedlichen Datensätzen von Linked Data entwickelt und implementiert, um tiefere Einblicke zu gewinnen und die Suchmechanismen für verknüpfte Daten zu vereinfachen. Drittens wird eine benutzerfreundliche Schnittstelle für die Erkundung von Linked Data namens CAF-SIAL (Concept Aggregation Framework for Structuring Information Aspects of Linked Open Data) vorgestellt. Dieses Framework ist in der Lage, Informationen in einer benutzerfreundlichen Umgebung zu strukturieren und darzustellen. Die Anwender müssen dabei nicht mehr lernen, wie Linked Data Konstrukte abgefragt und durchforstet werden. Die Ergebnisse der Evaluierung zeigen, dass dieses vollautomatische System die Nutzer bei der Exploration von Linked Data Ressourcen unterstützt.Viertens wurde ein HTML-Archiv eines digitalen Journals RDFiziert und automatisch mit externen Linked Data Ressourcen verknüpft. Anschließend wurde es der Linked Data Community öffentlich zur Verfügung gestellt. Fünftens wurde, um den Mehrwert der Linked Data Cloud zu demonstrieren, CAF-SIAL in zwei Anwendungsfällen eingesetzt: In einer digitalen Zeitschrift (Journal of Universal Computer Science) wurden Autoren mit ihren Profilen verknüpft, die von CAF-SIAL basierend auf Linked Data erstellt wurden, um die Nutzer der Zeitschrift dabei zu unterstützen, zusätzliche Informationen für die Zusammenarbeit zu finden. In einem zweiten Anwendungsfall wurden potentielle Experten von einem Expertise Mining System in einem hyperbolischen Baum visualisiert. Diese Experten wurden dann mit ihren Profilen in CAF-SIAL verknüpft, was sich als sehr nützlich für die Verwalter der Zeitschrift bei der Identifizierung und Zuordnung von Rezensenten in einer Peer-Review-Umgebung erwies.

Ein MediaWiki ist eine Social Web Applikation, welche es einer Gruppe von Personen einfach ermöglicht Informationen kollaborativ zusammenzutragen, Text zu erstellen und aktuell zu halten. Die wichtigsten Funktionen eines MediaWikis sind, das Erstellen und Bearbeiten von Artikeln, das Verlinken der Artikeln um eine Navigation zwischen den Artikeln zu ermöglichen und das Zusammenfassen der Artikeln in Kategorien ([Barrett, 2009]). Unter gewissen Umständen ist es notwendig die Qualität eines Artikels in einem MediaWiki einzuschätzen bzw. die Qualität eines Artikels zu steigern. Nach [Wang & Strong, 1996] hat schlechte Qualität von Daten einen erheblichen sozialen und wirtschaftlichen Einfluss. Im Rahmen dieser Arbeit wurde wissenschaftliche Literatur, die sich mit der Qualität von Artikeln und Daten beschäftigt, analysiert und zusammengefasst. Aus dem Ergebnis dieser Analyse und in Zusammenarbeit mit einem Unternehmen wurden Features formuliert, die dazu führen, dass die Qualität von MediaWiki Artikeln eingeschätzt werden kann und des Weiteren den Benutzern eines Mediawikis dabei unterstützen die Qualität von Artikeln zu steigern. Nachdem Features gefunden wurden, wurde ein Prototyp von einer Toolbar mit diesen Features in Adobe Flex entwickelt, die als Erweiterung in ein MediaWiki eingebunden werden kann.

In this thesis we examine the automatic generation of training data in order to train a machine learning algorithm. We will use a rule-based approach to generate the training data which is build using the GATE Natural Language Processing framework. The machine learning algorithm is using a statistical model, the maximum entropy model (MEM) in our case, to do the information extraction task. We will introduce an architecture and an application for the automatic generation of training data. In order to test our approach we will introduce and adapt evaluation metrics. The implications of using automatic test data on the structure of the result will be elaborated. We will partition the error in different regions and see its impact. We see that under certain circumstances the statistical model outperforms the rule-based extraction algorithm, that was used to train that model.