A mobile application is developed which supports a doctor in the treatment of stroke patents in the phase when they are already at home. Specifically it supports the anaysis of the activity level and type of a stroke patient after he is send home. Quantitative measures for activity level and activity type are calculated using mobile Phone Sensors like Accelerometer, Gyroscope and Compass. The activity levels diversified are standing still, using a wheel chair, using a walking frame, walking on your own, or other.The gathered information then can be shown to a doctor giving him a clear, quantifyable view of the developement of the activity level of the patient....

die herkömmlichen Datenbanklösungen wie RDBMS wurden zu der Zeit entworfen, in der das heutige Wachstum der Daten nicht vorstellbar war. Während dieses Wachstum besonders in den letzten Jahren geschah, versuchten Unternehmen ihre Datenbanklösungen der neuen Anforderung anzupassen. Die Tatsache ist aber, dass die klassischen Datenbanksysteme wie RDBMS für Skalierung nicht geeignet sind. Neue Technologien mussten geschaffen werden, um mit diesem Problem leichte umgehen zu können und das ist genau das Thema dieser Arbeit. Die neuen Technologien, die zum Bearbeiten von Big Data entworfen sing gehören meistens zu der Hauptkategorie NoSQL. Diese Arbeit diskutiert die Herausforderungen vom Umgang mit großen Datenmengen und versucht, eine Grenze klarzustellen, mit der z.B. eine Firma wissen kann, ob sie für ihre Anwendungen eine NoSQL-Technologie braucht oder würde auch ein RDBMS reichen. Diese Arbeit diskutiert auch das geeignete Datenmodel das für verschiede NoSQL Technologien. Am Ende der Arbeit gibt es einen praktischen Teil, wo drei Kandidaten  von verschiedenen NoSQL-Kategorien gegeneinander evaluiert werden. 

Eine Vielzahl von Softwareherstellern haben sich mit der Unternehmenssuche beschäftigt, undunterschiedliche Enterprise Search Lösungen mit breitem Funktionsspektrum präsentiert. Um dieEnterprise Search Lösungen schnell und effizient untereinander vergleichen zu können, wurdedie Systemarchitektur der Suchlösungen modelliert und mittels Fundamental Modeling Concepts(FMC) dargestellt. Dies bietet die Möglichkeit sich einen Überblick über die einzelnen Lösungenzu verschaffen, ohne sich mit unzähligen Informationen in Datenblättern und Whitepapers herum-zuschlagen. Das Portfolio der zu vergleichenden Enterprise Search Lösungen erstreckt sich von denMarktführern wie Microsoft und Google, dem marktführendem Unternehmen für Suchtechnologieim Raum Deutschland, Österreich und der Schweiz - IntraFind - bis hin zu den Visionären wieCoevo, Sinequa und Dassault Systems.Aus den durch den Vergleich gewonnenen Informationen wurde der Microsoft SharePoint 2013 fürdie prototypische Umsetzung in einem Systemlabor ausgewählt. Entscheidender Grund dafür wardie Kosten/Nutzen-Frage. Microsoft ist einer der wenigen Anbieter die eine kostenlose Versionfür eine Einstiegs- bzw. Pilotlösung zur Verfügung stellen. Die Enterprise Search Lösung wurdeauf einer virtuellen Maschine installiert, und vor der vollständigen Ausrollung am Virtual VehicleResearch Center von zehn Mitarbeitern aus zwei verschiedenen Arbeitsbereichen (Informationsma-nagement und Engineering-Bereich) auf Nützlichkeit und Qualität der Suchergebnisse getestet. Esgibt kaum Studien wie Suchlösungen im Engineeringbereich eingesetzt werden bzw. wie Engineersmit solchen Suchlösungen umgehen und wie zufrieden sie eigentlich damit sind. Diese Tatsacheführte dazu, dass zur Evaluierung der Pilot-Suchlösung eine Kombination aus Thinking AloudTest und Interview eingesetzt wurde. Mittels Interview wurden Informationen zu den Probandengesammelt, aus welchen geeignete Suchtasks für die Testpersonen abgeleitet wurden, welcheim Rahmen des Thinking Aloud Tests von dem jeweiligen Probanden gelöst werden mussten.Anschließend wurde die Testperson zu Qualität der Suchergebnisse, Sucherlebnis und Nützlichkeitder Unternehmenssuche befragt.Es hat sich gezeigt, dass die Mitarbeiter Schwierigkeiten haben, die geeigneten Keywörter für dieSuche zu definieren. Je mehr sie jedoch über die gesuchte Information Bescheid wussten, destoleichter fiel es den Probanden passende Keywörter zu definieren. Kritisch wurde auch die Relevanzder Suchergebnisse bewertet. Die Probanden waren der Meinung, dass sie beim Suchen dergewünschten Informationen mittels Suchinterface mehr Zeit beanspruchen, als bei ihrer derzeitigenSuchmethodik. Es hat sich herausgestellt, dass Metadaten für die Suche von großer Bedeutung sind.Sie enthalten wichtige Informationen, welche das Suchen von Informationen wesentlich erleichtert.Die Probanden müssen ihren Informationsbedarf auch ohne die Unternehmenssuche decken, daherwurde im Rahmen der Evaluierung die derzeitige Suchstrategie der Probanden behandelt.Basierend auf den Aussagen der Probanden konnten aus der Evaluierung Anforderungen an Enter-prise Search Lösungen abgeleitet und Informationen gesammelt werden. Diese Anforderungenund Informationen liefern für die IT-Abteilung wichtiges Feedback, welches bei der Ausrollungdes Pilotprojektes unterstützen soll. 

The presented research provides an answer for the detection of anomalies in big datawhen the processing of the information has to be done in “quasi” real-time.An overview of the following topics is given:• what big data is• available tools for processing big data, as well as doing it in real-time• existing approaches to detecting anomaliesDifferent outlier detection algorithms are not only studied theoretically, but also practi-cally. The strengths and flaws of each approach are evaluated to see which are more-likelyto be used in each instance to deal with the data at its arrival time.Furthermore, those algorithms are tested with a dataset in order to observe a practicalapplication of anomaly detection.In conclusion, a statistical approach to the outlier detection problem gives the mostaccurate results when using “near” real-time systems. The depth and density approachesalso obtain quality results, but run into problems when clusters of outliers are conformed.

In this thesis an approach for Authorship Attribution is presented with a focus on Webforums. The approach thereby is based on distance metrics for comparision betweenfrequency vectors of multiple feature spaces, which are extracted by the existing NaturalLanguage Processing tools and used in existing literature on authorship attribution.An algorithm trains a model using these features obtained for each of the authors withinthe data set. The source of the data are Web forums messages, which are crawled withthe existing tools for a subsequent HTML parse and further analysis. The classifierdecides the authorship weighting each of the features. In total three aproaches weretested, taking into account different feature space weighting strategies.To allow the conclussions to generalise, the evaluated data sets were assembled formultiple languages (English, German and Spanish), as well as multiple topics. Theresults achieved show a promising result, specially with longer messages, where moredata is available. In contrary to existing research n-gram features do not appear to bethe best feature for authorship attribution for Web forums.

Table recognition is an important task in information retrieval anddocument analysis. Most scientic work today is available in the formof PDF documents, and tables within those documents often containvaluable information. Various approaches for table recognition ex-ist, common to all is the need for ground-truthed datasets, to trainalgorithms or to evaluate the results.Herein is presented a web-application for annotating elements andregions in PDF documents, in particular tables. The collected datais intended to serve as a ground truth useful to machine learning al-gorithms for detecting table regions and table structure, as well asto determine the quality and relevance of various table detection ap-proaches. The software system allows for previous attempts of auto-matic table detection to be imported, examined and further renedand corrected, thus providing a framework for visualizing results of ta-ble recognition. A survey is conducted, showing that the usage of thetool is convenient, compared to three other ways of creating groundtruth of tables in documents. The quality of the ground truth is as-sessed by comparison to other datasets and human evaluation. Thesoftware system is available under the terms of the Apache 2.0 License.

Knowledge workers are exposed to many influences which have the potential to interrupt work. The impact of these influences on individual’s, not only knowledge workers, often cause detrimental effects on physical health and well-being. Twelve knowledge workers took part as participants of the experiment conducted for this thesis. The focus of the experiment was to analyse if sound level and computer interactions of knowledge workers can predict their self reported stress levels. A software system was developed using sensors on knowledge worker’s mobile and desktop devices. Records of PC activity contain information about foreground windows and computer idle times. Foreground window records include the timestamp when a window received focus, the duration the window was held in the foreground, the window title and the unique number identifying the window. Computer idle time records contain information about the timestamp when idle time began and the duration. Computer idle time was recorded only after a minimum idle interval of one minute. Sound levels were recorded using an smartphone’s microphone (Android). The average sound pressure level from the audio samples was computed over an one minute timeframe. Once initialized with an anonymous participant code, the sensors record PC activity and sound level and upload the records enriched with the code to a remote service. The service uses a key value based database system with the code as key and the collection of records as value. The service stores the records for each knowledge worker over a period of ten days. After this period, the preprocessing component of the system splits the records of PC activity and sound level into working days and computes measures approximating worktime fragmentation and noise. Foreground window records were used to compute the average time a window was held in the foreground and the average time an application was held in the foreground. Applications are sets of foreground window records which share the same window title. Computer idle time records were used to compute the number of idle times between one and five minutes and the period of those idle times which lasted more than twenty. From the sound pressure levels the average level and the period of all levels which exceeded 60 decibels were computed. The figures were computed with the scope of an participant’s working day for five different temporal resolutions. Additionally, the stress levels are computed from midday and evening scales. Participants recorded stress levels two times a working day and entered them manually in the system. The first self report was made close to lunch break and the second at the end of an day at work. Since participants forgot to enter self assessed stress levels, the number of working days containing data of all types ranges between eight and ten. As a result, the preprocessing component stores the measures and stress levels used by the stress predicition analysis component. The correlation of the measures with the self reported stress levels showed that a prediction of those stress levels is possible. The state of well-being (mood, calm) increased the higher the number of idle times between one and five minutes in combination with an sound pressure level not exceeding 60 decibels.