Ein MediaWiki ist eine Social Web Applikation, welche es einer Gruppe von Personen einfach ermöglicht Informationen kollaborativ zusammenzutragen, Text zu erstellen und aktuell zu halten. Die wichtigsten Funktionen eines MediaWikis sind, das Erstellen und Bearbeiten von Artikeln, das Verlinken der Artikeln um eine Navigation zwischen den Artikeln zu ermöglichen und das Zusammenfassen der Artikeln in Kategorien ([Barrett, 2009]). Unter gewissen Umständen ist es notwendig die Qualität eines Artikels in einem MediaWiki einzuschätzen bzw. die Qualität eines Artikels zu steigern. Nach [Wang & Strong, 1996] hat schlechte Qualität von Daten einen erheblichen sozialen und wirtschaftlichen Einfluss. Im Rahmen dieser Arbeit wurde wissenschaftliche Literatur, die sich mit der Qualität von Artikeln und Daten beschäftigt, analysiert und zusammengefasst. Aus dem Ergebnis dieser Analyse und in Zusammenarbeit mit einem Unternehmen wurden Features formuliert, die dazu führen, dass die Qualität von MediaWiki Artikeln eingeschätzt werden kann und des Weiteren den Benutzern eines Mediawikis dabei unterstützen die Qualität von Artikeln zu steigern. Nachdem Features gefunden wurden, wurde ein Prototyp von einer Toolbar mit diesen Features in Adobe Flex entwickelt, die als Erweiterung in ein MediaWiki eingebunden werden kann.

In this thesis we examine the automatic generation of training data in order to train a machine learning algorithm. We will use a rule-based approach to generate the training data which is build using the GATE Natural Language Processing framework. The machine learning algorithm is using a statistical model, the maximum entropy model (MEM) in our case, to do the information extraction task. We will introduce an architecture and an application for the automatic generation of training data. In order to test our approach we will introduce and adapt evaluation metrics. The implications of using automatic test data on the structure of the result will be elaborated. We will partition the error in different regions and see its impact. We see that under certain circumstances the statistical model outperforms the rule-based extraction algorithm, that was used to train that model.