Classification of Hierarchical Document Spaces Using Machine Learning Technologies

Durch die Zunahme an textuellen Daten entsteht die Notwendigkeit automatische Methoden zur Datenorganisation einzusetzen. Die automatische Textklassifikation ist eine dieser Techniken. Sie ordnet Textdokumente auf inhaltlicher Basis automatisch einer definierten Menge von Klassen zu.

Die Klassen sind meist hierarchisch strukturiert, wobei die meisten heutigen Klassifikationsansätze diese Struktur ignorieren. Dadurch geht a priori Information verloren. Die vorliegende Arbeit beschäftigt sich mit der Nutzung hierarchischer Strukturen zur Verbesserung von Genauigkeit und Zeitkomplexität. BoosTexter und der hier neu vorgestellte CenroidBooster, Algorithmen aus dem Bereich des maschinellen Lernens, werden als hierarchische Klassifikationsmethoden eingesetzt. Die bei hierarchischer Klassifikation entstehenden Probleme der Fehlerfortpflanzung von hierarchisch höheren Knoten und des Vergleichens von Entscheidungen aus unahängig trainierten Blättern werden dabei berücksichtigt.

Die Verfahren werden anhand bekannter Datensätze, dem Reuters-21578, Reuters Corpus Volume 1 und Ohsumed Datensatz (die verwendete Version liegt hier) analysiert. Dabei dienen Support Vector Maschinen und Rocchio, beides State of the Art Techniken, als Vergleichsbasis. Die Vergleiche zwischen Ergebnissen erfolgen anhand statistischer Signifikanztests. Die Ergebnisse zeigen, daß abhängig von der hierarchischen Struktur, Genauigkeit und Zeitkomplexität verbessert werden können. Der Ansatz zum Vergleich von unabhängig trainierten Blättern verbessert die Genauigkeit ebenfalls.

Michael Granitzer

Kontakt

Wenn Sie diese Seite nutzen stimmen Sie der Verwendung von Cookies zu mehr Information

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close