Multi-Domain Klassifikation basierend auf nutzergenerierten Metadaten
Abstract
Die stetig wachsende Informationsvielfalt im World Wide Web stellt Suchmaschinendienste kontinuierlich vor die Herausforderung, für ihre Nutzer relevante Information zu finden und übersichtlich darzustellen. Ein Ansatz zur Verbesserung besteht darin, die Nutzer bei der Strukturierung von Informationen einzubinden. Dies ist allerdings mit hohem Aufwand verbunden und setzt die Beteiligung vieler Nutzer voraus. Eine einfache Form der Strukturierung erfolgt derzeit durch Social Bookmarking Dienste, wie Delicious, Flickr oder Mister Wrong. Diese Dienste erlangen einen immer höheren Grad der Beliebtheit und erfreuen sich an kontinuierlich wachsenden Nutzerzahlen. In dieser Diplomarbeit werden zunächst vorhandene Verfahren zur Strukturierung von Informationen vorgestellt. Es wird untersucht ob sich mit dem Clustering-Verfahren der probabilistischen latenten semantischen Analyse (PLSA), aus den mit Social Bookmarking Diensten, nutzergenerierten Metadaten eine starke Struktur extrahieren lässt. Dazu werden in Delicious die durch Nutzer gespeicherten Wikipedia-URLs mittels PLSA thematisch gruppiert. Die Gruppierung wird dann mit dem bereits vorhandenen Kategoriesystem der Wikipedia verglichen.