Named-Entity-Expansion mit Wikipedia-Daten in automatisierter Multidokumenten-Zusammenfassung
Abstract
Die Aufgabe von Multidokument-Zusammenfassungssystemen ist es, aus einer Menge von Texten eine natürlichsprachliche Zusammenfassung zu erzeugen. Da eine Zusammenfassung, wie sie ein Mensch erstellen würde, Textverständnis voraussetzt, beschränken sich gängige Ansätze auf die Extraktion von einzelnen Sätzen. Dafür werden die passendsten Sätze durch den Vergleich ihrer Wörter mithilfe von Wortähnlichkeitsmaßen bestimmt. Dieser Vergleich wird dadurch erschwert, dass es viele Wörter mit ähnlicher Bedeutung, aber unterschiedlicher Schreibweise gibt. Um die Leistung der Zusammenfasser zu verbessern, sollen in dieser Arbeit für den Wortvergleich Zusatzinformationen herangezogen werden. Orte, Personen und Organisationen im Text (Named Entities) werden mit verwandten Begriffen aus Wikipedia-Artikeln ergänzt. Diese Expansion ermöglicht einen verbesserten Wortvergleich durch eine Erweiterung des nutzbaren Wortkontextes. Die Named-Entity-Expansion wird als Komponente in ein bestehendes Multidokument-Zusammenfassungssystem für Nachrichtenartikel integriert. Es werden Erkenntnisse über Methoden und Anwendung der Expansion präsentiert und die Auswirkungen der Expansion auf die Qualität der erstellten Zusammenfassungen werden klar abgegrenzt evaluiert.