Innovation
8. August 2013
Höherer IQ für Web Intelligence: Bewertung von Film-, Buch- & Produktreviews im Net verbessert
MODUL University Vienna macht Zweideutigkeiten automatisch erkennbar
Stimmungen und Meinungen aus sehr großen Online- Textmengen herauszufiltern ist jetzt präziser als je zuvor möglich. Dank einer an der MODUL University Vienna entwickelten automatischen Methode gelingt es erstmals, doppeldeutige Begriffsverwendungen zu erkennen und korrekt zu interpretieren. Die international anerkannte Technologie erkennt Zusammenhänge zwischen Wortbedeutungen und dem speziellen Kontext des jeweiligen Textabschnitts. Die Technologie ist dabei für die Anwendung auf verschiedenste Quellen im Internet optimiert und ist damit anderen Methoden überlegen, die erst auf spezielle Domänen „trainiert“ werden müssen.
Produktbeurteilungen, Filmreviews oder Buchrezensionen – im Net wird Stimmung gemacht und blitzschnell verstärkt. Das resultierende „Top“ oder „Flop“ entscheidet über Milliardenumsätze. Konzerne setzen daher mehr und mehr auf Web Intelligence: das rasche Erkennen von breiten Meinungsströmungen durch die Analyse Web-basierter Texte. Dessen enorme wirtschaftliche Bedeutung führt zum Wunsch nach immer höherer Genauigkeit. Diese erlaubt jetzt eine grundlegende Neuerung eines Teams um Prof. Arno Scharl, Leiter des Instituts für Neue Medientechnologie an der MODUL University Vienna.
Eindeutige Doppeldeutigkeit
Das Team befasste sich mit einem bekannten Problem: die automatische Interpretation von Begriffen, deren Bedeutung vom Kontext des Begriffes verändert wird. So lässt z. B. das Wort „Beschwerde“ bei einer Hotelbewertung im Internet schon Böses ahnen. Anders ist das aber, wenn es lautet: „Meine einzige Beschwerde wäre …“. Ein konstruktiver Kritikpunkt ergänzt hier eine positive Beurteilung. Dazu Prof. Scharl: „Einfache Systeme zur Bestimmung von Sentiment erkennen einen Wandel der sogenannten Polarität vom Negativen ins Positive nicht. Der Begriff „Beschwerde“ würde immer als negativer Begriff eingestuft. Da der Gesamttext am Ende aber nach der Häufigkeit von „eher negativen“ oder „eher positiven“ Begriffen beurteilt wird, steigt mit solchen Systemen die Gefahr einer Fehlbeurteilung.“
Zentraler Aspekt der nun im renommierten Fachjournal IEEE Intelligent Systems veröffentlichten Methode ist die Erstellung sogenannter „Contextualized Sentiment Lexicons“. Diese Datenbanken verbinden Begriffe, die Stimmungen ausdrücken und in ihrer Polarität gedreht werden können, mit solchen, deren Polarität konstant ist.
Zum Erstellen dieser Lexika werden zunächst doppeldeutige Begriffe identifiziert. Dazu wird auf Texte zurückgegriffen, deren Stimmungen zuvor schon als positiv oder negativ kategorisiert wurden. Dann werden in diesen Texten die Häufigkeiten jener Begriffen erfasst, die Stimmungen ausdrücken können. Begriffe, die in positiven und negativen Texten annähernd gleich häufig auftreten, werden anschließend als doppeldeutig kategorisiert. Offensichtlich eignen sie sich ja sowohl zum Ausdrücken positiver wie auch negativer Stimmungen.
Prägendes Umfeld
In einem zweiten Schritt der Erstellung von Contextualized Sentiment Lexicons wird dann die Häufigkeit von Wörtern identifiziert, die gemeinsam mit dem jeweiligen doppeldeutigen Begriff vorkommen – wobei differenziert wird, ob dies in einem positiven oder negativen Kontext geschieht. Kommt also z. B. der Begriff „Beschwerde“ in positiven Texten häufig in Zusammenhang mit „einzige“ vor, so wird dieser Zusammenhang gespeichert. Bei der Analyse eines unbekannten Textes wird dann erkannt, dass der Begriff in diesem Kontext positiv gemeint ist. „Alle doppeldeutigen Begriffe eines Textes werden so mit einem Wert versehen, der Auskunft über die Polarität und die Stärke der ausgedrückten Stimmung gibt“, erläutert Prof. Scharl die Funktion der Methode weiter. „Die Werte doppeldeutiger Begriffe eines Textes werden mit vergleichbaren Werten eindeutiger Begriffe aufsummiert. Diese Summe reflektiert die Stimmung des Gesamtdokuments.“
Ein wesentlicher Vorteil der neuen Methode ist auch, dass sie unabhängig von der Art des Textes funktioniert. Vergleichbare existierende Systeme werden z.B. für Filmreviews optimiert und scheitern dann bei der Analyse von z.B. Produktbewertungen. Die an der MODUL University Vienna entwickelte Methode analysiert jedoch unterschiedlichste Textarten, um Gemeinsamkeiten zu finden, die allgemein anwendbar sind. Gerade dieser Vorteil ist auch auf umfangreiche Technologien zurückzuführen, die an der MODUL University Vienna in den letzten Jahren unter anderem im Projekt DIVINE („Dynamic Integration and Visualization of Information from Multiple Evidence Sources“) entwickelt wurden. Die Ergebnisse dieses von der Österreichischen Forschungsförderungsgesellschaft FFG bzw. dem Bundesministerium für Verkehr, Innovation und Technologie finanzierte Projekt kommen derzeit bereits im Rahmen der webLyzard Web Intelligence Plattform zum Einsatz. Diese wurde bereits im Jahr 2008 zum Monitoring von Online-Meinungen im Rahmen der US-Präsidentschaftswahlen verwendet. Eine Anwendung, die noch im selben Jahr mit dem ersten Preis in der „Web 2.0“ Kategorie beim Österreichischen Staatspreis in Multimedia und e-Business ausgezeichnet wurde.
Weiterführende Information
- DIVINE Projekt | www.weblyzard.com/divine
- Institut für Neue Medientechnologie | www.modul.ac.at/nmt
Originalpublikation: Extracting and Grounding Contextualized Sentiment Lexicons. A. Weichselbraun, S. Gindl and A. Scharl. IEEE Intelligent Systems, 28(2): 39-46.
http://eprints.weblyzard.com/69Über die MODUL University Vienna (Stand August 2013)
Die MODUL University Vienna, die internationale Privatuniversität der Wirtschaftskammer Wien, bietet Studienprogramme (BBA, BSc, MSc, MBA und PhD Programme) aus den Bereichen Internationale Wirtschaft und Management, Neue Medientechnologie, öffentliche Verwaltung und nachhaltige Entwicklung sowie Tourismus und Hospitality Management an. Die Studienprogramme erfüllen strenge Akkreditierungsrichtlinien und werden aufgrund der internationalen Ausrichtung in Englisch abgehalten. Der Campus der Universität befindet sich am Kahlenberg im 19. Wiener Gemeindebezirk. Das Forschungsprogramm des Instituts für Neue Medientechnologie beschäftigt sich mit der Auswirkung von Online-Medien und sozialen Netzwerkplattformen auf Stakeholder-Kommunikation und öffentliche Meinungsbildungsprozesse und wie mittels semantischer Technologien solche Prozesse erfasst, analysiert und visualisiert werden können.
Kontakt:
Univ.-Prof. DDr. Arno Scharl MODUL University Vienna
Institut für Neue Medientechnologie Am Kahlenberg 1
1190 Wien
T +43 / 1 / 320 3555-500
E arno.scharl@modul.ac.at
W http://www.modul.ac.at/nmt
Redaktion & Aussendung:
PR&D – Public Relations für Forschung & Bildung
Mariannengasse 8
1090 Wien
T+43/1/5057044
E contact@prd.at
W http://www.prd.at