Sentiment-Analysis durch überwachtes Lernen: Vergleich und Bewertung von Konzepten zur Vorverarbeitung

URL
Dokumentart: Bachelor Thesis
Institut: Department Informatik
Sprache: Deutsch
Erstellungsjahr: 2012
Publikationsdatum:
SWD-Schlagwörter: Vorverarbeitung
DDC-Sachgruppe: Informatik

Kurzfassung auf Deutsch:

Sentiment-Analysis wird durch die wachsende Anzahl der Informationen in Textform im Internet immer wichtiger. Diese Bachelorarbeit untersucht verschiedene Vorverarbeitungskonzepte zur Verbesserung der Sentiment-Analysis, die durch überwachtes Lernen durchgeführt wird. Dazu zählen die Subjektivitätsanalyse und die Negationsverarbeitung. Zu den einzelnen Konzepten werden aktuelle Ansätze aus der Forschung erläutert und im Anschluss verglichen und bewertet. Im Rahmen der Arbeit wurde eine Testumgebung auf Basis von UIMA, einer Architektur zur Verarbeitung von unstrukturierten Informationen, wie natürlicher Sprache, entwickelt, mit der ein großer Teil der vorgestellten Ansätze getestet wurde. Die im praktischen Teil der Arbeit entwickelte Testumgebung ist wiederverwendbar und die damit erzielten Ergebnisse ermöglichen einen direkten Vergleich der vorstellten Ansätze, der so bisher noch nicht durchgeführt wurde. Die Testergebnisse zeigen, dass die vorgestellten Konzepte zur Vorverarbeitung dazu in der Lage sind, die Ergebnisse der Sentiment-Analysis von Dokumenten spürbar zu verbessern. Die vorgestellten Vorverarbeitungsschritte erreichen zusammen in der Untersuchung eine Verbesserung des F-Score-Wertes um 5% auf etwa 84%.

Kurzfassung auf Englisch:

Due to the increasing amount of written information, sentiment analysis techniques are getting more important. This thesis is about examining diUerent pre-processing concepts to improve sentiment analysis carried out by supervised learning, including subjectivity analysis and negation processing. Regarding each single concept current approaches in research are explained as well as compared and evaluated. As practical part of this work a test environment on a UIMA basis was developed. UIMA is an architecture for processing unstructured information such as natural language. It was used to test a large number of those approaches presented in this paper. The test environment which was developed in the practical part can be re-used and the results make it possible to compare the approaches directly which hasn’t been done so far. The test results show that the selected pre-processing concepts improve the results of sentiment analysis to a considerable degree. By means of the pre-processing steps altogether, a 5% increase of the F score to approximately 84% was achieved in this test.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.