Sentiment-Analysis durch überwachtes Lernen: Vergleich und Bewertung von Konzepten zur Vorverarbeitung

Eichler, Tobias

License:
Title:	Sentiment-Analysis durch überwachtes Lernen: Vergleich und Bewertung von Konzepten zur Vorverarbeitung
Language:	German
Authors:	Eichler, Tobias
Issue Date:	17-Oct-2012
Abstract:	Sentiment-Analysis wird durch die wachsende Anzahl der Informationen in Textform im Internet immer wichtiger. Diese Bachelorarbeit untersucht verschiedene Vorverarbeitungskonzepte zur Verbesserung der Sentiment-Analysis, die durch überwachtes Lernen durchgeführt wird. Dazu zählen die Subjektivitätsanalyse und die Negationsverarbeitung. Zu den einzelnen Konzepten werden aktuelle Ansätze aus der Forschung erläutert und im Anschluss verglichen und bewertet. Im Rahmen der Arbeit wurde eine Testumgebung auf Basis von UIMA, einer Architektur zur Verarbeitung von unstrukturierten Informationen, wie natürlicher Sprache, entwickelt, mit der ein großer Teil der vorgestellten Ansätze getestet wurde. Die im praktischen Teil der Arbeit entwickelte Testumgebung ist wiederverwendbar und die damit erzielten Ergebnisse ermöglichen einen direkten Vergleich der vorstellten Ansätze, der so bisher noch nicht durchgeführt wurde. Die Testergebnisse zeigen, dass die vorgestellten Konzepte zur Vorverarbeitung dazu in der Lage sind, die Ergebnisse der Sentiment-Analysis von Dokumenten spürbar zu verbessern. Die vorgestellten Vorverarbeitungsschritte erreichen zusammen in der Untersuchung eine Verbesserung des F-Score-Wertes um 5% auf etwa 84%. Due to the increasing amount of written information, sentiment analysis techniques are getting more important. This thesis is about examining diUerent pre-processing concepts to improve sentiment analysis carried out by supervised learning, including subjectivity analysis and negation processing. Regarding each single concept current approaches in research are explained as well as compared and evaluated. As practical part of this work a test environment on a UIMA basis was developed. UIMA is an architecture for processing unstructured information such as natural language. It was used to test a large number of those approaches presented in this paper. The test environment which was developed in the practical part can be re-used and the results make it possible to compare the approaches directly which hasn’t been done so far. The test results show that the selected pre-processing concepts improve the results of sentiment analysis to a considerable degree. By means of the pre-processing steps altogether, a 5% increase of the F score to approximately 84% was achieved in this test.
URI:	http://hdl.handle.net/20.500.12738/5940
Institute:	Department Informatik
Type:	Thesis
Thesis type:	Bachelor Thesis
Advisor:	Neitzke, Michael
Referee:	Sarstedt, Stefan
Appears in Collections:	Theses