Fulltext available Open Access
License: 
Title: Continuous Clustering for a Daily News Summarization System
Language: English
Authors: Nitsche, Matthias
Issue Date: 28-Jun-2016
Abstract: 
Für eine Maschine ist es schwer, ohne die Supervision eines menschlichen Expertens Text zu interpretieren. Techniken des Text Minings und Clustern als Ansatz von unsupervisierten Lernen, um Text aus Zeitungen in Kategorien und zu Ereignissen in der realenWelt zu gruppieren, ist im Mittelpunkt dieser Arbeit. Zusätzlich wurde ein funktionierendes Datenverarbeitungssystem, zum Herunterladen und Verarbeiten von Zeitungsartikeln, entwickelt, um Clustering Algorithmen eine Grundlage zu geben. Die präsentierten Selektionsstrategien und Clustering Algorithmen haben ähnliche Effekte auf die Resultate.

Interpreting and summarizing textual content without the supervision of human experts is an exploratory process involving NP-hard algorithms. Using techniques of text mining and document clustering as an approach of unsupervised machine learning, grouping textual content of online newspaper articles into coherent categories and real world events is subject of this thesis. Additionally, building a functioning data pipeline for scraping and preprocessing newspaper articles, feeding clustering algorithms, shows promising results. In short, the presented feature selection and clustering strategies yield similar effects.
URI: http://hdl.handle.net/20.500.12738/7413
Institute: Department Informatik 
Type: Thesis
Thesis type: Bachelor Thesis
Advisor: Neitzke, Michael 
Referee: Zukunft, Olaf 
Appears in Collections:Theses

Files in This Item:
File Description SizeFormat
BA_Nitsche.pdf1.82 MBAdobe PDFView/Open
Show full item record

Page view(s)

244
checked on Apr 19, 2024

Download(s)

219
checked on Apr 19, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.