Skalierbare Datenanalyse mit Apache Spark : Implementation einer Text-Mining-Anwendung und Testbetrieb auf einem Low-End-Cluster

URL
Dokumentart: Bachelor Thesis
Institut: Department Informatik
Sprache: Deutsch
Erstellungsjahr: 2015
Publikationsdatum:
SWD-Schlagwörter: Massendaten
DDC-Sachgruppe: Informatik

Kurzfassung auf Deutsch:

Apache Spark ist auf dem Weg sich als zentrale Komponente von Big-Data-Analyse-Systemen für eine Vielzahl von Anwendungsfällen durchzusetzen. Diese Arbeit schat einen Überblick der zentralen Konzepte und Bestandteile von Apache Spark und untersucht das Verhalten von Spark auf einem Cluster mit minimalem Leistungsprol. Grundlage dieser Untersuchung ist ein realitätsnaher Anwendungsfall, der Sparkmodule für Batch-Processing und Streaming kombiniert.

Kurzfassung auf Englisch:

Apache Spark is quickly becoming a central component of Big Data analysis systems for a variety of applications. This work provides an overview of key concepts and components of Apache Spark and examines the behavior of Spark on a cluster with a minimal performance prole. This study is based on an application that is inspired by a real-world usecase. The application combines the Spark modules for batch processing and streaming.

Hinweis zum Urheberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.