Big Data Systeme: Konzeptioneller und experimenteller Vergleich von Apache Flink mit Apache Spark anhand eines Anwendungsszenarios

URL
Dokumentart: Bachelor Thesis
Institut: Department Informatik
Sprache: Deutsch
Erstellungsjahr: 2017
Publikationsdatum:
SWD-Schlagwörter: Massendaten
Freie Schlagwörter (Deutsch): Apache, Flink, Spark, Big Data, Alternating Least Squares, ALS, Skalierbarkeit
DDC-Sachgruppe: Informatik

Kurzfassung auf Deutsch:

Big Data Systeme stellen mittlerweile einen der relevantesten Bereiche der Datenverarbeitung dar. Eines der momentan populärsten Systeme in diesem Bereich ist Apache Spark. Ein weiteres System mit zunehmende Popularität ist Apache Flink. Beide Systeme sollen zunächst auf Konzeptioneller und Architektonischer Ebene verglichen werden. Anschließend werden beide Systeme für die prototypische Umsetzung einer User-Story herangezogen, gefolgt von einer Evaluierung der Systeme mittels der Goal-Question-Metric Methode. Hierbei zeigt sich, dass Spark das reifere System ist, beide Systeme aber nicht geeignet sind die User-Story mit geringem Aufwand nach den zuvor gestellten Anforderungen umzusetzen.

Kurzfassung auf Englisch:

Today, Big Data systems represent one of the most relevant topics in dataprocessing. One of the most popular systems in this category is Apache Spark. Another rising System of this category is Apache Flink. Within the scope of this work, lays the comparison of these Systems. Firstly, these Systems are being compared on a conceptual and an architectural level. Followed up by the design and implementation of a prototype of a User-Story in the context of an application scenario. The next step is the evaluation of Flink and Spark on the foundation of the implemented prototype. This happens by the use of the Goal-Question-Metric method. It shows that Spark is the more mature system but both systems are not capable to implement the User-Story according to the requirements with a small investment.

Hinweis zum Urheberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.