Generalized Additive Models for very large datasets with Apache Spark

URL
Dokumentart: Bachelor Thesis
Institut: Department Informatik
Sprache: Englisch
Erstellungsjahr: 2016
Publikationsdatum:
SWD-Schlagwörter: Statistik
DDC-Sachgruppe: Informatik

Kurzfassung auf Englisch:

The generalized additive model extends of the generalized linear model with the ability to describe predictor variables as the sum of unknown smoothing functions. The generalized additive model has been used in domains that require very large datasets. Although the generalized additive model is helpful in those scenarios, no public attempt has been made to implement it in a modern cluster computing environment. Apache Spark, a modern cluster computer framework, has provided an implementation for the generalized linear model to be estimated on very large datasets. The unknown smoothing functions can be expressed as B-Splines and estimated as part of a generalized linear model. This thesis implements the generalized additive models as an extension of the generalized linear model in Apache Spark by representing the unknown smooth functions as B-Splines in the Cox-de-Boor form.

Kurzfassung auf Deutsch:

Das GeneralisierteAdditive Modell erweitert das Generalisierte Lineare Modell mit der Fähigkeit, eine oder mehrere unabhängige Variablen as Unbekannte glätende Funktionen darzustellen. Das Generalisierte Additive Model erfreut sich Beliebtheit in Feldern, die sehr grosse Datenmengen erfordern. Obwohl dies der Fall ist, wurde das Generalisierte Additive Modell noch in keinem modernen Cluster Computing Framework implementiert. Apache Spark ist ein modernes Cluster Computing Framework, welches eine Implementation des Generalisierten Linearen Modell beinhaltet. Diese Arbeit nutzt die, in Spark verfügbare, Funktionalität, um eine Teilmenge des Generalisierten Additive Modell in ein modernes Cluster Computing Framework zu implementierten. Ein Generalisiertes Additive Model kann als Generalisiertes Lineare Modell mit B-Splines realisiert werden. Dieses implementiert ein Generalisiertes Additive Modell als Generalisierte Lineare Modell mit B-Splines in der Cox-de-Boor Form als Erweiterung in Spark.

Hinweis zum Urheberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.