Length Generalization on Multi-Digit Integer Addition with Transformers

URL
Dokumentart: Master Thesis
Institut: Fachbereich Informatik
Sprache: Englisch
Erstellungsjahr: 2024
Publikationsdatum:
Freie Schlagwörter (Englisch): deep learning , transformer , length generalization , addition
DDC-Sachgruppe: Informatik
BK - Klassifikation: 54.72

Kurzfassung auf Englisch:

Transformer models have achieved significant success in natural language processing tasks but encounter challenges when generalizing to sequences longer than those seen during training, especially in algorithmic tasks. Multi-digit integer addition is an example of such algorithmic problems, it is easy for humans to perform on arbitrary digit lengths, yet transformer models fail to learn a general algorithm. With increasing use of transformers in different domains, length generalization remains an important open problem even for a simple task like integer addition despite substantial research literature. This work investigates why transformers with standard absolute positional encodings struggle with length generalization in integer addition and what minimal changes can be made to improve the out-of-distribution performance. The hypothesis that absolute positional encodings limit the model’s ability to align digits is explored, as well as the impact of dfferent data formatting techniques and multi-task training on length generalization. The experiments show that adding random spaces improves length generalization, and multi-task training allows smaller models to achieve better length generalization.

Kurzfassung auf Deutsch:

Transformer-Modelle haben bei der Verarbeitung natürlicher Sprache beachtliche Erfolge erzielt, stoßen aber auf Probleme, wenn sie auf Sequenzen verallgemeinert werden sollen, die länger sind als die beim Training gesehenen, insbesondere bei algorithmischen Aufgaben. Die mehrstellige ganzzahlige Addition ist ein Beispiel für ein solches algorithmisches Problem. Sie ist für den Menschen bei beliebigen Ziffernlängen leicht durchführbar, doch gelingt es Transformatorenmodellen nicht, einen allgemeinen Algorithmus zu erlernen. Mit zunehmendem Einsatz von Transformatoren in verschiedenen Bereichen bleibt die Längengeneralisierung trotz umfangreicher Forschungsliteratur ein wichtiges offenes Problem, selbst für eine einfache Aufgabe wie die ganzzahlige Addition. In dieser Arbeit wird untersucht, warum Transformatoren mit standardmäßigen absoluten Positionskodierungen bei der Längenverallgemeinerung in der ganzzahligen Addition Probleme haben und welche minimalen Änderungen vorgenommen werden können, um die Leistung außerhalb der Verteilung zu verbessern. Die Hypothese, dass absolute Positionskodierungen die Fähigkeit des Modells, Ziffern auszurichten, einschränken, wird ebenso untersucht wie die Auswirkungen verschiedener Datenformatierungstechniken und Multi-Task-Training auf die Längengeneralisierung.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.