How to Identify Speech When Translating Unpunctuated Poetry

; ;

URN urn:nbn:de:gbv:18-228-7-2587
URL
Dokumentart: InProceedings (Aufsatz / Paper einer Konferenz etc.)
Institut: Fachbereich Informatik
Sprache: Englisch
Erstellungsjahr: 2020
Publikationsdatum:
Originalveröffentlichung: Proceedings of Elektronische Sprachverarbeitung (ESSV), 2020 (2020)
Freie Schlagwörter (Deutsch): Übersetzung , Lyrik , Interpunktionsrekonstruktion , Digital Humanities
Freie Schlagwörter (Englisch): translation , poetry , punctuation reconstruction , digital humanities
DDC-Sachgruppe: Informatik
BK - Klassifikation: 54.75 , 17.95

Kurzfassung auf Englisch:

A large proportion of (post)-modern poetry contains no or hardly any punctuation. In our contribution, we will investigate how well punctuation information can be recovered for post- modern poetry based on the information contained in the text and speech of free verse poems. We use the world's largest corpus of spoken (post-)modern poetry from our partner lyrikline which contains the corresponding audio recording of each poem as spoken by the original author and features translations for many of the poems. We identify lines that contain a phrase break in the middle of the poetic line, which may already be helpful for philological analysis on one hand, and identify the position of the break in the line on the other hand. We select those poetic lines that contain one or more punctuation characters that typically indicate a phrase break in poetry (.,;:!?/) somewhere in the middle (rather than only at the end of the line) as our target class. We train a neural network (bidirectional recurrent neural network (RNN) based on gated recurrent units (GRU) with attention) that combines audio and textual features to identify the punctuation with the goal of applying it to reconstruct them within a corpus of unpunctuated poems. Our results clearly indicate that speech is helpful for recovering the constituency structure of post-modern poetry that is partially obfuscated by missing punctuation.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.