Mining the Spoken Wikipedia for Speech Data and Beyond

; ;

URN urn:nbn:de:gbv:18-228-7-2209
URL
Dokumentart: InProceedings (Aufsatz / Paper einer Konferenz etc.)
Institut: Fachbereich Informatik
Sonstige beteiligte Institution: In: Proceedings of LREC 2016 (May, Portoroz, Slovenia)
Sprache: Englisch
Erstellungsjahr: 2016
Publikationsdatum:
Freie Schlagwörter (Deutsch): Gesprochene Wikipedia , Audio-Alignment , Sprachkorpus
Freie Schlagwörter (Englisch): Spoken Wikipedia, Long audio alignment, speech resource
DDC-Sachgruppe: Informatik
BK - Klassifikation: 54.75

Kurzfassung auf Englisch:

We present a corpus of time-aligned spoken data of Wikipedia articles as well as the pipeline that allows to generate such corpora for many languages. There are initiatives to create and sustain spoken Wikipedia versions in many languages and hence the data is freely available, grows over time, and can be used for automatic corpus creation. Our pipeline automatically downloads and aligns this data. The resulting German corpus currently totals 293h of audio, of which we align 71h in full sentences and another 86h of sentences with some missing words. The English corpus consists of 287h, for which we align 27h in full sentence and 157h with some missing words. Results are publically available.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.