Implementation und Evaluation automatischer Mehrkanal-Spracherkennung für das Konferenzsystem BigBlueButton

URN urn:nbn:de:gbv:18-228-7-2605
URL
Dokumentart: Bachelor Thesis
Institut: Fachbereich Informatik
Sprache: Deutsch
Erstellungsjahr: 2021
Publikationsdatum:
Freie Schlagwörter (Deutsch): automatische Spracherkennung , Videokonferenz , computerunterstützte Zusammenarbeit , automatische Untertitelung , Mehrpersonendialog , VoIP
Freie Schlagwörter (Englisch): ASR , videoconferencing , meeting transcription , computer-supported collaborative work , automatic subtitles , multi-party dialogue , VoIP
DDC-Sachgruppe: Informatik
BK - Klassifikation: 54.75 ; 53

Kurzfassung auf Deutsch:

Ziel der vorliegenden Arbeit ist es, eine Software zu erstellen, die für Teilnehmer individuelle Untertitel automatisch generiert und direkt in BigBlueButton-Konferenzen integriert. Dazu werden nach einem Überblick über verwandte Arbeiten sowie Grundlagen der automatischen Spracherkennung zunächst eine bereits bestehende Lösung für die Live-Untertitelung in der Konferenzsoftware-BigBlueButton sowie auch Möglichkeiten zu deren Verbesserung besprochen. Anschließend werden verschiedene Audioquellen hinsichtlich ihrer Einsatzmöglichkeiten in der Software miteinander verglichen. Darauf basierend wird ein Prototyp zur Live-Untertitelung von BigBlueButton-Konferenzen vorgestellt, der ohne Erfahrungen im Bereich der Sprachverarbeitung in eine bestehende BigBlueButton-Installation integriert werden kann. Dabei soll eine individuelle Untertitelung bei Überschneidungen von Wortmeldungen eine gleichbleibend niedrige Wortfehlerrate ermöglichen und zudem eine gute Sprecheradaption für jeden Teilnehmer bieten. Durch die Nutzung des serverseitigen Audiomaterials können die Untertitel unabhängig vom Endgerät generiert und angezeigt werden. Im Anschluss an die Vorstellung des Prototyps der Untertitelungssoftware bbb-live-subtitles wird dieser in zwei verschiedenen Entwicklungsphasen hinsichtlich unterschiedlicher Praxiseigenschaften betrachtet. Es werden Einflussfaktoren wie Audio-Codec und Sprecherdaten auf die Erkennungsrate berücksichtigt und die Ergebnisse miteinander verglichen. Die Lösung wird mit einem Modell zur Erkennung deutscher Sprache getestet und die Ergebnisse evaluiert. Die entwickelte Software bietet die Möglichkeit, auch mit weiteren Modellen eingesetzt zu werden, die auf Kaldi nnet3 basieren und ist unter freier Lizenz verfügbar: https://github.com/uhh-lt/bbb-live-subtitles

Kurzfassung auf Englisch:

The aim of this thesis is to create a software that automatically generates individual subtitles for participants and integrates them directly into BigBlueButton conferences. For this purpose, after an overview of related work as well as basics of automatic speech recognition, first an already existing solution for live subtitling in the conference software-BigBlueButton as well as possibilities for its improvement are discussed. Afterwards, different audio sources are compared with respect to their possible applications in the software. Based on this, a prototype for live subtitling of BigBlueButton conferences will be presented, which can be integrated into an existing BigBlueButton installation without any experience in the field of speech processing. Here, individual subtitling is intended to provide a consistently low word error rate in the event of overlapping spoken messages and also provide good speaker adaptation for each participant. By using server-side audio, the subtitles can be generated and displayed independently of the end device. Following the presentation of the prototype of the subtitling software bbb-live-subtitles, it will be considered in two different development phases with regard to different practical characteristics. Factors such as audio codec and speaker data influencing the recognition rate are considered and the results are compared. The solution is tested with a model for the recognition of German speech and the results are evaluated. The developed software offers the possibility to be used with other models based on Kaldi nnet3 and is available under free license: https://github.com/uhh-lt/bbb-live-subtitles

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.