Generating Test Sentences to Uncover Biases in Large Language Models
URL | http://edoc.sub.uni-hamburg.de/informatik/volltexte/2024/276/ |
---|---|
Dokumentart: | Master Thesis |
Institut: | Fachbereich Informatik |
Sprache: | Englisch |
Erstellungsjahr: | 2023 |
Publikationsdatum: | 29.10.2024 |
Freie Schlagwörter (Englisch): | LLM , Bias , AI, Testing , BERT |
DDC-Sachgruppe: | Informatik |
BK - Klassifikation: | 54.00 |
Kurzfassung auf Englisch:
Artificial intelligence (AI) and large language models (LLMs) have become an integral part in humancomputer interaction. They shape the way we work, study, and interact with each other. However, previous research has revealed, that these systems are often biased and can create harm towards already marginalized groups. This thesis examines biases in LLMs and investigates how debiasing techniques designed to mitigate one specific bias type influence other non‐targeted bias types within a language model. For this, I introduce a novel tool, developed to examine biases in masked language models, specifically BERT and its derivatives. Using this tool, the evaluation of two bias mitigation techniques shows that both methods successfully mitigated the targeted bias. However, each comes with its own set of trade‐offs. While one method also mitigated bias in all other non‐targeted categories, it came with decreased language modeling capabilities. The second debiasing technique demonstrated an increase in at least one of the non‐targeted bias types. Warning: This thesis contains examples of potentially harmful stereotypes and prejudices that may be upsetting or triggering.
Hinweis zum Urherberrecht
Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:
Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.
Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.