Leveraging LLMs for Enhanced Drug Discovery: Extracting Insights from Patents and Scientific Documents

URL
Dokumentart: Master Thesis
Institut: Fachbereich Informatik
Sprache: Englisch
Erstellungsjahr: 2026
Publikationsdatum:
Freie Schlagwörter (Deutsch): RAG , Entitätsextraktion , Wirkstoffforschung , Biomedizin , LLM
Freie Schlagwörter (Englisch): RAG , Entity Extraction , Drug Discovery , Biomedicine , LLM
DDC-Sachgruppe: Informatik
BK - Klassifikation: 54.72

Kurzfassung auf Englisch:

In recent years, LLMs with their innate deep-learning architecture have revolutionized the process of information extraction and data retrieval. Their applications extend beyond the natural language processing (NLP) systems as they are capable of handling broad spectrum of data modalities including multi media data. Particularly in life sciences, LLMs and LLM-based architectures seem viable for extraction of knowledge of biological and chemical entities from the ever-growing scientific literature, journals and patents which are crucial for understanding pathophysiological mechanisms of diseases and aiding drug discovery process. Due to the fact that papers and patents undergo rigorous peer review process, we can expect unique and high quality standard of these open access data from such literature and documents. Taking this need into consideration, this Master’s thesis aims to develop an LLM-driven AI pipeline that facilitates document extraction and retrieval of qualitative and quantitative information (e.g., relationships between proteins and their ligands, drug dosage information, PK/PD parameters, experimental techniques, etc.) from drug regulatory, scientific research papers and patent documents. We explore the possibility of performing information extraction tasks with a RAG pipeline powered with several biomedically relevant ML and AI models. We also explore the right metrics to evaluate the efficiency of our extraction pipeline for novel tasks with no gold standard data available. This work’s expected outcome is a deployed software system that can expedite and facilitate the tedious task of molecular information extraction and new drugs insights generation, which otherwise is time and cost expensive.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.