Semantic Metadata Enrichment in Third-Generation Data Lakes

URL
Dokumentart: Master Thesis
Institut: Fachbereich Informatik
Sprache: Englisch
Erstellungsjahr: 2025
Publikationsdatum:
Freie Schlagwörter (Deutsch): Metadata , Semantic Metadata , Data Lake
Freie Schlagwörter (Englisch): Metadata , Semantic Metadata , Data Lake
DDC-Sachgruppe: Informatik
BK - Klassifikation: 54.61

Kurzfassung auf Englisch:

The adoption of third-generation data lakes, i.e. data lakehouses for modern enterprise data platforms increases the need for scalable and accurate metadata management. Existing approaches to semantic metadata enrichment rely heavily on manual efforts or ontology-based frameworks, which are often impractical in fast-moving environments. This thesis investigates the integration of Large Language Models (LLMs) into the metadata enrichment pipeline of data lakehouses, focusing on generating natural language descriptions for tables based on schema metadata and data profiling outputs. A proof-of-concept system is implemented using Databricks and Azure OpenAI, demonstrating how LLMs can be used to automate table-level metadata enrichment. The system combines schema information with LLM generation to produce semantic descriptions that improve dataset discoverability and understanding. The evaluation includes both automated metrics and qualitative assessments, showing that LLM-generated descriptions are generally accurate and contextually appropriate. However, the results also highlight the need for human validation to ensure correctness and relevance. The findings emphasize the importance of transparency, human-in-the-loop validation, and integration with existing data workflows. The contributions of this thesis include a reproducible enrichment pipeline, a systematic evaluation framework, and practical design insights for LLM-based metadata enrichment in data lakehouses. This work demonstrates that LLM-assisted semantic enrichment is a feasible and promising approach to improve metadata usability, while also identifying challenges and future research directions for model selection, contextual integration, and adaptive metadata maintenance.

Kurzfassung auf Englisch:

Die Einführung von Data-Lakehouses als Grundlage moderner Unternehmensdatenplattformen erhöht den Bedarf an skalierbarem und präzisem Metadatenmanagement. Bisherige Ansätze zur semantischen Metadatenanreicherung basieren oft auf manuellen Prozessen oder ontologiebasierten Frameworks, die sich in dynamischen Umgebungen als wenig praktikabel erweisen. Diese Arbeit untersucht die Integration von Large Language Models (LLMs) in den Metadatenanreicherungspipeline von Data-Lakehouses, mit dem Ziel, natürliche Sprachbeschreibungen für Tabellen auf Basis von Schemainformationen und Datenprofilen zu generieren. Ein Proof-of-Concept-System wird auf Basis von Databricks und Azure OpenAI implementiert, um zu zeigen, wie LLMs zur automatisierten semantischen Anreicherung auf Tabellenebene eingesetzt werden können. Das System kombiniert Schema-Informationen mit der Generierung durch LLMs, um semantische Beschreibungen zu erstellen, die die Auffindbarkeit und das Verständnis von Datensätzen verbessern. Die Evaluation umfasst sowohl automatisierte Metriken als auch qualitative Bewertungen und zeigt, dass die generierten Beschreibungen in der Regel korrekt und kontextuell angemessen sind. Gleichzeitig wird jedoch die Notwendigkeit einer menschlichen Validierung hervorgehoben, um Genauigkeit und Relevanz sicherzustellen. Die Ergebnisse unterstreichen die Bedeutung von Transparenz, menschlicher Validierung und der Integration in bestehende Daten-Workflows. Die Beiträge dieser Arbeit umfassen eine reproduzierbare Anreicherungspipeline, ein systematisches Evaluierungsframework und praxisnahe Design-Insights für LLM-basierte Metadatenanreicherung in Data-Lakehouses. Diese Arbeit zeigt, dass LLM-gestützte semantische Anreicherung eine vielversprechende und praktikable Lösung zur Verbesserung der Metadatenqualität darstellt und identifiziert gleichzeitig Herausforderungen und zukünftige Forschungsperspektiven, darunter Modellbenchmarking, kontextuelle Einbettung und adaptive Metadatenpflege.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.