An LLM-Based Tool for Knowledge Retrieval from (Heterogeneous) Issue Tracking Systems

URL
Dokumentart: Master Thesis
Institut: Fachbereich Informatik
Sprache: Englisch
Erstellungsjahr: 2024
Publikationsdatum:
Freie Schlagwörter (Englisch): knowledge retrieval , large language models , issue tracking systems , documentation
DDC-Sachgruppe: Informatik
BK - Klassifikation: 54.00

Kurzfassung auf Englisch:

[Context] Most software engineering projects rely on Issue Tracking Systems (ITSs) to organize and process work packages. Consequently, this knowledge is distributed across many issues and eventually multiple ITSs. This distribution results in difficulties for developers attempting to retrieve that knowledge. Furthermore, developers tend to favor the presentation of information in smaller chunks. Current machine learning approaches and Large Language Models (LLMs) enable searching distributed datasets and summarizing the discovered knowledge. [Objective] The study aims to understand how a novel approach for knowledge retrieval in the context of ITSs is perceived by practitioners and how it performs in contrast to classic ITSs. [Methodology] This study reports on a controlled experiment involving 30 participants divided into three test groups. I developed a chatbot tool for this experiment that answers user's questions by generating a summary of issues and a link list tool version that enables users to use natural language searches to get a list of relevant issues. I analyzed the user experience, time efficiency, confidence, and search prompts among the test groups. Additionally, I assessed the trustworthiness of participants in the generated summary and applied automatic metrics to evaluate the chatbot summary. [Results] The study revealed that practitioners preferred using the chatbot tool to retrieve knowledge. They also reported the highest confidence in their answers. Participants using the link list tool performed the fastest. The study also revealed the use of different prompt patterns among the test groups. Furthermore, a brief summary containing only essential information is sufficient for making informed decisions. [Conclusion] The findings of my study demonstrate that a concise presentation of information is crucial. Otherwise, it leads to crucial information being overlooked. Despite the high level of confidence participants expressed in their responses, they did not fully trust the summaries generated by the LLM. i

Kurzfassung auf Deutsch:

[Kontext] Die meisten Softwareentwicklungsprojekte stützen sich auf ITSs, um Arbeitspakete zu organisieren und zu verarbeiten. Folglich ist dieses Wissen über viele Issues und schließlich mehrere ITSs verteilt. Diese Verteilung führt zu Schwierigkeiten für Entwickler, die versuchen, dieses Wissen abzurufen. Darüber hinaus bevorzugen Entwickler die Darstellung von Informationen in kleineren Einheiten. Aktuelle Ansätze des maschinellen Lernens und LLMs ermöglichen die Suche in verteilten Datensätzen und die Zusammenfassung des gefundenen Wissens. [Zielsetzung] Die Studie zielt darauf ab, zu verstehen, wie ein neuartiger Ansatz zum Wiederauffinden von Wissen im Kontext von ITSs von Fachleuten wahrgenommen wird und wie er sich im Vergleich zu klassischen ITSs verhält. [Methodik] Diese Studie berichtet über ein kontrolliertes Experiment mit 30 Teilnehmern, die in drei Testgruppen aufgeteilt wurden. Für dieses Experiment habe ich ein Chatbot-Tool entwickelt, das Fragen von Nutzern beantwortet, indem es eine Zusammenfassung von Issues generiert, sowie eine „Link List“ Tool Version, die es Nutzern ermöglicht, über eine Suche in natürlicher Sprache eine Liste relevanter Issues zu erhalten. Ich analysierte die Benutzererfahrung, die Zeiteffizienz, das Vertrauen und die Suchanfragen der einzelnen Testgruppen. Außerdem bewertete ich die Vertrauenswürdigkeit der Teilnehmer in die generierte Zusammenfassung und wandte Metriken zur Bewertung der Chatbot- Zusammenfassung an. [Ergebnisse] Die Studie ergab, dass die Fachleute es vorzogen, das Chatbot- Tool zum Abrufen von Wissen zu nutzen. Sie gaben auch die größte Zuversicht in ihre Antworten an. Die Teilnehmer, die das „Link List“ Tool verwendeten, waren am schnellsten. Die Studie zeigte auch, dass die Testgruppen unterschiedliche Eingabemuster verwendeten. Darüber hinaus reicht eine kurze Zusammenfassung mit den wichtigsten Informationen aus, um fundierte Entscheidungen zu treffen. [Fazit] Die Ergebnisse meiner Studie zeigen, dass eine kompakte Darstellung von Informationen entscheidend ist. Andernfalls werden wichtige Informationen übersehen. Trotz des hohen Maßes an Zuversicht, das die Teilnehmer in ihren Antworten zum Ausdruck brachten, vertrauten sie den vom LLM generierten Zusammenfassungen nicht vollständig.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.