Integrating and Evaluating LLM‐Generated Code Documentation in the IDE
URL | http://edoc.sub.uni-hamburg.de/informatik/volltexte/2025/303/ |
---|---|
Dokumentart: | Bachelor Thesis |
Institut: | Fachbereich Informatik |
Sprache: | Englisch |
Erstellungsjahr: | 2024 |
Publikationsdatum: | 11.08.2025 |
Freie Schlagwörter (Deutsch): | LLMs , KI, Prompting , Code Verständnis , Dokumentation |
Freie Schlagwörter (Englisch): | LLMs , AI , Prompting , Code Comprehension , Documentation |
DDC-Sachgruppe: | Informatik |
BK - Klassifikation: | 54.00 |
Kurzfassung auf Englisch:
Context: I developed an extension for VS Code that enables the user to generate documentation for code snippets, using GPT‐4, with an engineered few‐shot prompt. Objective: The goal was to find out, if few‐shot prompts do lead to better outputs than human‐written prompts, when it comes to code comment generation. Methodology: I conducted a controlled experiment with 50 participants from both academia and software related industries. In the experiment, the participants were split into a test and a control group. The test group was given the extension I developed and the control group was given a benchmark tool, similar to the ChatGPT web version. The objective was to rate the generated documentation for two distinct code snippets among six dimensions. Results: I find that the test tool outperforms the control tool consistently for the dimensions of readability and unnecessary information. Additionally, it outperforms the control tool on the dimensions of helpfulness and usefulness for the more complicated code snippet. I do however find a significant difference in the ratings given, between the students and the non‐students in the study.
Kurzfassung auf Deutsch:
Kontext: Ich habe eine Erweiterung für VS Code entwickelt, die es dem Benutzer ermöglicht, Dokumentation für Code‐Snippets zu generieren, indem GPT‐4 mit einem speziell entwickelten Few‐Shot Prompt verwendet wird. Zielsetzung: Das Ziel bestand darin herauszufinden, ob Few‐Shot Prompts zu besseren Ergebnissen bei der Generierung von Code‐Kommentaren führen, als Mensch‐geschriebene Prompts. Methodik: Ich führte ein kontrolliertes Experiment mit 50 Teilnehmern aus der Universität und der Softwarebranche durch. Bei dem Experiment wurden die Teilnehmer in eine Testgruppe und eine Kontrollgruppe aufgeteilt. Die Testgruppe erhielt die von mir entwickelte VS Code Erweiterung, während die Kontrollgruppe ein Vergleichstool erhielt, ähnlich der ChatGPT‐Webversion. Das Ziel war es, die generierte Dokumentation für zwei unterschiedliche Code‐Snippets anhand von sechs Dimensionen zu bewerten. Ergebnisse: Ich stelle fest, dass das Testwerkzeug in den Dimensionen Lesbarkeit und unnöti‐ ge Informationen konsistent besser abschneidet als das Kontrollwerkzeug. Zusätzlich übertrifft es das Kontrollwerkzeug in den Dimensionen der wahrgenommenen Hilfe für das Verständnis von Code und der Nützlichkeit, für das komplexere Code‐Snippet. Weiterhin finde ich einen signifikanten Unterschied in den vergebenen Bewertungen zwischen den Studierenden und den Nicht‐Studierenden in der Studie.
Hinweis zum Urherberrecht
Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:
Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.
Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.