Automatisierte Kategorisierung eines Product Backlogs mithilfe von Machine Learning
| URL | http://edoc.sub.uni-hamburg.de/informatik/volltexte/2025/317/ |
|---|---|
| Dokumentart: | Master Thesis |
| Institut: | Fachbereich Informatik |
| Sprache: | Deutsch |
| Erstellungsjahr: | 2025 |
| Publikationsdatum: | 12.12.2025 |
| Freie Schlagwörter (Deutsch): | Maschinelles Lernen , Product Backlog , Technische Schulden , Klassifiikation |
| Freie Schlagwörter (Englisch): | Machine Learning , Product Backlog , Technical Debt , classification |
| DDC-Sachgruppe: | Informatik |
| BK - Klassifikation: | 54.00 |
Kurzfassung auf Deutsch:
Der gezielte und effektive Einsatz von Machine Learning (ML) zur Unterstützung von Abläufen und Prozessen steht zunehmend im Fokus für Unternehmen aller Art. Ein zentrales Einsatzgebiet hierfür ist der Softwareentwicklungsprozess, in dem anstehende Aufgaben häufig in Form von Tickets durch einen Product Backlog (PB) verwaltet werden. Unter anderem finden sich dort auch Technical Debt (TD), die aufgrund ihres potenziellen Risikos, die Codequalität zu beeinträchtigen, gezielt identifiziert und effektiv gemanagt werden sollten. Ziel dieser Arbeit ist es, den Einsatz von ML zur automatisierten Klassifizierung von TD zu evaluieren, basierend auf PBs aus drei deutschen Unternehmen. Insbesondere sollen relevante Features und ML-Methoden identifiziert werden sowie die Ergebnisse der trainierten Modelle auf verschiedenen Testdaten evaluiert werden. Zu diesem Zweck wurde eine ML-Pipeline in Python konstruiert, die in ihren einzelnen Schritten verschiedene Aspekte der Fragestellung beantworten soll. Es kamen dabei Logistic Regression (LogR) beim Feature Selection sowie die ML-Methoden Naive Bayes (NB), Support Vector Machine (SVM) und Random Forest (RF) beim Model Training zum Einsatz. Visualisiert wurden die Ergebnisse teilweise durch Confusion Matrices und Receiver Operating Characteristic Curves (ROC-Curves). Zur Evaluierung der Modelle kamen dabei die Feature Importance, die Performance-Metriken Accuracy, Precision, Recall und F1-Score sowie der AUC-Wert der ROC-Curve zum Einsatz. Es konnten folgende Ergebnisse festgehalten werden: (1.) Für die Identifikation von TD erweisen sich insbesondere textbasierte Features wie die Beschreibung und Titel als zentral. Zugleich zeigt sich ein unterschiedliches Vokabular bei der Bestimmung von TD für jedes Unternehmen. (2.) Eine allgemeingültig beste ML-Methode zur Kategorisierung von TD kann nicht bestimmt werden, da für jedes Unternehmen eine andere ML-Methode am besten für den Anwendungsfall geeignet ist. (3.) Die Übertragbarkeit trainierter Modelle auf andere Unternehmensdaten ist nur sehr begrenzt möglich, wobei NB-Modelle am besten abschneiden. (4.) Ein ML-Modell, das mit wenigen Daten trainiert wurde, zeigt für nicht gelabelte Daten im selben Unternehmen eine geringe Precision bezogen auf die TD-Klasse und tendiert zu Fehlklassifizierungen. Insgesamt zeigt diese Arbeit, dass ML-basierte Ansätze zur automatischen Kategorisierung von TD im Product Backlog (PB) unter den untersuchten Bedingungen nur begrenzt zuverlässig sind und vor einem praktischen Einsatz kritisch evaluiert werden sollten.
Kurzfassung auf Englisch:
The targeted and effective use of Machine Learning (ML) to support workflows and processes is increasingly becoming a focus for companies of all kinds. A central area of application for this is the software development process, in which pending tasks are often managed in the form of tickets by a Product Backlog (PB). These include Technical Debt (TD), which should be specifically identified and effectively managed due to their potential risk of impairing code quality. The objective of this thesis is to evaluate the use of ML for the automated classification of TD based on PBs from three German companies. In particular, relevant features and ML methods should be identified and the results of the trained models should be evaluated on different test data. For this purpose, a ML pipeline was constructed in Python, which is intended to answer various aspects of the question in its individual steps. We used Logistic Regression (LogR) for feature selection and the ML methods Naive Bayes (NB), Support Vector Machine (SVM) and Random Forest (RF) for model training. The results were partially visualized by Confusion Matrices and Receiver Operating Characteristic Curves (ROCCurves). Feature Importance, the performance metrics Accuracy, Precision, Recall and F1-Score as well as the AUC value of the ROC-Curve were used to evaluate the models. The following results were recorded: (1.) For the identification of TD, text-based features such as the description and title prove to be particularly central. At the same time, a different vocabulary for the determination of TD is shown for each company. (2.) A universally best ML method for categorizing TD cannot be determined, as for each company a different ML method is best suited for the use case. (3.) The transferability of trained models to other company data is only possible to a very limited extent, with NB models performing best. (4.) A ML model trained with little data shows low precision with respect to the TD class for unlabeled data in the same company and tends towards misclassification. Overall, this work shows that ML-based approaches for the automatic categorization of TD in the PB are only reliable to a limited extent under the conditions investigated and should be critically evaluated before being used in practice.
Hinweis zum Urherberrecht
Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:
Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.
Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.


