Anomaly Detection in Financial Data by Using Machine Learning Methods

Morozov, Ivan

License:
Title:	Anomaly Detection in Financial Data by Using Machine Learning Methods
Language:	English
Authors:	Morozov, Ivan
Issue Date:	10-Jun-2016
Abstract:	The instant online issuing of micro-loans is a modern credit lending business solution. It is based on a machine learning algorithm that automatically scores loan applications. It is not uncommon that some malicious persons try to bypass the system and get a loan. This thesis aims to utilize advanced machine learning methods to predict possible fraud on data collected during the credit-application process. Fraudulent/anomalous cases are by definition rare, thus, the machine learning methods discussed in this thesis are based on discriminating fraudsters by using only positive (good customers that repay loans) and unlabeled (customers with a still unknown repayment status) data. A brief analysis of the underlying data is performed and several characteristics and issues like the high amount of missing values are discussed. Three machine learning algorithms able to learn only from positive and unlabeled data are introduced. The one-class Support Vector Machine (SVM) uses only positive instances in contrast to Positive and Unlabeled Learning (PUL) and PUL Ensemble, where both - positive and unlabeled data are used. An experiment that utilizes the preprocessing operations and the machine learning algorithms showed that a one-class SVM can deliver a promising fraud detection rate but at the expense of a large number of trustworthy applicants being misclassified; PUL significantly decreases the false negative rate but failed to detect more fraud cases, whereas a PUL ensemble achieves a zero false negative rate while driving the fraud detection rate to about 73%. In addition, a positive effect of the preprocessing pipeline and a negative impact of Principal Component Analysis is discovered. Finally, a business value of deploying a PUL ensemble as a part of credit scoring system is calculated for a given test set. The thesis came to the conclusion that a successful fraud detection is possible even when fraud cases are rare or unavailable. Die vergabe von Sofort-Krediten online ist eine moderne Business-Lösung. Ein Algorithmus basierend auf der Theorie vom maschinellen lernen entscheidet, ob ein Kredit vergeben wird oder nicht. Es ist nicht unüblich, dass Personen mit betrügerischen Absichten versuchen, das System zu umgehen - mit dem Ziel, einen Kredit zu bekommen. Diese Arbeit hat das Ziel, Methoden des maschinellen Lernens zu nutzen, um mögliche Betrugsfälle prognostizieren zu können. Die dafür verwendeten Daten werden während des Kreditantragsverfahrens gesammelt. Betrugs- bzw. anomale Fälle sind selten, so verwenden die Methoden in dieser Arbeit nur positive (Kunden die Kredite zurückzahlen) und unmarkierte (Kunden mit einem unbekannten Status der Rückzahlung) Daten um Betrugsfälle zu identifizieren. Eine Analyse der zugrunde liegenden Daten wurde durchführt und diverse Merkmale und Probleme wie z. B. die hohe Anzahl von fehlenden Daten wird diskutiert. Drei Maschinen-Lern-Algorithmen werden vorgestellt. Die one-class SVM verwendet nur positive Instanzen im Gegensatz zu Positive and Unlabeled Learning (PUL) und PUL Ensemble, wo beide - sowohl positive als auch unmarkierte - Daten verwendet werden. Ein Experiment unter der Verwendung von Vorverarbeitungsoperationen und der diskutierten Algorithmen wurde durchgeführt. Dieser zeigte eine viel versprechende Betrugserkennungsrate bei der Verwendung von one-class SVM auf Kosten einer großen Anzahl von vertrauenswürdigen Bewerbern, die als Betrüger klassifiziert wurden. PUL verringerte die Anzahl der falsch vorhergesagten Rückzahler, während ein PUL Ensemble alle vertrauenswürdigen Bewerber richtig klassifizierte und die Betrugserkennungsrate auf etwa 73% brachte. Zusätzlich wurde ein positiver Effekt der Vorverarbeitung von Daten und eine negative Auswirkung der Hauptkomponentenanalyse entdeckt. Schließlich wurde der mögliche Effekt von PUL-Ensemble als ein Teil des Kredit-Scoring- systems berechnet. Die Arbeit kommt zu dem Schluss, dass eine erfolgreiche Betrugserkennung auch ohne die Verwendung bereits dokumentierter Betrugsfälle möglich ist.
URI:	http://hdl.handle.net/20.500.12738/7363
Institute:	Department Informatik
Type:	Thesis
Thesis type:	Bachelor Thesis
Advisor:	von Luck, Kai
Referee:	Schoeneberg, Klaus-Peter
Appears in Collections:	Theses