Entwicklung eines Reinforcement Learning basierten Flugzeugautopiloten unter der Verwendung von Deterministic Policy Gradients

Wagner, Stefan Sylvius

License:
Title:	Entwicklung eines Reinforcement Learning basierten Flugzeugautopiloten unter der Verwendung von Deterministic Policy Gradients
Language:	German
Authors:	Wagner, Stefan Sylvius
Issue Date:	14-May-2018
Abstract:	Einer der schwierigsten Aufgaben im Reinforcement Learning ist die Regelung von Systemen in einem kontinuierlichen Zustandsraum und die anschließende Steuerung in einem kontinuierlichen Aktionsraum. In dieser Arbeit wird ein Reinforcment Learning basierter Flugzeugautopilot konzipiert und implementiert, der einen kontinuierlichen Zustandsraum approximiert und ein Flugzeug mit Aktionen in einem kontinuierlichen Wertebereich steuert. Deterministic Policy Gradients bieten ein spezialisiertes Framework in Form einer Actor-Critic Architektur, die in der Lage ist aus einem kontinuierlichen Zustandsraum, kontinuierliche Aktionswerte zu ermitteln. Dieses Framework wird im Zusammenhang mit einer Belohnungsfunktion, die Feedback über das Verhalten des Autopiloten liefert implementiert. Um die Realisierbarkeit und Robustheit des Reinforcement Learning basierten Flugzeugautopiloten zu überprüfen werden unterschiedliche Szenarien erstellt, die anhand eines komerziellen Flugsimulators ausgeführt und anschließend statistisch analysiert werden. One of the most difficult challenges in reinforcement learning is the continuous control of systems in a continuous state and action space. This papers goal is to design and implement a reinforcement learning based airplane autopilot that controls an aircraft in continuous state and action space. Deterministic Policy Gradients define a framework for this purpose in the form of an actor-critic architecture that approximates a continuous action space and outputs a continuous action vector. The framework is accompanied by the implementation of a reward function that provides the autopilot with behavioral feedback. Finally, the feasibility and robustness of the implemented autopilot is tested inside a commercial flight simulator. For this purpose multiple scenarios are defined and the resulting data evaluated through statistical methods.
URI:	http://hdl.handle.net/20.500.12738/8284
Institute:	Department Informatik
Type:	Thesis
Thesis type:	Bachelor Thesis
Advisor:	Meisel, Andreas
Referee:	Fohl, Wolfgang
Appears in Collections:	Theses