Entwicklung eines Reinforcement Learning basierten Flugzeugautopiloten unter der Verwendung von Deterministic Policy Gradients

URL
Dokumentart: Bachelor Thesis
Institut: Department Informatik
Sprache: Deutsch
Erstellungsjahr: 2018
Publikationsdatum:
SWD-Schlagwörter: Operante Konditionierung
DDC-Sachgruppe: Informatik

Kurzfassung auf Deutsch:

Einer der schwierigsten Aufgaben im Reinforcement Learning ist die Regelung von Systemen in einem kontinuierlichen Zustandsraum und die anschließende Steuerung in einem kontinuierlichen Aktionsraum. In dieser Arbeit wird ein Reinforcment Learning basierter Flugzeugautopilot konzipiert und implementiert, der einen kontinuierlichen Zustandsraum approximiert und ein Flugzeug mit Aktionen in einem kontinuierlichen Wertebereich steuert. Deterministic Policy Gradients bieten ein spezialisiertes Framework in Form einer Actor-Critic Architektur, die in der Lage ist aus einem kontinuierlichen Zustandsraum, kontinuierliche Aktionswerte zu ermitteln. Dieses Framework wird im Zusammenhang mit einer Belohnungsfunktion, die Feedback über das Verhalten des Autopiloten liefert implementiert. Um die Realisierbarkeit und Robustheit des Reinforcement Learning basierten Flugzeugautopiloten zu überprüfen werden unterschiedliche Szenarien erstellt, die anhand eines komerziellen Flugsimulators ausgeführt und anschließend statistisch analysiert werden.

Kurzfassung auf Englisch:

One of the most difficult challenges in reinforcement learning is the continuous control of systems in a continuous state and action space. This papers goal is to design and implement a reinforcement learning based airplane autopilot that controls an aircraft in continuous state and action space. Deterministic Policy Gradients define a framework for this purpose in the form of an actor-critic architecture that approximates a continuous action space and outputs a continuous action vector. The framework is accompanied by the implementation of a reward function that provides the autopilot with behavioral feedback. Finally, the feasibility and robustness of the implemented autopilot is tested inside a commercial flight simulator. For this purpose multiple scenarios are defined and the resulting data evaluated through statistical methods.

Hinweis zum Urheberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.