Megerősítéses tanulás alkalmazása harcászati járművek irányítására
Fájlok
Dátum
Szerzők
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt
A szakdolgozat a megerősítéses tanulás (Reinforcement Learning) alkalmazási lehetőségeit vizsgálja harcászati járművek, különösen önjáró lövegek autonóm irányításában. A kutatás célja egy olyan intelligens ágens létrehozása volt a Unity ML-Agents szimulációs környezetben, amely a Proximal Policy Optimization (PPO) algoritmus segítségével, explicit programozás nélkül sajátítja el a ballisztikus célzást. A tanítási folyamat hatékonyságának növelése érdekében a Curriculum Learning módszertanát alkalmaztam, három egymásra épülő nehézségi szinten keresztül fejlesztve az ágens képességeit. Az eredmények azt mutatták, hogy statikus, valamint lineárisan mozgó célpontok esetén a rendszer sikeresen megtanulta a célkövetést és a pontos tüzelést. A legkomplexebb, akadályokkal nehezített környezetben a modell képes volt a megfelelő lőállás megkeresésére és a navigációra, ám a döntési láncolat összetettsége miatt a végső stabilizációs fázisban nem ért el teljes konvergenciát. A kísérlet rávilágított a jutalomfüggvények tervezésének kritikus szerepére, illetve arra a problémára, hogy a PPO algoritmus nehezen kezeli a ritka jutalmazással járó, összetett manővereket. A dolgozat konklúziója szerint a komplexebb harcászati szituációk megoldására a jövőben a hierarchikus megerősítéses tanulás bevezetése nyújthat megoldást.