Megerősítéses tanulás alkalmazása harcászati járművek irányítására

Angyal, Sándor

Megerősítéses tanulás alkalmazása harcászati járművek irányítására

Fájlok

szakdolgozat(1.05 MB)

Szerzők

Angyal, Sándor

Absztrakt

A szakdolgozat a megerősítéses tanulás (Reinforcement Learning) alkalmazási lehetőségeit vizsgálja harcászati járművek, különösen önjáró lövegek autonóm irányításában. A kutatás célja egy olyan intelligens ágens létrehozása volt a Unity ML-Agents szimulációs környezetben, amely a Proximal Policy Optimization (PPO) algoritmus segítségével, explicit programozás nélkül sajátítja el a ballisztikus célzást. A tanítási folyamat hatékonyságának növelése érdekében a Curriculum Learning módszertanát alkalmaztam, három egymásra épülő nehézségi szinten keresztül fejlesztve az ágens képességeit. Az eredmények azt mutatták, hogy statikus, valamint lineárisan mozgó célpontok esetén a rendszer sikeresen megtanulta a célkövetést és a pontos tüzelést. A legkomplexebb, akadályokkal nehezített környezetben a modell képes volt a megfelelő lőállás megkeresésére és a navigációra, ám a döntési láncolat összetettsége miatt a végső stabilizációs fázisban nem ért el teljes konvergenciát. A kísérlet rávilágított a jutalomfüggvények tervezésének kritikus szerepére, illetve arra a problémára, hogy a PPO algoritmus nehezen kezeli a ritka jutalmazással járó, összetett manővereket. A dolgozat konklúziója szerint a komplexebb harcászati szituációk megoldására a jövőben a hierarchikus megerősítéses tanulás bevezetése nyújthat megoldást.

Kulcsszavak

unity, megerősítéses tanulás

Hivatkozás

https://hdl.handle.net/2437/404425

Gyűjtemények

Hallgatói dolgozatok (Informatikai Kar)

A tétel részletes nézete