Bogacsovics, GergőVárbíró, Nándor2026-02-122026-02-122025https://hdl.handle.net/2437/404428A szakdolgozat a megerősítéses tanulás elméletét és Unity-n belüli alkalmazásának bemutatására fókuszált, egy egyszerű játék segítségével, amit az Asteroids nevű játék inspirált. Részletesen ismerteti a Markov-döntési folyamatot és a PPO algoritmust. A dolgozat bemutatja a Unity-ben létrehozott környezet felépítését, valamint azt, hogy ágens hogyan érzékeli a környezetét és milyen akciók végrehajtására képes. Külön hangsúlyt kapnak a szenzorok, a jutalmazási rendszer és a konfigurációs fájl hiperparaméterei, amelyek jelentősen befolyásolják a tanulás eredményességét. A tanítások során többféle beállítás és jutalomfüggvény tesztelése történt meg, amely rávilágított az ágens érzékenységére és a paraméterek kritikus szerepére. Az eredmények alapján az egyszerű mozgási modell esetében az ágens gyorsan és pontosan megtanulta a feladatot, míg a folyamatos mozgás bonyolultabb kihívásnak bizonyult. A vizsgálatok összességében megmutatták, hogy a megerősítéses tanulás gyakorlati alkalmazása összetett tervezést, pontos környezetkialakítást és gondosan megválasztott jutalmazási mechanizmust igényel.48huMegerősítéses tanulásUnity-ML-AgentsProximal Policy OptimizationMegerősítéses tanulás klasszikus játékokhoz Unity-benInformatikaHozzáférhető a 2022 decemberi felsőoktatási törvénymódosítás értelmében.