Túlmintavételező módszerek hatásának vizsgálata bináris osztályozási problémák esetén

dc.contributor.advisorSzeghalmy, Szilvia
dc.contributor.authorOrszág, László Bence
dc.contributor.departmentDE--Informatikai Karhu_HU
dc.date.accessioned2022-05-05T05:52:46Z
dc.date.available2022-05-05T05:52:46Z
dc.date.created2022-05-04
dc.description.abstractA mesterséges intelligencia egyik ága a gépi tanulás, melynek célja, hogy adatmodelleket hozzon létre tanítási módszerekkel, így a számítógépek „gondolkodása” jobban hasonlíthat az emberéhez. A tanulás képessége fontos része a mesterséges intelligenciának. Rengeteg olyan eszközzel, alkalmazással találkozunk nap mint nap a tudtunkon kívül is, melynek hátterében mesterséges intelligencia áll, például az applikációk személyre szabott reklámjai, vagy a különböző vezetéstámogató rendszerek hátterében is megtalálhatók ezen eszközök [w2]. A gépi tanulás egyik jól ismert problémája az osztályozás, ahol a cél az, hogy egy úgynevezett tanítóadatbázis alapján, melyben ismert osztályokba tartozó minták (adatelemek) szerepelnek, létrehozzunk egy olyan modellt, mely képes lesz az ismeretlen címkéjű minták osztályokba sorolására is. Amennyiben az elemeket pontosan két osztályba kell besorolni, bináris osztályozási problémáról lesz szó. Az osztályozási feladatoknál az osztályok elemeinek eloszlása gyakran egyenetlen. Ezt a problémát kiegyensúlyozatlan osztályozásnak nevezik, és a való életben is számtalan esetben találkozhatunk vele. Bináris osztályozási feladat esetében a kisebb osztályt gyakran pozitív osztálynak, a nagyobbat pedig negatív osztálynak nevezzük. A kiegyensúlyozottságot sok esetben az okozza, hogy az egyik osztály elemei ritkább eseményeket reprezentálnak, mint a másik osztályé. Az is gyakori a kiegyensúlyozatlan adathalmazok esetében, hogy a kisebb osztály elemeinek felismerése az igazán fontos. Említhetjük itt az orvostudomány területéről a betegségek diagnosztizálását (az osztályok előbb említett elnevezése is innen eredeztethető), vagy az ipar területről a hibadiagnosztikát. A kiegyensúlyozatlan adathalmazok esetében a fő probléma az, hogy az osztályozók egy része nem tekinti a kisebb osztályt ugyanolyan fontosnak, mint a nagyobbat, hiszen alul reprezentáltak az adathalmazon belül. Az ilyen osztályozók a pozitív osztályba tartozó példákat arányaiban gyakrabban sorolják rosszul, mint a negatív osztályba tartozókat. A helyzetet tovább rontja, ha az osztályok átfedőek, vagyis a ritka mintákat nehéz elkülöníteni a többitől. Az elmúlt években a kutatók számos megoldást javasoltak ennek a problémának a kezelésére, mind a hagyományos tanuló algoritmusok, mind az együttes technikák esetében. A megoldások három nagy csoportba sorolhatók: 1. Adatszintű módszerek: Az adathalmaz tanításhoz használt elemeit oly módon módosítják, hogy többé-kevésbé kiegyensúlyozott osztályeloszlást hozzanak létre, amely lehetővé teszi az osztályozók számára, hogy a szabványos osztályozáshoz hasonló módon működjenek. 2. Algoritmusszintű módszerek: Ez az eljárás az alap tanulási módszerek adaptálására irányul, hogy jobban igazodjanak az osztálykiegyensúlyozatlansági problémákhoz. Ide tartoznak a költségérzékeny tanulási módszerek is, melyek a pozitív elemek hibás osztályozását jobban büntetik, mint a negatív elemekét. 3. Hibrid módszerek Az ilyen típusú megoldások adatszintű, algoritmikus szintű megoldásokat egyaránt tartalmaznak. A dolgozatomban az adatszintű megoldásokkal foglalkozok, melyek célja a modell felépítéséhez használt adathalmaz részleges vagy teljes kiegyensúlyozása. A következő fejezetben ezen eljárásokról adok áttekintést, majd ismertem az egyik egyszerű túlmintavételező módszer, a SMOTE általam készített implementációját és bemutatom annak hatását különböző adathalmazokon.hu_HU
dc.description.correctorN.I.
dc.description.courseGazdaságinformatikus BSchu_HU
dc.description.degreeBSc/BAhu_HU
dc.format.extent29hu_HU
dc.identifier.urihttp://hdl.handle.net/2437/332313
dc.language.isohuhu_HU
dc.rights.accessHozzáférhető a 2022 decemberi felsőoktatási törvénymódosítás értelmében.
dc.subjectsmotehu_HU
dc.subjectpythonhu_HU
dc.subject.dspaceDEENK Témalista::Informatikahu_HU
dc.titleTúlmintavételező módszerek hatásának vizsgálata bináris osztályozási problémák eseténhu_HU
Fájlok