Túlmintavételező módszerek hatásának vizsgálata bináris osztályozási problémák esetén

Dátum
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt

A mesterséges intelligencia egyik ága a gépi tanulás, melynek célja, hogy adatmodelleket hozzon létre tanítási módszerekkel, így a számítógépek „gondolkodása” jobban hasonlíthat az emberéhez. A tanulás képessége fontos része a mesterséges intelligenciának. Rengeteg olyan eszközzel, alkalmazással találkozunk nap mint nap a tudtunkon kívül is, melynek hátterében mesterséges intelligencia áll, például az applikációk személyre szabott reklámjai, vagy a különböző vezetéstámogató rendszerek hátterében is megtalálhatók ezen eszközök [w2]. A gépi tanulás egyik jól ismert problémája az osztályozás, ahol a cél az, hogy egy úgynevezett tanítóadatbázis alapján, melyben ismert osztályokba tartozó minták (adatelemek) szerepelnek, létrehozzunk egy olyan modellt, mely képes lesz az ismeretlen címkéjű minták osztályokba sorolására is. Amennyiben az elemeket pontosan két osztályba kell besorolni, bináris osztályozási problémáról lesz szó. Az osztályozási feladatoknál az osztályok elemeinek eloszlása gyakran egyenetlen. Ezt a problémát kiegyensúlyozatlan osztályozásnak nevezik, és a való életben is számtalan esetben találkozhatunk vele. Bináris osztályozási feladat esetében a kisebb osztályt gyakran pozitív osztálynak, a nagyobbat pedig negatív osztálynak nevezzük. A kiegyensúlyozottságot sok esetben az okozza, hogy az egyik osztály elemei ritkább eseményeket reprezentálnak, mint a másik osztályé. Az is gyakori a kiegyensúlyozatlan adathalmazok esetében, hogy a kisebb osztály elemeinek felismerése az igazán fontos. Említhetjük itt az orvostudomány területéről a betegségek diagnosztizálását (az osztályok előbb említett elnevezése is innen eredeztethető), vagy az ipar területről a hibadiagnosztikát. A kiegyensúlyozatlan adathalmazok esetében a fő probléma az, hogy az osztályozók egy része nem tekinti a kisebb osztályt ugyanolyan fontosnak, mint a nagyobbat, hiszen alul reprezentáltak az adathalmazon belül. Az ilyen osztályozók a pozitív osztályba tartozó példákat arányaiban gyakrabban sorolják rosszul, mint a negatív osztályba tartozókat. A helyzetet tovább rontja, ha az osztályok átfedőek, vagyis a ritka mintákat nehéz elkülöníteni a többitől. Az elmúlt években a kutatók számos megoldást javasoltak ennek a problémának a kezelésére, mind a hagyományos tanuló algoritmusok, mind az együttes technikák esetében. A megoldások három nagy csoportba sorolhatók:

  1. Adatszintű módszerek: Az adathalmaz tanításhoz használt elemeit oly módon módosítják, hogy többé-kevésbé kiegyensúlyozott osztályeloszlást hozzanak létre, amely lehetővé teszi az osztályozók számára, hogy a szabványos osztályozáshoz hasonló módon működjenek.
  2. Algoritmusszintű módszerek: Ez az eljárás az alap tanulási módszerek adaptálására irányul, hogy jobban igazodjanak az osztálykiegyensúlyozatlansági problémákhoz. Ide tartoznak a költségérzékeny tanulási módszerek is, melyek a pozitív elemek hibás osztályozását jobban büntetik, mint a negatív elemekét.
  3. Hibrid módszerek Az ilyen típusú megoldások adatszintű, algoritmikus szintű megoldásokat egyaránt tartalmaznak. A dolgozatomban az adatszintű megoldásokkal foglalkozok, melyek célja a modell felépítéséhez használt adathalmaz részleges vagy teljes kiegyensúlyozása. A következő fejezetben ezen eljárásokról adok áttekintést, majd ismertem az egyik egyszerű túlmintavételező módszer, a SMOTE általam készített implementációját és bemutatom annak hatását különböző adathalmazokon.
Leírás
Kulcsszavak
smote, python
Forrás