Adatelrejtés tanulóvektorok particionálása után történő osztályozással

Kis, Norbert

Adatelrejtés tanulóvektorok particionálása után történő osztályozással

Szerzők

Absztrakt

Az osztályozó algoritmusok széleskörűen használt eszközök a különböző adatbányászat, gépi-tanulás és döntéstámogató rendszerek esetében. Az egyik legáltalánosabban használt osztályozó a Naïve-Bayes algoritmus.

Az orvosi és különböző céges környezetben a versenyképesség megőrzéséhez elengedhetetlen, hogy az előnyt jelentő extra információ, amivel rendelkeznek, a konkurencia számára ne legyen hozzáférhető. Ám amennyiben egy megosztott rendszerről beszélünk, amikor több kutatóintézet egymással együttműködve egymás adatai alapján hoz egy közös, egész infrastruktúra számára fontos döntést, az adott információkat a totális megosztás elvén használják. A diplomamunkámban kifejtett módszer ezt a két, első hallásra ellentmondó elvárást egyesítené, úgy, hogy mind a két feltétel teljesüljön.

Jelen dolgozatom a tulajdonság vektorok felbontása (particionálása) után történő osztályozás pontossági vizsgálata, valamint ennek az osztályozásnak az axiomatikus módszerekkel való összehasonlítása és az axiomatikus módszerek speciális kombinálása által létrehozott osztályozó eljárás kifejlesztése - amely ugyanolyan eredményt ad, mint egy teljes vektoron végzett Naive-Bayes osztályozó. Dolgozatom részletesen kitér a kutatómunka során felfedezett és kevésbé ismert Bell-számok és a másodfajú Stirling számok matematikájára, valamint hogy ezen számok felhasználásával hogyan lehetséges halmazok particionálása.

A témakör sokrétű felhasználhatóságát mutatja, hogy Pima indián törzsbe tartozó nők cukorbetegséggel kapcsolatos adataival is foglalkoztam, valamint Emotiv Electroencefalograf (EEG), agyi idegsejtek elektromos tevékenységét mérő eszköz mérési eredményeivel, egy adott páciens szemének nyitott vagy csukott állapotának meghatározása céljából. Ez a két adathalmaz a UCI Machine Learning Repository publikus felületről származik. Emellett retinaképes adatbázist is felhasználtam, ahol a cél a retinaképek segítségével történő vakfolt középpontjának detektálása volt.

A kutatás egyik legfontosabb állítása, hogy a Naïve-Bayes osztályozó algoritmus alapesetben pontosabb az axiomatikus döntési szabályoknál, ám minél jobban szétdaraboljuk a tanulóvektort al-vektorokra, annál jobban visszaesik a Naïve-Bayes pontossága.

Kulcsszavak

osztályozó algoritmus, Naive-Bayes, adatbányászat, gépi tanulás

Hivatkozás

http://hdl.handle.net/2437/220219

Gyűjtemények

Hallgatói dolgozatok (Informatikai Kar)

A tétel részletes nézete