Mélytanulás alapú sejtosztályozás kiegyensúlyozatlan adathalmaz esetén

Dátum
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt

Az úgynevezett PAP-teszt, más néven Papanicolau rendszer, a méhnyak felszínéről levált sejtek mikroszkópikus vizsgálatát jelenti, mely rákmegelőző állapotok, valamint a korai méhnyakrák felismerését teszi lehetővé. A PAP-teszt során speciális mikroszkópok segítségével vizsgálják az elkészült sejtkenetet, melyek akár több, mint 10000 sejtet is tartalmazhatnak. Egy beteg páciens esetén ezen sejtek alacsony hányadát képezik az elváltozott sejtek. A vizsgálat során a citológusok feladata a keneteken felismerni az egészségestől eltérő sejteket ami egy meglehetősen időigényes és így költséges feladat.

Egy ilyen kenet megfelelő módon történő digitalizálását követően, egy korábbi kutatás eredménye alapján automatikus sejtszegmentálás történik, melynek eredményeképpen előáll egy bináris maszk, amely beazonosítja a keneten található sejtcsoportokat. Ezen algoritmus eredményeit használva bemenetként, egy automatizált szeletelő algoritmust futtatunk, mely által kinyerjük az egyes sejteket tartalmazó képszeleteket.

A rendelkezésre álló adatbázisom kiegyensúlyozatlan volt, vagyis az egészséges képek túlnyomó többségben voltak. Munkám során ezen probléma megoldásához dolgoztam ki új módszert. Egy citológusok által annotált adathalmazt felhasználva egy mély tanuló hálózatot tanítottam be, melynek célja a sejtek bináris osztályozása volt. Az így kapott eredményeket tekintve szükség volt egy olyan megoldásra, mely a hálózat pontosságát növeli kiegyensúlyozva a rendelkezésre álló adathalmazt. Irodalomból ismert szintetikus képgeneráló algoritmus általam továbbfejlesztett változatát használtam, mely az osztályozásra nézve is megbízhatóan beteg sejteket generálva megoldja a kiegyensúlyozatlanságot.

Az így kapott képekkel kibővítettem a meglévő adathalmazt amit alkalmazva az előzőekben használt modell újra tanítása során, a modell teljesítménye tovább növekedett. A beteg sejtek priorizálása végett egy általam javasolt kombinált mutatót használtam a teljesítmény méréséhez.

Leírás
Kulcsszavak
mélytanulás, sejtosztályozás, citológia, Pap-teszt, adatkiegyensúlyozás
Forrás