Klinikai szabad szövegek érzékeny adatainak maszkolása
Fájlok
Dátum
Szerzők
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt
A szabad szöveges klinikai dokumentumok az adatvezérelt orvosi kutatások és alkalmazások alapvető forrásai, amelyek értékes betekintést nyújthatnak a betegellátás minőségének javításához, klinikai döntések iránymutatásához, valamint olyan adatokkal szolgálhatnak a kutatók számára, amelyek korábban nem álltak rendelkezésre. A páciens-információk bizalmas kezelése érdekében a személyes adataikat, beleértve neveket, lakcímeket és egyéb érzékeny azonosítókat, meg kell védeni. Szabályozási keretrendszerek, - mint például a GDPR (2016/679) az Európai Unióban - szigorú követelményeket támasztanak az egyének azonosíthatóságának védelmében. Ezek a szabályozások előírják, hogy a személyes adatokkal kapcsolatos információkat el kell távolítani a klinikai dokumentumokból, mielőtt azokat további célokra, például kutatásra használnák fel, ahol az egyes betegek személyazonossága irreleváns. Az ilyen információk a struktúrálatlan szövegekben való megtalálásához egy speciális természetes nyelvi feldolgozási eszközt alkalmazhatunk, a nevesített entitások felismerését, amely képes automatikusan azonosítani és a korábban meghatározott csoportokba sorolni a nevesített entitásokat. A diplomamunkában bemutatom a létrehozott spaCy modelleket, amelyek képesek felismerni a klinikai szabad szövegekben az érzékeny információkat. A modellek fejlesztéséhez létrehoztam egy speciális, klinikai szövegeken alapuló annotált adathalmazt, amelyben minden azonosított érzékeny információ annotálásra került. Az annotálási folyamat megkönnyítése érdekében egy szabály-alapú előannotálási folyamatot használtam. Az adathalmaz nagyjából 15000 szöveget tartalmaz, amelyekben több mint 90000 érzékeny információ került annotálásra. Az adathalmaz használatával több modellt is tanítottam és egy külön validációs adathalmazon értékeltem a modellek teljesítményét. A tanított modellek teljesítménye azt mutatja, hogy hatékonyan detektálhatók a klinikai szabad szövegekből az érzékeny információk.