Klinikai szabad szövegek érzékeny adatainak maszkolása

dc.contributor.advisorEmri, Miklós
dc.contributor.authorBerzi, András
dc.contributor.departmentDE--Informatikai Kar
dc.date.accessioned2025-06-30T14:15:19Z
dc.date.available2025-06-30T14:15:19Z
dc.date.created2025
dc.description.abstractA szabad szöveges klinikai dokumentumok az adatvezérelt orvosi kutatások és alkalmazások alapvető forrásai, amelyek értékes betekintést nyújthatnak a betegellátás minőségének javításához, klinikai döntések iránymutatásához, valamint olyan adatokkal szolgálhatnak a kutatók számára, amelyek korábban nem álltak rendelkezésre. A páciens-információk bizalmas kezelése érdekében a személyes adataikat, beleértve neveket, lakcímeket és egyéb érzékeny azonosítókat, meg kell védeni. Szabályozási keretrendszerek, - mint például a GDPR (2016/679) az Európai Unióban - szigorú követelményeket támasztanak az egyének azonosíthatóságának védelmében. Ezek a szabályozások előírják, hogy a személyes adatokkal kapcsolatos információkat el kell távolítani a klinikai dokumentumokból, mielőtt azokat további célokra, például kutatásra használnák fel, ahol az egyes betegek személyazonossága irreleváns. Az ilyen információk a struktúrálatlan szövegekben való megtalálásához egy speciális természetes nyelvi feldolgozási eszközt alkalmazhatunk, a nevesített entitások felismerését, amely képes automatikusan azonosítani és a korábban meghatározott csoportokba sorolni a nevesített entitásokat. A diplomamunkában bemutatom a létrehozott spaCy modelleket, amelyek képesek felismerni a klinikai szabad szövegekben az érzékeny információkat. A modellek fejlesztéséhez létrehoztam egy speciális, klinikai szövegeken alapuló annotált adathalmazt, amelyben minden azonosított érzékeny információ annotálásra került. Az annotálási folyamat megkönnyítése érdekében egy szabály-alapú előannotálási folyamatot használtam. Az adathalmaz nagyjából 15000 szöveget tartalmaz, amelyekben több mint 90000 érzékeny információ került annotálásra. Az adathalmaz használatával több modellt is tanítottam és egy külön validációs adathalmazon értékeltem a modellek teljesítményét. A tanított modellek teljesítménye azt mutatja, hogy hatékonyan detektálhatók a klinikai szabad szövegekből az érzékeny információk.
dc.description.courseAdattudomány
dc.description.degreeMSc/MA
dc.format.extent43
dc.identifier.urihttps://hdl.handle.net/2437/395117
dc.language.isohu
dc.rights.infoHozzáférhető a 2022 decemberi felsőoktatási törvénymódosítás értelmében.
dc.subjectKlinikai szabad szöveg
dc.subjectMaszkolás
dc.subjectNevesített entitás felismerés
dc.subjectTermészetes nyelvi feldolgozás
dc.subject.dspaceInformatika::Információtechnológia
dc.titleKlinikai szabad szövegek érzékeny adatainak maszkolása
Fájlok
Eredeti köteg (ORIGINAL bundle)
Megjelenítve 1 - 1 (Összesen 1)
Nincs kép
Név:
szakdolgozat.pdf
Méret:
1.25 MB
Formátum:
Adobe Portable Document Format
Leírás:
szakdolgozat
Engedélyek köteg
Megjelenítve 1 - 1 (Összesen 1)
Nincs kép
Név:
license.txt
Méret:
2.35 KB
Formátum:
Item-specific license agreed upon to submission
Leírás: