Klinikai szabad szövegek érzékeny adatainak  maszkolása

Berzi, András

Klinikai szabad szövegek érzékeny adatainak maszkolása

dc.contributor.advisor	Emri, Miklós
dc.contributor.author	Berzi, András
dc.contributor.department	DE--Informatikai Kar
dc.date.accessioned	2025-06-30T14:15:19Z
dc.date.available	2025-06-30T14:15:19Z
dc.date.created	2025
dc.description.abstract	A szabad szöveges klinikai dokumentumok az adatvezérelt orvosi kutatások és alkalmazások alapvető forrásai, amelyek értékes betekintést nyújthatnak a betegellátás minőségének javításához, klinikai döntések iránymutatásához, valamint olyan adatokkal szolgálhatnak a kutatók számára, amelyek korábban nem álltak rendelkezésre. A páciens-információk bizalmas kezelése érdekében a személyes adataikat, beleértve neveket, lakcímeket és egyéb érzékeny azonosítókat, meg kell védeni. Szabályozási keretrendszerek, - mint például a GDPR (2016/679) az Európai Unióban - szigorú követelményeket támasztanak az egyének azonosíthatóságának védelmében. Ezek a szabályozások előírják, hogy a személyes adatokkal kapcsolatos információkat el kell távolítani a klinikai dokumentumokból, mielőtt azokat további célokra, például kutatásra használnák fel, ahol az egyes betegek személyazonossága irreleváns. Az ilyen információk a struktúrálatlan szövegekben való megtalálásához egy speciális természetes nyelvi feldolgozási eszközt alkalmazhatunk, a nevesített entitások felismerését, amely képes automatikusan azonosítani és a korábban meghatározott csoportokba sorolni a nevesített entitásokat. A diplomamunkában bemutatom a létrehozott spaCy modelleket, amelyek képesek felismerni a klinikai szabad szövegekben az érzékeny információkat. A modellek fejlesztéséhez létrehoztam egy speciális, klinikai szövegeken alapuló annotált adathalmazt, amelyben minden azonosított érzékeny információ annotálásra került. Az annotálási folyamat megkönnyítése érdekében egy szabály-alapú előannotálási folyamatot használtam. Az adathalmaz nagyjából 15000 szöveget tartalmaz, amelyekben több mint 90000 érzékeny információ került annotálásra. Az adathalmaz használatával több modellt is tanítottam és egy külön validációs adathalmazon értékeltem a modellek teljesítményét. A tanított modellek teljesítménye azt mutatja, hogy hatékonyan detektálhatók a klinikai szabad szövegekből az érzékeny információk.
dc.description.course	Adattudomány
dc.description.degree	MSc/MA
dc.format.extent	43
dc.identifier.uri	https://hdl.handle.net/2437/395117
dc.language.iso	hu
dc.rights.info	Hozzáférhető a 2022 decemberi felsőoktatási törvénymódosítás értelmében.
dc.subject	Klinikai szabad szöveg
dc.subject	Maszkolás
dc.subject	Nevesített entitás felismerés
dc.subject	Természetes nyelvi feldolgozás
dc.subject.dspace	Informatika::Információtechnológia
dc.title	Klinikai szabad szövegek érzékeny adatainak maszkolása

Fájlok

Eredeti köteg (ORIGINAL bundle)

Megjelenítve 1 - 1 (Összesen 1)

Név:: szakdolgozat.pdf
Méret:: 1.25 MB
Formátum:: Adobe Portable Document Format
Leírás:: szakdolgozat

Megjelenítés

Engedélyek köteg

Megjelenítve 1 - 1 (Összesen 1)

Név:: license.txt
Méret:: 2.35 KB
Formátum:: Item-specific license agreed upon to submission
Leírás:

Letöltés

Gyűjtemények

Hallgatói dolgozatok (Informatikai Kar)