Klinikai szabad szövegek érzékeny adatainak maszkolása
| dc.contributor.advisor | Emri, Miklós | |
| dc.contributor.author | Berzi, András | |
| dc.contributor.department | DE--Informatikai Kar | |
| dc.date.accessioned | 2025-06-30T14:15:19Z | |
| dc.date.available | 2025-06-30T14:15:19Z | |
| dc.date.created | 2025 | |
| dc.description.abstract | A szabad szöveges klinikai dokumentumok az adatvezérelt orvosi kutatások és alkalmazások alapvető forrásai, amelyek értékes betekintést nyújthatnak a betegellátás minőségének javításához, klinikai döntések iránymutatásához, valamint olyan adatokkal szolgálhatnak a kutatók számára, amelyek korábban nem álltak rendelkezésre. A páciens-információk bizalmas kezelése érdekében a személyes adataikat, beleértve neveket, lakcímeket és egyéb érzékeny azonosítókat, meg kell védeni. Szabályozási keretrendszerek, - mint például a GDPR (2016/679) az Európai Unióban - szigorú követelményeket támasztanak az egyének azonosíthatóságának védelmében. Ezek a szabályozások előírják, hogy a személyes adatokkal kapcsolatos információkat el kell távolítani a klinikai dokumentumokból, mielőtt azokat további célokra, például kutatásra használnák fel, ahol az egyes betegek személyazonossága irreleváns. Az ilyen információk a struktúrálatlan szövegekben való megtalálásához egy speciális természetes nyelvi feldolgozási eszközt alkalmazhatunk, a nevesített entitások felismerését, amely képes automatikusan azonosítani és a korábban meghatározott csoportokba sorolni a nevesített entitásokat. A diplomamunkában bemutatom a létrehozott spaCy modelleket, amelyek képesek felismerni a klinikai szabad szövegekben az érzékeny információkat. A modellek fejlesztéséhez létrehoztam egy speciális, klinikai szövegeken alapuló annotált adathalmazt, amelyben minden azonosított érzékeny információ annotálásra került. Az annotálási folyamat megkönnyítése érdekében egy szabály-alapú előannotálási folyamatot használtam. Az adathalmaz nagyjából 15000 szöveget tartalmaz, amelyekben több mint 90000 érzékeny információ került annotálásra. Az adathalmaz használatával több modellt is tanítottam és egy külön validációs adathalmazon értékeltem a modellek teljesítményét. A tanított modellek teljesítménye azt mutatja, hogy hatékonyan detektálhatók a klinikai szabad szövegekből az érzékeny információk. | |
| dc.description.course | Adattudomány | |
| dc.description.degree | MSc/MA | |
| dc.format.extent | 43 | |
| dc.identifier.uri | https://hdl.handle.net/2437/395117 | |
| dc.language.iso | hu | |
| dc.rights.info | Hozzáférhető a 2022 decemberi felsőoktatási törvénymódosítás értelmében. | |
| dc.subject | Klinikai szabad szöveg | |
| dc.subject | Maszkolás | |
| dc.subject | Nevesített entitás felismerés | |
| dc.subject | Természetes nyelvi feldolgozás | |
| dc.subject.dspace | Informatika::Információtechnológia | |
| dc.title | Klinikai szabad szövegek érzékeny adatainak maszkolása |
Fájlok
Eredeti köteg (ORIGINAL bundle)
1 - 1 (Összesen 1)
Nincs kép
- Név:
- szakdolgozat.pdf
- Méret:
- 1.25 MB
- Formátum:
- Adobe Portable Document Format
- Leírás:
- szakdolgozat
Engedélyek köteg
1 - 1 (Összesen 1)
Nincs kép
- Név:
- license.txt
- Méret:
- 2.35 KB
- Formátum:
- Item-specific license agreed upon to submission
- Leírás: