Ritka anyagcsere betegségek diagnosztikája adatbányászat és gépi tanulás segítségével
Dátum
Szerzők
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt
Az adatbányászat és gépi tanulás módszerei nagy klinikai és kórházi adattömegen alkalmazva, rendkívül hasznosnak bizonyultak mind a ritka betegségek prevalenciájának becslésében, mind pedig ezen ritka kórképeket hordozó betegek azonosításában.
Prevalencia becsléseink alapján az FH és az FCS is gyakoribbnak bizonyult a korábbi irodalmi adatokhoz képest, ugyanakkor újabb vizsgálatok alapján feltételezhető, hogy a magasabb prevalencia lehet a valós. Az ilyen típusú elemzés során maguknak a pontrendszereknek a teljesítménye is vizsgálható és sikerült igazolnunk, hogy mind a DCLNS, mind pedig a Moulin-féle FCS score nagyon hatékony az FH, illetve az FCS betegek diagnosztizálásában, a súlyos genetikai érintettségek által okozott kórképek identifikálásában. Utóbbi pontrendszer az FCS és MFCS esetek szétválasztásában is megbízhatóan használható.
Az FCS score mélyebb vizsgálatánál arra jutottunk, hogy a gépi tanulás eszközrendszerével maga a pontrendszer is tovább fejleszthető. Mindez azért is tűnik hasznosnak, mivel a pontszám kiszámítása során olyan információkra is támaszkodnunk kell, melyek gyakran az egészségügyi adatbázisokban sajnálatosan nem mindig elérhetőek. A nagy adattömegen történő tanítás a betegség kórlefolyásának olyan összefüggéseit is feltárhatja, amelyek korábban nem voltak ismertek, vagy nem volt komolyabb jelentőség tulajdonítva nekik. Munkánk alapján – véleményünk szerint fontos üzenetként – a szérum összkoleszterin szintjének ismerete az FCS pontosabb diagnózisát és a betegek biztosabb azonosítását teheti lehetővé.
A módszer alkalmazhatóságát részben nehezíti az egyes gépi tanulási modellek “black box” jellege, azaz, hogy a pontos döntési utak a modell komplex súlyozása és számos paramétere miatt nehezen vagy egyáltalán nem fejthetőek vissza. Mégis ezek a modern megoldások jelenthetik a jövő tömeges, de személyre szabott diagnosztikájának fontos elemét leginkább azért, mert ezek alapvető tulajdonsága a gyors és tömeges alkalmazhatóság. A legtöbb beteg általában többször is megfordul valamelyik egészségügyi szolgáltatónál, mely során standard orvosi vizsgálat és rutin vérvétel általában történik. Ezek az adatok pedig legtöbbször elégségesek arra, hogy gyors becslés alapján az FH vagy az FCS kockázata meghatározható legyen (általában ennél jóval több adat is rendelkezésre áll, mire a beteg tényleges diagnózisát megállapítják). Ez lehetőséget ad más ritka betegségek korábbi azonosítására, ezáltal a korai kezelés megkezdésére, a potenciálisan súlyos kardiovaszkuláris szövődmények elkerülésére, hozzájárulva ezzel a társadalom tagjainak egészségben töltött éveinek növekedéséhez.
A korai, számítógéppel támogatott vizsgálatok szintén segíthetik a megfelelő jelöltek kiválasztását további diagnosztikai és genetikai vizsgálatokra, mely által a diagnosztikára fordított erőforrások csökkenhetnek. Kutatásaink során igazoltuk, hogy az adatbányászat és a gépi tanulás módszerei hatékonyak a kockázati tényezők számszerűsítésében is, így a diagnosztika mellett a tudományos kutatás fontos elemét is jelenthetik. Az egészségügyi szolgáltató intézmények hatékony adatstruktúrák (adattárházak és adattavak) és megfelelő, támogató ML rendszerek kialakításával mind a diagnosztika, mind pedig a tudományos kutatás során is jelentős előnyre tehet szert az ilyen megoldásokat nem alkalmazó intézményekkel szemben.
Applied to large amounts of hospital data, methods of data mining and machine learning have proven to be extremely useful both in estimating the prevalence of rare diseases and identifying the patients. During our prevalence estimation process, we found that both FH and FCS are more common than they were suggested by earlier literature data, however, recent studies indicate higher prevalence. During this type of analysis, the performance of the score systems themselves can also be assessed numerically. Indeed, we confirmed that both DCLN and FCS scoring are very effective in the clinical practice in diagnosing FH and FCS patients, separating FCS and MFCS cases and, finding serious genetic involvements. We also came to the conclusion that the FCS score system can be further improved with the tools of machine learning. Although score systems are more than just fast numerical scoring, much information is not available in hospital databases including family history or detailed genetic data, therefore improvement of scoring efficacy is of major interest. Training on big data may reveal previously unknown relationships in disease appearance or course. Indeed, we now recommend a more detailed consideration of the serum cholesterol levels when establishing the diagnosis of FCS. The applicability of the method is partly hampered by the "black box" nature of the individual ML models (that is, the exact decision paths are difficult or impossible to decipher due to the complex parameters of the model). Yet these modern solutions may represent important elements of the mass-personalized diagnostics in the future, mostly because they are rapid and easy to apply. Additionally, most patients turn up at health care providers several times participating in standard medical examinations and routine blood sampling. These data are usually sufficient enough to properly determine the risk of FH or FCS based on a quick risk assessment, however, in most cases, much more data is available by the time the actual diagnosis is established. Risk assessment may also further improve the screening of these and other rare diseases, initiate early treatment and help to avoid serious and life-threatening cardiovascular complications, as well as to increase the life expectancy. Early computer-assisted screening tests may also increase the selection of appropriate candidates for further diagnostic and genetic testing, thereby reducing resources devoted to individual diagnostic efforts. During our research, we also managed to prove that data mining and machine learning are also effective for quantifying exact risk factors, thus adding important elements of scientific research to the diagnostic process.. By the development of effective data structures including data warehouses and data lakes and suitable, supporting ML systems, health care providers may gain an irreplaceable advantage over the ones without such solutions, both during diagnostics and scientific research.