Biológiai géninterakciók feldolgozása Apache Hadoop segítségével

Dátum
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt

A funkcionális genomika az egyes gének biológiai folyamatokban betöltött szerepét vizsgálja. Az ezen a területen végzett kutatások elengedhetetlen feltétele a kísérletek alapos megtervezése, azonban az egy kísérletben potenciálisan vizsgált gének és a köztük fennálló ismert kapcsolatok száma rendkívül magas, és a kísérleti biológusok számára nehézséget jelent ezen információk beszerzése és rendszerezése. Erre a problémára igyekszik megoldást kínálni a dolgozatban bemutatott szoftver, amely egy felhasználó által megadott génlistára összegyűjti és rendszerezi a gének közt fennálló kapcsolatokat. A szoftver az Apache Hadoop nevű nyílt forráskódú keretrendszeren alapszik, amellyel lehetővé vált az adat-intenzív elosztott alkalmazásoknak a nagyméretű és egyben alacsony költségű grid infrastruktúrával történő támogatása. Az architektúra biztosít egy elosztott fájlrendszert - a HDFS-t - és emellett implementálja a MapReduce paradigmát is, amit a funkcionális programozás map és reduce funkciói inspiráltak. A gének kinyeréséhez egy BioGRID nevű adatbázis REST alapú webszolgáltatását használtam, amely a fehérje-fehérje- és géninterakcióknak az egyik legnagyobb "gyűjtőhelye". A Hadoop (és így az alkalmazásom) egyik legnagyobb előnye a skálázhatóság, azaz a programot elosztott környezetben futtatva a bemenet méretének függvényében exponenciálisan növekvő lehetséges kombinációkat, lineárisan skálázva dolgozhatjuk fel. A használatához csupán egy egyszerű szöveges fájlt kell megadnunk, majd néhány egyszerű lépés múlva már a saját lokális fájlrendszerünkön találjuk azt a kimeneti fájlt, amely a számunkra fontos gének (egyes, páros, hármas, stb.) interakcióit tartalmazza. Továbbá a programhoz implementálva lett egy egyszerű grafikai felület is, amely lehetővé teszi az alkalmazás paraméterezését is, annak mélyreható ismerete nélkül. A végső output formátuma pedig olyan CSV fájl lesz, melyet akár azonnal importálhatunk bármilyen táblázatkezelő programba vagy akár egy egyszerű notepad-el is megnyithatjuk. A teljes alkalmazás ingyenesen elérhető az alábbi github repository-ban: https://github.com/benauer/Biogrid-Hadoop.

Leírás
Kulcsszavak
hadoop, mapreduce
Forrás