Biológiai géninterakciók feldolgozása Apache Hadoop segítségével

dc.contributor.advisorAntal, Bálint
dc.contributor.authorAuer, Bence
dc.contributor.departmentDE--Informatikai Karhu_HU
dc.date.accessioned2014-12-02T08:27:39Z
dc.date.available2014-12-02T08:27:39Z
dc.date.created2014
dc.description.abstractA funkcionális genomika az egyes gének biológiai folyamatokban betöltött szerepét vizsgálja. Az ezen a területen végzett kutatások elengedhetetlen feltétele a kísérletek alapos megtervezése, azonban az egy kísérletben potenciálisan vizsgált gének és a köztük fennálló ismert kapcsolatok száma rendkívül magas, és a kísérleti biológusok számára nehézséget jelent ezen információk beszerzése és rendszerezése. Erre a problémára igyekszik megoldást kínálni a dolgozatban bemutatott szoftver, amely egy felhasználó által megadott génlistára összegyűjti és rendszerezi a gének közt fennálló kapcsolatokat. A szoftver az Apache Hadoop nevű nyílt forráskódú keretrendszeren alapszik, amellyel lehetővé vált az adat-intenzív elosztott alkalmazásoknak a nagyméretű és egyben alacsony költségű grid infrastruktúrával történő támogatása. Az architektúra biztosít egy elosztott fájlrendszert - a HDFS-t - és emellett implementálja a MapReduce paradigmát is, amit a funkcionális programozás map és reduce funkciói inspiráltak. A gének kinyeréséhez egy BioGRID nevű adatbázis REST alapú webszolgáltatását használtam, amely a fehérje-fehérje- és géninterakcióknak az egyik legnagyobb "gyűjtőhelye". A Hadoop (és így az alkalmazásom) egyik legnagyobb előnye a skálázhatóság, azaz a programot elosztott környezetben futtatva a bemenet méretének függvényében exponenciálisan növekvő lehetséges kombinációkat, lineárisan skálázva dolgozhatjuk fel. A használatához csupán egy egyszerű szöveges fájlt kell megadnunk, majd néhány egyszerű lépés múlva már a saját lokális fájlrendszerünkön találjuk azt a kimeneti fájlt, amely a számunkra fontos gének (egyes, páros, hármas, stb.) interakcióit tartalmazza. Továbbá a programhoz implementálva lett egy egyszerű grafikai felület is, amely lehetővé teszi az alkalmazás paraméterezését is, annak mélyreható ismerete nélkül. A végső output formátuma pedig olyan CSV fájl lesz, melyet akár azonnal importálhatunk bármilyen táblázatkezelő programba vagy akár egy egyszerű notepad-el is megnyithatjuk. A teljes alkalmazás ingyenesen elérhető az alábbi github repository-ban: https://github.com/benauer/Biogrid-Hadoop.hu_HU
dc.description.courseMérnök informatikushu_HU
dc.description.degreeBSc/BAhu_HU
dc.format.extent40hu_HU
dc.identifier.urihttp://hdl.handle.net/2437/201799
dc.language.isohuhu_HU
dc.rightsNevezd meg! - Ne add el! 2.5 Magyarország*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/2.5/hu/*
dc.subjecthadoophu_HU
dc.subjectmapreducehu_HU
dc.subject.dspaceDEENK Témalista::Informatikahu_HU
dc.titleBiológiai géninterakciók feldolgozása Apache Hadoop segítségévelhu_HU
Fájlok