Biológiai géninterakciók feldolgozása Apache Hadoop segítségével

Auer, Bence

Biológiai géninterakciók feldolgozása Apache Hadoop segítségével

dc.contributor.advisor	Antal, Bálint
dc.contributor.author	Auer, Bence
dc.contributor.department	DE--Informatikai Kar	hu_HU
dc.date.accessioned	2014-12-02T08:27:39Z
dc.date.available	2014-12-02T08:27:39Z
dc.date.created	2014
dc.description.abstract	A funkcionális genomika az egyes gének biológiai folyamatokban betöltött szerepét vizsgálja. Az ezen a területen végzett kutatások elengedhetetlen feltétele a kísérletek alapos megtervezése, azonban az egy kísérletben potenciálisan vizsgált gének és a köztük fennálló ismert kapcsolatok száma rendkívül magas, és a kísérleti biológusok számára nehézséget jelent ezen információk beszerzése és rendszerezése. Erre a problémára igyekszik megoldást kínálni a dolgozatban bemutatott szoftver, amely egy felhasználó által megadott génlistára összegyűjti és rendszerezi a gének közt fennálló kapcsolatokat. A szoftver az Apache Hadoop nevű nyílt forráskódú keretrendszeren alapszik, amellyel lehetővé vált az adat-intenzív elosztott alkalmazásoknak a nagyméretű és egyben alacsony költségű grid infrastruktúrával történő támogatása. Az architektúra biztosít egy elosztott fájlrendszert - a HDFS-t - és emellett implementálja a MapReduce paradigmát is, amit a funkcionális programozás map és reduce funkciói inspiráltak. A gének kinyeréséhez egy BioGRID nevű adatbázis REST alapú webszolgáltatását használtam, amely a fehérje-fehérje- és géninterakcióknak az egyik legnagyobb "gyűjtőhelye". A Hadoop (és így az alkalmazásom) egyik legnagyobb előnye a skálázhatóság, azaz a programot elosztott környezetben futtatva a bemenet méretének függvényében exponenciálisan növekvő lehetséges kombinációkat, lineárisan skálázva dolgozhatjuk fel. A használatához csupán egy egyszerű szöveges fájlt kell megadnunk, majd néhány egyszerű lépés múlva már a saját lokális fájlrendszerünkön találjuk azt a kimeneti fájlt, amely a számunkra fontos gének (egyes, páros, hármas, stb.) interakcióit tartalmazza. Továbbá a programhoz implementálva lett egy egyszerű grafikai felület is, amely lehetővé teszi az alkalmazás paraméterezését is, annak mélyreható ismerete nélkül. A végső output formátuma pedig olyan CSV fájl lesz, melyet akár azonnal importálhatunk bármilyen táblázatkezelő programba vagy akár egy egyszerű notepad-el is megnyithatjuk. A teljes alkalmazás ingyenesen elérhető az alábbi github repository-ban: https://github.com/benauer/Biogrid-Hadoop.	hu_HU
dc.description.course	Mérnök informatikus	hu_HU
dc.description.degree	BSc/BA	hu_HU
dc.format.extent	40	hu_HU
dc.identifier.uri	http://hdl.handle.net/2437/201799
dc.language.iso	hu	hu_HU
dc.rights	Nevezd meg! - Ne add el! 2.5 Magyarország	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/2.5/hu/	*
dc.subject	hadoop	hu_HU
dc.subject	mapreduce	hu_HU
dc.subject.dspace	DEENK Témalista::Informatika	hu_HU
dc.title	Biológiai géninterakciók feldolgozása Apache Hadoop segítségével	hu_HU

Gyűjtemények

Hallgatói dolgozatok (Informatikai Kar)

Biológiai géninterakciók feldolgozása Apache Hadoop segítségével

Fájlok

Gyűjtemények