Elosztott számítógépes rendszerek teljesítmény elemzése

Dátum
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt

Néhány évvel ezelőtt, mikor a "big data" kifejezés nem volt ismert, adatot maximum terrabájt szinten dolgoztak fel. Afelé tartunk, hogy mindenkinek a saját adat-lábnyoma növekszik, de ami ennél is fontosabb, hogy a gépek által generált adat, még nagyobb lesz, mint az emberek általi. Gépek log állományai, járműben a GPS nyomok, tranzakciók a világ minden pontján, óriási adattá növik ki magukat. Az első felmerülő gond a hardver hiba: annyi meghajtót használunk, hogy meg van annak az esélye, hogy az egyik megsérül. Az adatvesztés megoldható replikációval: redundáns másolatok vannak tárolva az adatról, így, ha hiba történik, van egy elérhető másolat. A második probléma, hogy elemzési feladatok, képesek kell legyenek az adatok vegyítésére, azaz egy lemezről olvasott adatot össze kell fűzni, más adattal a többi lemez egyikéről. Különböző elosztott rendszerek képesek kombinálni adatot más forrásból, de jól csinálni, elég nagy kihívás.

Leírás
Kulcsszavak
Hadoop, Big data, MapReduce, HDFS
Forrás