Nagy mennyiségű adat feldolgozása
Absztrakt
Az internetet napjainkban több millióan használjuk, amelynek járulékos hozadéka az az adatmennyiség, ami árulkodik napi szokásainkról, tevékenységeinkről vagy akár vásárlásainkról. Szakdolgozatomban bemutatok különböző eszközöket a nagymennyiségű adatok feldolgozására. Definiálom a Big Data fogalmát, annak funkcióit, ismertetve az adatgyűjtés módszereit, megemlítve az adattípusok fajtáit és bemutatva az adat feldolgozásához szükséges lépéseket. Az adatfeldolgozás módszereit a különböző rákbetegségeket vizsgálva az interneten publikált adatok elemzésével mutatom be. Elemzéseim során ismertettem a Power BI használatát, hogyan lehet, könnyen és egyszerűen teljesen átlátható és jól értelmezhető vizualizációt készíteni. Részletesen bemutattam a Jupyter Notebook-ot, a Pythont és néhány gyakrabban használt Python könyvtárat. Különböző modelleket illesztettem az adataimra, melyből a legjobban illeszkedőt kiválasztva előrejelzést készítettem a várható elhalálozásokról.