Klaszteranalízis SAS Enterprise Miner segítségével

Dátum
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt

A 21. század mindennapi élete el sem képzelhető adatok milliói nélkül: életünk szinte minden mozdulatával adatot szolgáltatunk, illetve a leghétköznapibb döntés meghozatalához is a rendelkezésre álló adatokból képzett információt, tudást használjuk fel. Ahhoz, hogy eligazodjunk ebben a hatalmas és igencsak összetett adatvilágában különböző módszerekre van szükségünk, melyekkel elemezhetjük, kiértékelhetjük a már begyűjtött adatokat. Diplomadolgozatomban az adatbányászattal, mint az „adat-információ-tudás” konverziót megvalósító eljárással foglalkozom. Munkám első felében ezt a tudományterületet mutatom be elméleti megközelítésből. Részletesen kitérek az adatbányászatot megvalósító algoritmusok technikai kategóriáira. Ezt követően a tudásfeltárás folyamatán, az adatbányászat módszertanán kísérem végig az olvasót. Majd az általam legérdekesebbnek vélt adatbányászati feladat, a klaszterezés, elméleti hátterét ismertetem. Ebben a fejezetben térek ki az adatok típusára, az eljárás kulcsfontosságú részét képző hasonlósági-, és távolságfüggvények definiálására, illetve a klaszterezés típusaira. A továbbiakban a k-közép algoritmussal és az optimális klaszterszám meghatározásával foglalkozom. Az elméleti alapok megismerését követően gyakorlati oldalról is megvizsgálom a kiválasztott témakör egy adott problémáját. A gyakorlati alkalmazáshoz a SAS Enterprise Guide és Miner szoftvereket vettem igénybe. Az adathalmazt a www.kaggle.com oldalon találtam, melyeket egy bevásárló központ állított össze a náluk történt vásárlások alkalmával összegyűjtött adatokból. Az adatbázis előkészítése során alapvető statisztikai módszerekkel ismertem meg a rendelkezésemre álló adatok tulajdonságait. Ezután klaszteranalízist hajtottam végre, majd a klaszterek kialakítását követően szegmens profilozást végeztem a létrejött csoportokon annak érdekében, hogy az azonosított vásárlói csoportok jellemvonásait vizuálisan még szemléletesebbé tegyem.

Leírás
Kulcsszavak
klaszteranalízis, adatbányászat, SAS Enterprise Miner
Forrás