Adatbányászat magyar lírai művekből
Absztrakt
A szakdolgozatom lírai szövegek adatbányászatával foglalkozik. Klaszterezés segítségével feldolgozom Petőfi Sándor összes versét, majd az eredményet elemzem. Ezt a folyamatot Python nyelven programoztam le és a Sci-kit learn eszközeit hívtam segítségül. Emellett összehasonlítottam egy általam létrehozott szintaktikaimezővel. Az volt a célom ezzel, hogy egy irodalomhoz laikus ember, hogyan csoportosítaná a verseket és hogyan egy program. Az eredmény mutatja, hogy a program a szavakat figyelve jobban tudja csoportosítani megfelelő kalibrációval, mint egy laikus ember.
Leírás
Kulcsszavak
klaszterezés, adatbányászat, szöveg, python