Szövegosztályozó modellek hatákonyságának összehasonlítása

Dátum
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt

Szakdolgozatom készítésekor Anaconda disztribúción, Spyder környezetben készítettem két Python kódot szövegosztályozási feladatok elvégzéséhez. Az első kódban Scikit-Learn Python csomagot használtam, a másik kódban TextBlob NLP feladatokra használt csomaggal valósítottam meg ugyanazokat a szövegosztályozási feladatokat. Adatcsomag mindkét esetben a Scikit-Learn egyik beépített csomagját, a 20newsgroups adathalmazt használtam. Az adathalmaz különböző hírcsoportokból származó bejegyzéseket tartalmaz, amelyeket a kódok célja szerint 20 különböző kategóriába kell osztani. Az adatok előkészítése során a kódok eltávolítják a stopszavakat és a TfidfVectorizer segítségével vektorizálják a szövegeket. Ezt követően három osztályozó modellt hoznak létre és értékelnek: Multinomial Naive Bayes, K-Nearest Neighbor és Stochastic Gradient Descent (SGD) Classifier. A modellek teljesítményét pontosság, F1-score és tévesztési mátrixok alapján összevetettem.A különbségek szemléltetése céljából vizuális ábrákat készítetem a modellek teljesítményéről, bemutatva a pontosság és F1-score értékeket, valamint a tévesztési mátrixokat.

Leírás
Kulcsszavak
Python szövegosztályozás, szövegfeldolgozás
Forrás