Szövegosztályozó modellek hatákonyságának összehasonlítása
Absztrakt
Szakdolgozatom készítésekor Anaconda disztribúción, Spyder környezetben készítettem két Python kódot szövegosztályozási feladatok elvégzéséhez. Az első kódban Scikit-Learn Python csomagot használtam, a másik kódban TextBlob NLP feladatokra használt csomaggal valósítottam meg ugyanazokat a szövegosztályozási feladatokat. Adatcsomag mindkét esetben a Scikit-Learn egyik beépített csomagját, a 20newsgroups adathalmazt használtam. Az adathalmaz különböző hírcsoportokból származó bejegyzéseket tartalmaz, amelyeket a kódok célja szerint 20 különböző kategóriába kell osztani. Az adatok előkészítése során a kódok eltávolítják a stopszavakat és a TfidfVectorizer segítségével vektorizálják a szövegeket. Ezt követően három osztályozó modellt hoznak létre és értékelnek: Multinomial Naive Bayes, K-Nearest Neighbor és Stochastic Gradient Descent (SGD) Classifier. A modellek teljesítményét pontosság, F1-score és tévesztési mátrixok alapján összevetettem.A különbségek szemléltetése céljából vizuális ábrákat készítetem a modellek teljesítményéről, bemutatva a pontosság és F1-score értékeket, valamint a tévesztési mátrixokat.