Szövegosztályozó modellek hatákonyságának összehasonlítása

dc.contributor.advisorLakatos, Róbert
dc.contributor.advisorPapp, István
dc.contributor.authorBodor, Tamás Krisztián
dc.contributor.departmentDE--Informatikai Kar
dc.date.accessioned2023-05-09T06:41:38Z
dc.date.available2023-05-09T06:41:38Z
dc.date.created2023-05-03
dc.description.abstractSzakdolgozatom készítésekor Anaconda disztribúción, Spyder környezetben készítettem két Python kódot szövegosztályozási feladatok elvégzéséhez. Az első kódban Scikit-Learn Python csomagot használtam, a másik kódban TextBlob NLP feladatokra használt csomaggal valósítottam meg ugyanazokat a szövegosztályozási feladatokat. Adatcsomag mindkét esetben a Scikit-Learn egyik beépített csomagját, a 20newsgroups adathalmazt használtam. Az adathalmaz különböző hírcsoportokból származó bejegyzéseket tartalmaz, amelyeket a kódok célja szerint 20 különböző kategóriába kell osztani. Az adatok előkészítése során a kódok eltávolítják a stopszavakat és a TfidfVectorizer segítségével vektorizálják a szövegeket. Ezt követően három osztályozó modellt hoznak létre és értékelnek: Multinomial Naive Bayes, K-Nearest Neighbor és Stochastic Gradient Descent (SGD) Classifier. A modellek teljesítményét pontosság, F1-score és tévesztési mátrixok alapján összevetettem.A különbségek szemléltetése céljából vizuális ábrákat készítetem a modellek teljesítményéről, bemutatva a pontosság és F1-score értékeket, valamint a tévesztési mátrixokat.
dc.description.correctorLB
dc.description.courseProgramtervező informatikus
dc.description.degreeMSc/MA
dc.format.extent37
dc.identifier.urihttps://hdl.handle.net/2437/352318
dc.language.isohu
dc.rights.accessHozzáférhető a 2022 decemberi felsőoktatási törvénymódosítás értelmében.
dc.subjectPython szövegosztályozás
dc.subjectszövegfeldolgozás
dc.subject.dspaceDEENK Témalista::Informatika::Számítógéptudomány
dc.titleSzövegosztályozó modellek hatákonyságának összehasonlítása
Fájlok