Szövegosztályozó modellek hatákonyságának összehasonlítása

Bodor, Tamás Krisztián

Szövegosztályozó modellek hatákonyságának összehasonlítása

dc.contributor.advisor	Lakatos, Róbert
dc.contributor.advisor	Papp, István
dc.contributor.author	Bodor, Tamás Krisztián
dc.contributor.department	DE--Informatikai Kar
dc.date.accessioned	2023-05-09T06:41:38Z
dc.date.available	2023-05-09T06:41:38Z
dc.date.created	2023-05-03
dc.description.abstract	Szakdolgozatom készítésekor Anaconda disztribúción, Spyder környezetben készítettem két Python kódot szövegosztályozási feladatok elvégzéséhez. Az első kódban Scikit-Learn Python csomagot használtam, a másik kódban TextBlob NLP feladatokra használt csomaggal valósítottam meg ugyanazokat a szövegosztályozási feladatokat. Adatcsomag mindkét esetben a Scikit-Learn egyik beépített csomagját, a 20newsgroups adathalmazt használtam. Az adathalmaz különböző hírcsoportokból származó bejegyzéseket tartalmaz, amelyeket a kódok célja szerint 20 különböző kategóriába kell osztani. Az adatok előkészítése során a kódok eltávolítják a stopszavakat és a TfidfVectorizer segítségével vektorizálják a szövegeket. Ezt követően három osztályozó modellt hoznak létre és értékelnek: Multinomial Naive Bayes, K-Nearest Neighbor és Stochastic Gradient Descent (SGD) Classifier. A modellek teljesítményét pontosság, F1-score és tévesztési mátrixok alapján összevetettem.A különbségek szemléltetése céljából vizuális ábrákat készítetem a modellek teljesítményéről, bemutatva a pontosság és F1-score értékeket, valamint a tévesztési mátrixokat.
dc.description.corrector	LB
dc.description.course	Programtervező informatikus
dc.description.degree	MSc/MA
dc.format.extent	37
dc.identifier.uri	https://hdl.handle.net/2437/352318
dc.language.iso	hu
dc.rights.access	Hozzáférhető a 2022 decemberi felsőoktatási törvénymódosítás értelmében.
dc.subject	Python szövegosztályozás
dc.subject	szövegfeldolgozás
dc.subject.dspace	DEENK Témalista::Informatika::Számítógéptudomány
dc.title	Szövegosztályozó modellek hatákonyságának összehasonlítása

Gyűjtemények

Hallgatói dolgozatok (Informatikai Kar)

Szövegosztályozó modellek hatákonyságának összehasonlítása

Fájlok

Gyűjtemények