A közösségi médiában a COVID19 járvánnyal kapcsolatos bejegyzések osztályozása gépi tanulással

Dátum
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt

Több, mint egy éve mindennapjainkra jelentős befolyást gyakorol a COVID19 világjárvány, mely megfékezésére már elérhető a járvány elleni védőoltás. A közösségi médiát és internetes sajtót figyelve arra következtethetünk, hogy a vakcináról alkotott vélemény megosztja a világ társadalmát. A tanulmány a téma által ihletett, közösségi média valós idejű monitorozásával előállított saját adatbázis osztályozását célozza azt vizsgálva, hogy a Twitter weboldalon közzétett, vakcinázással kapcsolatos bejegyzések hangulata pozitív, negatív vagy semleges. Ennek osztályozásához szükséges az adatok valós idejű figyelése, adatbázisba gyűjtése, majd a rekordok hangulatának adatbányászati eszközökkel történő kinyerése. Ezt kíséreljük meg gépi tanulási módszerekkel megjósolni a bejegyzés néhány attribútuma alapján. A bejegyzés szövegét az osztályozási feladat során nem vesszük figyelembe, mivel a tanulmány célja annak a feltérképezése, hogy a bejegyzés egyéb attribútumai alapján történő osztályozása megoldható-e. A dolgozatban a felügyelt és a nem felügyelt gépi tanulás néhány területét érintjük, az osztályozás feladatára fókuszálva. A tanulmányban az alábbi módszereket implementáljuk és teszteljük: neurális hálózat, logisztikus regresszió, k legközelebbi szomszéd, tartóvektor-gép eljárás, döntési fa, véletlen erdő és naiv Bayes modell. Az osztályozási módszerek teljesítményének összevetésére a pontosság, tanítási pontosság, F1-score, recall és a futási idő metrikákat vesszük figyelembe. Célunk a különböző osztályozási eljárások összehasonlító elemzésének megvalósítása az említett metrikák alapján. A dolgozat első felében bemutatjuk a Twitter közösségi média platformról történő valós idejű adatgyűjtés folyamatát, valamint a bejegyzések szövegének érzelmi elemzését. A létrehozott adatbázist felhasználva ismertetjük a strukturálatlan adatok előfeldolgozását, az adatbázis statisztikai elemzését, a különböző gépi tanulási osztályozók modellezését, majd a modellek kiértékelését.

Leírás
Kulcsszavak
gépi tanulás, osztályozás, összehasonlító elemzés, COVID19, érzelmi elemzés, közösségi média elemzés
Forrás