Multimodális gépi tanulás
Dátum
Szerzők
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt
Dolgozatunkban a mesterséges intelligencia egy feltörekvő ágát mutatjuk be, a többféle modalitáson történő gépi tanulást. Alapjául szolgál a Transformer architektúra, ilyen modellekből kellett választanunk egy képi, valamint egy magyar nyelven minél jobban teljesítő szövegmodellt. Döntésünket kifejtjük, valamint az alapul szolgáló, és híresebb modelleket ismertetjük. Ezek alapján egy CLIP (kép-szöveg társító) modellt hoztunk létre, melyet különböző, általunk feldolgozott adathalmazokon tanítottunk. Ennek felépítését és eredményeit tárgyaljuk továbbiakban.
Leírás
Kulcsszavak
machine learning, artificial intelligence, neural networks