Lakatos, RóbertKálucz, MiklósKiss, RolandOrosz, Erik2022-11-292022-11-292022-11-29https://hdl.handle.net/2437/341536Dolgozatunkban a mesterséges intelligencia egy feltörekvő ágát mutatjuk be, a többféle modalitáson történő gépi tanulást. Alapjául szolgál a Transformer architektúra, ilyen modellekből kellett választanunk egy képi, valamint egy magyar nyelven minél jobban teljesítő szövegmodellt. Döntésünket kifejtjük, valamint az alapul szolgáló, és híresebb modelleket ismertetjük. Ezek alapján egy CLIP (kép-szöveg társító) modellt hoztunk létre, melyet különböző, általunk feldolgozott adathalmazokon tanítottunk. Ennek felépítését és eredményeit tárgyaljuk továbbiakban.116humachine learningartificial intelligenceneural networksMultimodális gépi tanulásDEENK Témalista::Informatika::SzámítógéptudományHozzáférhető a 2022 decemberi felsőoktatási törvénymódosítás értelmében.