Multimodális gépi tanulás

Kálucz, Miklós; Kiss, Roland; Orosz, Erik

Multimodális gépi tanulás

Szerzők

Kálucz, Miklós

Kiss, Roland

Orosz, Erik

Absztrakt

Dolgozatunkban a mesterséges intelligencia egy feltörekvő ágát mutatjuk be, a többféle modalitáson történő gépi tanulást. Alapjául szolgál a Transformer architektúra, ilyen modellekből kellett választanunk egy képi, valamint egy magyar nyelven minél jobban teljesítő szövegmodellt. Döntésünket kifejtjük, valamint az alapul szolgáló, és híresebb modelleket ismertetjük. Ezek alapján egy CLIP (kép-szöveg társító) modellt hoztunk létre, melyet különböző, általunk feldolgozott adathalmazokon tanítottunk. Ennek felépítését és eredményeit tárgyaljuk továbbiakban.

Kulcsszavak

machine learning, artificial intelligence, neural networks

Hivatkozás

https://hdl.handle.net/2437/341536

Gyűjtemények

Hallgatói dolgozatok (Informatikai Kar)

A tétel részletes nézete