Diffúziós modellek alkalmazása szöveg alapú képgenerálásban
Fájlok
Dátum
Szerzők
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt
A mesterséges intelligencia fejlődése az elmúlt évtizedek egyik legmeghatározóbb technológiai irányzata, amely új távlatokat nyitott a generatív modellek területén is. Diplomamunkám középpontjában a diffúziós modellek szöveg alapú képgenerálásban betöltött szerepe áll, amelyek a hagyományos képfeldolgozási módszerektől (osztályozás, szegmentálás, objektum detektáció) eltérően képesek új, valósághű képeket előállítani. Munkám bemutatja a generatív modellek fejlődését a VAE, GAN és Flow-alapú modellek megközelítésétől a modern diffúziós architektúráig, részletesen elemezve a forward és reverse diffusion folyamatokat, valamint a központi U-Net architektúra működését és módosításait is. A kísérlet során három, különböző tanítási stratégiával rendelkező pre-trained diffúziós modellt finomhangoltam domain-specifikus adathalmazon, hogy összehasonlítsam teljesítményüket adott bemenetek és értékelési metrikák mentén, mint például az Inception Score és a Fréchet Inception Distance. Az eredmények alapján a diffúziós modellek képesek nagy felbontású, részletgazdag és realisztikus képek generálására még korlátozott számítási erőforrások mellett is. A kísérlet rávilágított arra, hogy ezek a modellek miért tekinthetők state-of-the-art megoldásnak nemcsak képgenerálásban, hanem más területeken is, mint például a hang és videógenerálás.