Diffúziós modellek alkalmazása szöveg alapú képgenerálásban

Mocsári, Henrik

Diffúziós modellek alkalmazása szöveg alapú képgenerálásban

Fájlok

szakdolgozat(1.93 MB)

Szerzők

Mocsári, Henrik

Absztrakt

A mesterséges intelligencia fejlődése az elmúlt évtizedek egyik legmeghatározóbb technológiai irányzata, amely új távlatokat nyitott a generatív modellek területén is. Diplomamunkám középpontjában a diffúziós modellek szöveg alapú képgenerálásban betöltött szerepe áll, amelyek a hagyományos képfeldolgozási módszerektől (osztályozás, szegmentálás, objektum detektáció) eltérően képesek új, valósághű képeket előállítani. Munkám bemutatja a generatív modellek fejlődését a VAE, GAN és Flow-alapú modellek megközelítésétől a modern diffúziós architektúráig, részletesen elemezve a forward és reverse diffusion folyamatokat, valamint a központi U-Net architektúra működését és módosításait is. A kísérlet során három, különböző tanítási stratégiával rendelkező pre-trained diffúziós modellt finomhangoltam domain-specifikus adathalmazon, hogy összehasonlítsam teljesítményüket adott bemenetek és értékelési metrikák mentén, mint például az Inception Score és a Fréchet Inception Distance. Az eredmények alapján a diffúziós modellek képesek nagy felbontású, részletgazdag és realisztikus képek generálására még korlátozott számítási erőforrások mellett is. A kísérlet rávilágított arra, hogy ezek a modellek miért tekinthetők state-of-the-art megoldásnak nemcsak képgenerálásban, hanem más területeken is, mint például a hang és videógenerálás.

Kulcsszavak

diffúziós modellek, képgenerálás, text-to-image

Hivatkozás

https://hdl.handle.net/2437/404430

Gyűjtemények

Hallgatói dolgozatok (Informatikai Kar)

A tétel részletes nézete