Diffúziós modellek alkalmazása szöveg alapú képgenerálásban

dc.contributor.advisorBogacsovics, Gergő
dc.contributor.authorMocsári, Henrik
dc.contributor.departmentDE--Informatikai Kar
dc.date.accessioned2026-02-12T18:29:29Z
dc.date.available2026-02-12T18:29:29Z
dc.date.created2025-10-13
dc.description.abstractA mesterséges intelligencia fejlődése az elmúlt évtizedek egyik legmeghatározóbb technológiai irányzata, amely új távlatokat nyitott a generatív modellek területén is. Diplomamunkám középpontjában a diffúziós modellek szöveg alapú képgenerálásban betöltött szerepe áll, amelyek a hagyományos képfeldolgozási módszerektől (osztályozás, szegmentálás, objektum detektáció) eltérően képesek új, valósághű képeket előállítani. Munkám bemutatja a generatív modellek fejlődését a VAE, GAN és Flow-alapú modellek megközelítésétől a modern diffúziós architektúráig, részletesen elemezve a forward és reverse diffusion folyamatokat, valamint a központi U-Net architektúra működését és módosításait is. A kísérlet során három, különböző tanítási stratégiával rendelkező pre-trained diffúziós modellt finomhangoltam domain-specifikus adathalmazon, hogy összehasonlítsam teljesítményüket adott bemenetek és értékelési metrikák mentén, mint például az Inception Score és a Fréchet Inception Distance. Az eredmények alapján a diffúziós modellek képesek nagy felbontású, részletgazdag és realisztikus képek generálására még korlátozott számítási erőforrások mellett is. A kísérlet rávilágított arra, hogy ezek a modellek miért tekinthetők state-of-the-art megoldásnak nemcsak képgenerálásban, hanem más területeken is, mint például a hang és videógenerálás.
dc.description.courseAdattudomány
dc.description.degreeMSc/MA
dc.format.extent42
dc.identifier.urihttps://hdl.handle.net/2437/404430
dc.language.isohu
dc.rights.infoHozzáférhető a 2022 decemberi felsőoktatási törvénymódosítás értelmében.
dc.subjectdiffúziós modellek
dc.subjectképgenerálás
dc.subjecttext-to-image
dc.subject.dspaceInformatika
dc.titleDiffúziós modellek alkalmazása szöveg alapú képgenerálásban
dc.title.translatedApplication of diffusion models in text-based image generation
Fájlok
Eredeti köteg (ORIGINAL bundle)
Megjelenítve 1 - 1 (Összesen 1)
Nincs kép
Név:
szakdolgozat.pdf
Méret:
1.93 MB
Formátum:
Adobe Portable Document Format
Leírás:
szakdolgozat
Engedélyek köteg
Megjelenítve 1 - 1 (Összesen 1)
Nincs kép
Név:
license.txt
Méret:
2.35 KB
Formátum:
Item-specific license agreed upon to submission
Leírás: