Diffúziós modellek alkalmazása szöveg alapú képgenerálásban
| dc.contributor.advisor | Bogacsovics, Gergő | |
| dc.contributor.author | Mocsári, Henrik | |
| dc.contributor.department | DE--Informatikai Kar | |
| dc.date.accessioned | 2026-02-12T18:29:29Z | |
| dc.date.available | 2026-02-12T18:29:29Z | |
| dc.date.created | 2025-10-13 | |
| dc.description.abstract | A mesterséges intelligencia fejlődése az elmúlt évtizedek egyik legmeghatározóbb technológiai irányzata, amely új távlatokat nyitott a generatív modellek területén is. Diplomamunkám középpontjában a diffúziós modellek szöveg alapú képgenerálásban betöltött szerepe áll, amelyek a hagyományos képfeldolgozási módszerektől (osztályozás, szegmentálás, objektum detektáció) eltérően képesek új, valósághű képeket előállítani. Munkám bemutatja a generatív modellek fejlődését a VAE, GAN és Flow-alapú modellek megközelítésétől a modern diffúziós architektúráig, részletesen elemezve a forward és reverse diffusion folyamatokat, valamint a központi U-Net architektúra működését és módosításait is. A kísérlet során három, különböző tanítási stratégiával rendelkező pre-trained diffúziós modellt finomhangoltam domain-specifikus adathalmazon, hogy összehasonlítsam teljesítményüket adott bemenetek és értékelési metrikák mentén, mint például az Inception Score és a Fréchet Inception Distance. Az eredmények alapján a diffúziós modellek képesek nagy felbontású, részletgazdag és realisztikus képek generálására még korlátozott számítási erőforrások mellett is. A kísérlet rávilágított arra, hogy ezek a modellek miért tekinthetők state-of-the-art megoldásnak nemcsak képgenerálásban, hanem más területeken is, mint például a hang és videógenerálás. | |
| dc.description.course | Adattudomány | |
| dc.description.degree | MSc/MA | |
| dc.format.extent | 42 | |
| dc.identifier.uri | https://hdl.handle.net/2437/404430 | |
| dc.language.iso | hu | |
| dc.rights.info | Hozzáférhető a 2022 decemberi felsőoktatási törvénymódosítás értelmében. | |
| dc.subject | diffúziós modellek | |
| dc.subject | képgenerálás | |
| dc.subject | text-to-image | |
| dc.subject.dspace | Informatika | |
| dc.title | Diffúziós modellek alkalmazása szöveg alapú képgenerálásban | |
| dc.title.translated | Application of diffusion models in text-based image generation |
Fájlok
Eredeti köteg (ORIGINAL bundle)
1 - 1 (Összesen 1)
Nincs kép
- Név:
- szakdolgozat.pdf
- Méret:
- 1.93 MB
- Formátum:
- Adobe Portable Document Format
- Leírás:
- szakdolgozat
Engedélyek köteg
1 - 1 (Összesen 1)
Nincs kép
- Név:
- license.txt
- Méret:
- 2.35 KB
- Formátum:
- Item-specific license agreed upon to submission
- Leírás: