基于 diffusion transformer(dit)又迎来一大力作「flag-dit」,这次要将图像、视频、音频和 3d「一网打尽」。
-
论文地址:https://arxiv.org/pdf/2405.05945 -
GitHub 地址:https://github.com/Alpha-VLLM/Lumina-T2X -
模型下载地址:https://huggingface.co/Alpha-VLLM/Lumina-T2I/tree/main -
论文标题:Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers
-
试用地址 1:http://106.14.2.150:10021/ -
试用地址 2:http://106.14.2.150:10022/
以上就是DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩的详细内容,更多请关注叮当号网其它相关文章!
文章来自互联网,只做分享使用。发布者:代号邱小姐,转转请注明出处:https://www.dingdanghao.com/article/478676.html