腾讯 HunyuanDiT 文生图 Demo

诚信评分:100
水平:普通
Hunyuan-DiT : 一个强大的 Multi-Resolution Diffusion Transformer 与细粒度中文理解模型
该模型为首个中英双语 DiT 架构,一个基于 Diffusion transformer 的文本到图像生成模型,此模型具有中英文细粒度理解能力。研究团队为了构建混元 DiT,重新精心设计了 Transformer 结构、文本编码器和位置编码。构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。为了实现细粒度的文本理解,本项目训练了多模态大语言模型来优化图像的文本描述。最终,混元 DiT 能够与用户进行多轮对话,根据上下文生成并完善图像。