相关推荐
Nano Banana 2横空出世!精准渲染“11:15的满杯红酒”,AI图像生成迈入设计师级时代
Nano Banana2 AI图像模型实现重大突破,攻克复杂细节还原难题,通过模拟人类多阶段创作流程,使图像生成从随机出图迈向可控精修,彻底解决文字、时间、光影等细节易出错的问题,引领行业进入精准生成新阶段。
NotebookLM集成Nano Banana,可用于视频生成配图
谷歌NotebookLM集成Nano Banana图像生成模型,实现从文本处理到多模态创作的升级,用户可将笔记转化为视频,提升学习与创作效率。本周起向Pro用户逐步推送,预计数周内全面覆盖。
阿里通义千问开源全新文生图模型Qwen-Image
通义千问系列首次开源了一款名为Qwen-Image的20亿参数多模态扩散变换器(MMDiT)图像生成基础模型。这一创新成果不仅在复杂文本渲染和精确图像编辑方面取得了突破性进展,更是在多个公开基准测试中展现了卓越性能,成为图像生成与编辑领域的新星。 Qwen-Image以其强大的文本渲染能力脱颖而出,支持多行布局、段落级文本生成及细粒度细节呈现,无论是英语还是中文,均能实现高保真输出。例如,在渲染宫崎骏风格的动漫场景时,模型能够精准呈现店铺牌匾、人物姿势及神态,甚至酒缸上的细小文字也清晰可见。同样,在中文对联的渲染中,Qwen-Image不仅准确绘
混元开源新方案 MixGRPO:训练效率大幅提升,性能反而更强
腾讯混元团队推出图像生成新框架MixGRPO,通过结合SDE和ODE创新采样策略,将训练时间缩短50%,其变体MixGRPO-Flash更降低71%。该框架优化MDP过程,限制智能体探索范围,在保持性能的同时显著提升效率。研究采用滑动窗口策略聚焦关键去噪步骤,并引入高阶求解器加速采样,使图像生成质量和多样性均有提升。相关代码已开源。
通义千问发布多模态统一理解与生成模型Qwen VLo
近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。 据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat(chat.qwen.ai)平台上直接体验这一新模型。
