近日,字节跳动智能创作部门(Intelligent Creation Lab)提出新作 DreamLite,一个主干网络仅有 0.39B 参数的轻量级统一扩散模型,在单一网络内同时支持文生图(Text-to-Image) 和图像编辑(Text-guided Image Editing)两个任务,是目前已知首个实现这一能力的端侧模型。
DreamLite 在 iPhone 17 Pro 上实现了约 3 秒生成或编辑一张 1024×1024 图像,完全在设备端运行,无需云端。在 GenEval、DPG、ImgEdit 等主流基准上,DreamLite 全面超越现有端侧模型,并与参数量大 10-30 倍的服务端模型表现相当。
目前,DreamLite 论文与推理代码已开源。
当扩散模型想 "搬进手机":两大痛点亟待解决
在使用 FLUX、HunyuanImage、Qwen-Image 这类大模型创作或修图时,用户正在习惯 "提词即生图、一句话改图" 的体验。但当这些能力想真正走进手机、走向离线场景时,却遇到两个现实的拦路虎:
痛点一:生成与编辑,要装两个模型
现有方案中,文生图和图像编辑往往依赖两个独立的 pipeline: 一个负责 "从零生成",一个负责 "看图改图"。对本就内存紧张、存储有限的移动设备而言,同时装下两套数十亿参数的模型,几乎不可承受。
痛点二:质量和速度,难以兼得
把大模型压缩到端侧可用的体量后,生成质量往往断崖式下跌;而如果追求画质和指令跟随能力,推理延迟又会退回到 "按下按钮等待十几秒",彻底丧失实时交互的意义。
更关键的是,真实产品场景里,用户需要的是同一套应用里无缝切换 "生成一张图片" 和 "修改这张图片"。两个模型意味着两份显存占用、两份下载流量、两份维护成本,这在端侧尤其奢侈。
DreamLite:一个模型,两种能力
DreamLite 的核心思想非常直接:将把 "生成" 和 "编辑" 统一压进一个轻量级网络里,而不是分别训练两个模型。围绕这个思路,团队做了三项关键设计。
1. In-Context 空间拼接:用 "占位符" 统一两类任务
DreamLite 在剪枝后的 SDXL U-Net 主干上,引入了一种空间维度的 in-context 条件注入机制。具体而言,模型的输入始终是一对左右拼接的潜变量。对于文生图,输入的右侧参考图为全黑占位图,相当于 "没有视觉条件";对于编辑,输入的参考图为待编辑的原图。
在此之上,团队还在文本 prompt 前插入显式任务 token([Generate] 或 [Edit]),作为一种零参数的任务路由信号。这样一来,同一个 U-Net 就能根据输入自动分辨当下是 "文生图" 还是 "编辑",无需新增任何分支、适配器或额外模块,天然适配紧凑主干。
2. Task-Progressive Joint Pretraining(渐进式联合预训练)
直接联合训练生成和编辑任务会导致小模型的训练不稳定。团队提出了分阶段的渐进式策略:
这种分阶段的策略,让一个 0.39B 的小模型也能稳定习得 "生成 + 编辑" 双重能力。
3. RLHF 对齐 + DMD2 步数蒸馏
预训练之后,DreamLite 还经历两轮 "打磨":
两者叠加,DreamLite 真正具备了 "端侧实时" 的现实可行性。最后通过量化和部署,实现在手机端生成 / 编辑(如下图)。
实验结果:跻身轻量化模型第一梯队
1. 指标:同级压制,越级对标
在文生图侧,DreamLite 在 GenEval 拿到 0.72、DPG 拿到 85.8;在图像编辑侧,在 ImgEdit 拿到 4.11、GEdit 拿到 6.88。在一众基线的对比中,DreamLite 作为端侧模型,不仅领先于 SnapGen、SANA 等轻量级的单任务模型,与参数量高出其 10–30 倍的服务端统一模型(如 FLUX、OmniGen2)相比,也展现出了极具竞争力的表现。
2. 手机实机演示:全程离线、无需联网
在 iPhone 17 Pro 的实机演示中,DreamLite 可稳定支持以下典型工作流:
视频链接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw
视频链接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw
视频链接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw
完整流程全程端侧运行、无需联网、用户数据不出设备,对隐私敏感场景尤其友好。
意义与展望
DreamLite 给端侧生成式 AI 的落地,提供了一条相当工程化、也相当有说服力的路径:
DreamLite 的意义,不只是 "在手机上又能跑一个扩散模型"。它更像是在回答一个更根本的问题:当扩散模型进入生产级的移动端时代,"生成" 和 "编辑" 能否作为同一个能力、由同一个小模型来承担?
随着端侧算力的持续提升、模型组件的持续轻量化,像 DreamLite 这样的轻量统一模型,很可能成为 AI 创作工具走向大规模、人人可用的关键一步 —— 把生成式 AI 从 "云端算力密集型服务",变成 "口袋里随时可用的画板"。
作者介绍
Kailai Feng 为字节跳动实习生,Yuxiang Wei, Bo Chen, Yang Pan, Hu Ye, Songwei Liu, Chenqian Yan, Yuan Gao 均为字节跳动研究员