【导语】
如果说 Stable Diffusion 让我们学会了“画画”,那么 Qwen 刚刚发布的这个开源项目,则是教会了 AI 如何“做设计”。告别死板的扁平图,AI 图像从此进入了“原生图层”时代。
一、 告别“开盲盒”,AI 终于学会了分图层!
在 AI 绘画圈,一直有个让设计师头秃的痛点:生成的图片是个“整体”。
你想给模特换身衣服?对不起,可能连脸都变了。
你想把背景里的桌子挪个位置?对不起,挪开之后后面是黑洞。
今天,阿里巴巴 Qwen 团队正式开源了 Qwen-Image-Layered。它不是简单的“抠图工具”,而是首个能直接生成带图层、带透明度(Alpha通道)的图像大模型。
这意味着:你生成的不再是一张 JPG,而是一个分好层的“准 PSD 工程文件”!
二、 硬核技术:RGBA-VAE 到底强在哪里?
为什么以前的模型做不到?因为传统的 Diffusion 模型是在 RGB 空间训练的,它根本不理解什么是“透明”。
Qwen-Image-Layered 引入了几个自研的“黑科技”,直接在底层逻辑上完成了降维打击:
1. 原生 RGBA-VAE:给潜空间加个“透明通道”
Qwen 团队重新设计了变分自编码器(VAE),使其支持 RGBA 四通道。这意味着模型在生成的每一毫秒,都在考虑“哪部分是实体,哪部分是透明”。生成的边缘不再有白边,头发丝、半透明纱巾都能完美处理。
2. VLD-MMDiT 架构:上帝视角的“补全术”
这是最硬核的一点:Layer-Specific Inpainting。
当你生成一个瓶子挡在书前面时,模型不仅画出了瓶子,还同步计算并生成了瓶子后面被挡住的那部分书。
- 传统做法:挪开瓶子,后面是烂掉的像素。
- Qwen 做法:挪开瓶子,后面是完整的背景。
3. 递归式层级分解(Recursive Decomposition)
它具备惊人的多级理解力。比如生成一个“拿着咖啡的宇航员”,模型可以先分出背景,再分出宇航员,最后甚至能把宇航员手里的咖啡杯也单独分出一层。
三、 生产力大地震:这些场景要变天了
Qwen-Image-Layered 的开源,不仅仅是技术秀肌肉,更是实打实的生产力工具:
- 电商/海报设计:一键生成带背景的商品图,模特、产品、文字装饰全是独立图层,随时修改排版。
- 游戏资产生成:UI 图标、角色立绘、背景远景,直接导出透明图层,半分钟出整套素材。
- PPT 战神降临:Qwen 甚至支持直接导出 PPTX 格式!每一张生成的元素在 PPT 里都是可拖拽的对象。
四、 开源万岁:Qwen 的大格局
继 Qwen2.5-VL 霸榜多模态之后,Qwen 团队再次选择将这种核心能力开源。
对于开发者来说,这意味着我们可以基于此构建更强大的在线设计编辑器,或者将其集成到 ComfyUI 流程中。AI 绘画将正式告别“拼运气”的阶段,进入“精确控制”的新纪元。
博主点评:
Qwen-Image-Layered 的出现,标志着生成式 AI 正在从“娱乐化”向“工程化”跨越。它理解了物理世界的空间层级。如果说以前的 AI 是个粗心的画家,现在的 Qwen 更像是一个拥有 10 年经验、强迫症级别的资深美工。
开源地址:https://github.com/QwenLM/Qwen-Image-Layered
技术文档:https://qwen.ai/blog?id=qwen-image-layered
最后:
你觉得这个技术会替代初级美工吗?还是会成为设计师的最强辅助?欢迎在评论区留下你的看法!
