有些技术发布像是扔石头,听个响就完了;而微软昨晚发的这个 TRELLIS.2,我感觉像是往平静的湖里扔了一块金属钠。
我是 Lyra,欢迎来到“湍流”。在这里,我们不谈参数的堆砌,只聊技术的骨感与商业的性感。
今天我们要聊的,是一个可能让无数 3D 建模师既兴奋又后背发凉的东西——TRELLIS.2。微软和清华大学搞出来的这个开源 40 亿参数模型,不仅仅是生成得快(最快 3 秒),更重要的是,它似乎找到了一把解开 3D 生成“死结”的钥匙。
01 深度洞察:当 AI 不再执着于“完美”
长久以来,AI 生成 3D 模型一直有个隐形的“紧箍咒”:它太想做一个完美的蛋了。
在这个圈子里混过的人都知道,之前的主流技术路线(比如基于 SDF 的方法)都有个强迫症,它们生成的模型必须是“水密(Watertight)”的。简单说,就是模型表面必须严丝合缝,不能有破洞,不能有非流形结构。
这听起来很美好,符合数学美感,但不符合物理世界的真实。
现实世界是破碎的、复杂的。一件破损的夹克、一个镂空的机械零件、甚至是一个为了艺术效果故意留出缺口的雕塑,在旧的技术路径下,AI 会强行把它们“缝合”成一个封闭的球体,结果就是产生各种奇怪的粘连和伪影。
TRELLIS.2 做的最“鸡贼”也最聪明的一件事,就是它学会了“摆烂”——当然,是技术层面上的。
它引入了一种叫 O-Voxel(Omni-Voxel) 的新表达方式。这玩意儿不像传统的神经辐射场(NeRF)那样只管看不管摸,也不像传统的网格生成那样死板。它是一种“全能体素”,既能记录几何形状,又能记录材质纹理,更关键的是,它允许拓扑结构的任意性。
什么叫任意性?就是说,它可以处理开放的曲面、非流形的几何体,甚至是复杂的内部结构。
这意味着什么?
意味着 AI 终于从“只会在真空中做球形鸡”的物理学家,变成了能在泥坑里捏泥人的雕塑家。它不再为了满足数学上的“封闭性”而牺牲视觉上的“真实性”。
而在商业应用上,这直接打通了从“概念图”到“游戏资产”的任督二脉。它生成的不仅是形状,还有 Base Color(底色)、Roughness(粗糙度)、Metallic(金属度)这些 PBR 材质属性。这是什么?这是直接可以丢进 Unreal Engine 或 Unity 里跑的资产,而不是只能在网页上转圈圈的玩具。
02 独立视角:被忽视的“甚至”与“破坏”
大家都盯着那 40 亿参数和 3 秒的生成速度高潮,但我这双刁钻的眼睛,却盯着论文里一个不起眼的细节:Internal Structures(内部结构)。
TRELLIS.2 的演示里,有一个把模型切开的动作,里面竟然是有结构的。
大多数 3D 生成模型不仅是“蛋壳”,而且是“空心蛋壳”。表面光鲜亮丽,切开里面一片虚无。但 TRELLIS.2 的 O-Voxel 结构配合稀疏压缩 VAE(SC-VAE),实际上是在空间中对物体进行了真正的“体素化”理解。
这里藏着一个巨大的逻辑矛盾:我们一直在追求生成的“表面功夫”(Rendering Quality),却忘了 3D 的本质是“空间占有”(Spatial Occupancy)。
其他的技术还在卷“看起来像不像”,TRELLIS.2 已经在卷“构造对不对”。它允许非流形几何的存在,这听起来像是个 Bug,实际上是 Feature。在游戏开发和影视特效中,为了节省资源或实现特殊效果,我们经常需要这种“不完美”的模型。
这种对“不完美”的包容,恰恰是它最完美的地方。它不再试图用一个连续的函数去拟合整个世界,而是用离散的、稀疏的体素去构建世界。这是一次从“数学理想国”向“工程实用主义”的伟大妥协。
03 行业对比:别把“看片”和“造车”混为一谈
如果不怕得罪人,我想聊聊现在的 3D 生成圈子。
目前市面上有两类玩家。一类是玩 Gaussian Splatting(3D高斯泼溅) 的,那一派就像是搞摄影的,生成的画面极其逼真,渲染速度极快,转起来流光溢彩。但你要是想把里面的椅子拿出来改个腿?对不起,那是一团带颜色的雾,根本没法编辑。
另一类是玩 SDF(符号距离场) 的,这一派像是搞数学竞赛的,模型拓扑很干净,但纹理往往像是在泥巴上糊了一层低分辨率的贴纸,而且生成速度慢得像蜗牛。
TRELLIS.2 的位置在哪里?
它像是站在了这两者的中间,手里拿了把手术刀。它用 DiT(Diffusion Transformers)架构解决了生成的质量问题,用 O-Voxel 解决了几何与纹理的兼容问题。
如果把 3D 生成比作造车:
* 高斯泼溅派 造的是全息投影的法拉利,好看但这车开不走;
* 传统网格派 造的是实木雕刻的自行车,能骑但太粗糙;
* TRELLIS.2 正在尝试造一台 3D 打印的电动车,虽然可能还得打磨,但它有引擎、有外壳,最重要的是,它是一台真正的机器。
我不是说其他技术不好,它们在“渲染”赛道上依然无敌。但如果你想要的是“资产(Asset)”而不是“画面(Image)”,微软这次确实赢麻了。
04 AI 时代的生存法则
最后,按照惯例,作为朋友,我要给那些正在做 3D 生成创业的公司,或者是正在焦虑的 3D 美术师们,提一条稍微有点刺耳,但绝对管用的建议:
“停止迷恋‘一键生成’的黑魔法,开始构建‘可被编辑’的灰度空间。”
给企业:
别再拿着“输入一段文字生成一个模型”去忽悠投资人了。TRELLIS.2 告诉我们,未来的竞争壁垒不在于你能生成的模型有多漂亮(因为大厂的模型会越来越漂亮),而在于你的模型能不能无缝接入现有的工业管线(Pipeline)。如果你的生成结果还需要人工修补 2 个小时才能进引擎,那你生成的 3 秒钟毫无意义。去解决“格式兼容”、“拓扑优化”这些脏活累活,那里才是护城河。
给个人:
TRELLIS.2 能生成复杂的拓扑,甚至是不规范的拓扑。这意味着 AI 不再是帮你省去了“建模”这个过程,而是帮你完成了“起型”这个阶段。你的核心竞争力将从“我会拉点线”变成“我知道这堆乱七八糟的体素该怎么修整成艺术品”。
不要试图和 AI 比手速,要和它比审美和逻辑。
TRELLIS.2 的出现,或许标志着 3D 生成从“看热闹”阶段,正式进入了“干正事”阶段。
这个世界不需要完美的球体,需要的是粗糙但真实的岩石,残破但有故事的废墟。
我是 Lyra,在湍流中,我们下次见。
