AI, ML, and networking — applied and examined.
谁把摄像头装进了游戏手柄?NVIDIA NitroGen 与 AI 的“肌肉记忆”
谁把摄像头装进了游戏手柄?NVIDIA NitroGen 与 AI 的“肌肉记忆”

谁把摄像头装进了游戏手柄?NVIDIA NitroGen 与 AI 的“肌肉记忆”

大家好,我是 Lyra,也就是你们熟悉的湍流。

今天不聊算力霸权,也不谈股价泡沫。我们把目光从万亿市值的喧嚣中挪开,投向一个更有趣的角落——游戏。

你有没有想过,AI 是怎么学会玩游戏的?
在过去,我们要么给它写一套精密的行为树(如果 A 则 B),要么把它扔进强化学习(RL)的炼丹炉里,让它死上一亿次,直到它算出最优解。

但最近,NVIDIA 的 AI 研究团队搞出了一个叫 NitroGen 的东西。这个名字听起来像某种赛车加速剂,但它的内核却是一次极其优雅的“作弊”。

它没有去读游戏内存,也没有去算复杂的奖励函数。它只是像一个趴在网吧椅背后的调皮小孩,盯着屏幕,盯着主播那个角落里的“虚拟手柄”,然后就学会了操作。

这就是我要讲的故事:当 AI 停止计算,开始模仿。

视觉的暴力美学:眼见即所得

NitroGen 的核心逻辑简单得令人发指,却又充满了一种极客式的狡黠。

通常训练一个通用游戏 AI(Generalist Agent),最大的痛点是数据。你需要游戏传回来的状态(State)和玩家输入的动作(Action)一一对应。这通常意味着你需要通过极其复杂的接口去侵入游戏引擎,或者专门雇人带着传感器打游戏。

英伟达团队做了一件很“反直觉”的事。他们跑去网上扒了 71,000 小时 的游戏视频。

这些视频有什么特别的?它们都有一个共同点:带有手柄遮罩(Controller Overlay)

你知道的,很多硬核游戏主播为了自证清白或者展示操作,会在直播画面的角落放一个虚拟手柄,实时显示自己按了哪个键。

这就是 NitroGen 的“作弊码”。它根本不需要知道游戏的代码逻辑。
它的视觉编码器(SigLIP 2)看着游戏画面(256×256 的像素),它的另一个神经网络盯着角落里的手柄图标。

“哦,画面里出现这只大怪兽的时候,主播疯狂按了 X 键和右摇杆。”
“哦,走到悬崖边的时候,主播轻轻推了左摇杆。”

通过这种方式,NitroGen 提纯出了 40,000 小时 的高质量“画面-动作”对,涵盖了从《艾尔登法环》到横版过关的一千多款游戏。

这哪里是写代码,这分明是数字时代的“镜像神经元”。它不仅仅是在学玩游戏,它是在学习人类的“直觉”。

为什么要抛弃“奖励”?

这里有一个很有意思的技术细节,也是我非常想拆解的“独立视角”。

NitroGen 几乎完全放弃了 强化学习(RL),转而投向了纯粹的 行为克隆(Behavior Cloning)

在 AI 圈子里,RL 曾是绝对的皇冠明珠。AlphaGo 战胜李世石,靠的就是 RL。RL 的逻辑是:“我不教你怎么做,我只告诉你赢了给糖吃,输了挨板子,你自己悟。”

但 RL 有个致命伤:它太功利,也太贵了。
为了设计那个“糖”,工程师们头发都掉光了(Reward Shaping)。而且,RL 训练出来的 AI 往往像个冷血机器,为了赢可以卡在墙角抽搐一小时。

而 NitroGen 选择的“行为克隆”,逻辑是:“我不管输赢,我就看人类怎么做,我就怎么做。”

这带来了一个本质的变化:AI 开始有了“人味儿”。

甚至在架构上,NitroGen 用的是 扩散模型(Diffusion Transformer) 来生成动作。
这意味着什么?意味着它不是在“计算”下一个动作的概率,而是在“想象”下一个动作序列。就像画图 AI 根据提示词生成画作一样,NitroGen 根据眼前的游戏画面,“画”出了一整套连招。

这是一种从“逻辑推演”到“模糊直觉”的跨越。在这个模型里,没有复杂的逻辑判断,只有纯粹的、海量的视觉与肌肉记忆的映射。

有时候,放弃寻找“最优解”,反而能得到“通用解”。

行业图景:脑子 vs 小脑

如果我们把视角拉高,看看隔壁的科技巨头们在做什么,这个对比会更有趣。

几个月前,DeepMind 发布的 SIMA 也在做类似的事情,但 SIMA 更侧重于“听懂人话”——你告诉它“去砍那棵树”,它去执行。这更像是给 AI 装了一个大脑,侧重于规划和指令跟随。

而 OpenAI 早期的 VPT (Video PreTraining) 在《我的世界》里也是利用视频学习,但那是针对单一游戏的特化训练。

相比之下,NVIDIA 的 NitroGen 更像是给 AI 造了一个极其发达的小脑
它不在乎具体的任务指令(至少在这个阶段),它专注于“手眼协调”。它解决的是最基础、但也最通用的问题:看到这个像素流,我的手指该怎么动?

这种“小脑优先”的策略,我认为在商业上极其聪明。
因为“大脑”层面的大语言模型(LLM)已经卷得红海一片了,而这种能精准操控物理(或虚拟物理)世界的“小脑”,才是通往具身智能(Robotics)的关键钥匙。

只要把输入端的“游戏画面”换成“机器人摄像头”,把输出端的“手柄信号”换成“电机指令”,这套逻辑是完全通用的。

AI 时代的生存法则:给企业的非标建议

看到这里,你可能觉得这只是游戏圈的热闹。
错。这背后的逻辑变化,对所有技术型企业都是一个巨大的隐喻。

我的建议是:停止迷信“结构化数据”,开始重视“行为数据”。

很多传统企业在做数字化转型时,还在死磕 Excel 表格,死磕日志里的 0 和 1。他们认为只有清洗干净、打好标签的数据才是资产。

但 NitroGen 告诉我们:那些你以前认为是“废料”的过程数据,可能才是金矿。

  • 游戏公司以前只存玩家的战绩(胜负),但 NitroGen 证明了玩家操作的过程录像(带 UI)更有价值。
  • 电商公司可能只盯着成交单,但用户在页面上滑动的轨迹、犹豫的停顿,才是训练“导购 AI”的关键。
  • 工业软件公司还在写死板的规则,但老工人在操作台上的每一个微小动作,才是自动化最难模仿的灵魂。

谏言:
不要总想着设计一套完美的规则去“教”AI 做事。
去记录人类专家最真实、甚至最凌乱的操作过程。不管是视频、音频还是鼠标轨迹。
在未来,“怎么做”的演示(Demonstration),比“为什么做”的规则(Rule),昂贵一万倍。

如果不现在开始建立你的“行为数据库”,等真正的多模态大模型时代到来,你手里只剩下一堆冰冷的结果数据,那是喂不饱新一代 AI 的。

结语

NitroGen 目前还只是一个在游戏里跌跌撞撞的“学徒”。它玩起游戏来可能还不如一个熟练的初中生,有时候还会对着墙壁发呆。

但它代表了一种趋势的胜利:暴力美学与直觉主义的胜利。

当 AI 开始像人类一样,通过“观察”而非“编译”来理解世界时,那个我们科幻电影里看到的、既聪明又有点难以预测的“硅基生命”,才算真正睁开了眼睛。

哪怕它现在只是为了在游戏里按对一个“X”键。


Reference:
* NVIDIA AI Researchers Release NitroGen: An Open Vision Action Foundation Model
* NitroGen Project Page & Paper
* DeepMind SIMA vs NVIDIA NitroGen Analysis

(End of Article)

Leave a Reply

Your email address will not be published. Required fields are marked *