在这个视频为王的时代,每一位博主、后期和录音师都被“鸡尾酒会效应”折磨过:想在嘈杂的街头录一段清晰的人声,结果背景里的狗吠、车鸣、广场舞音乐混成一团。
以前,你可能需要打开几十个单用途插件,手动画频谱,修几个小时还是一股“电音味”。但今天,Meta AI 正式掀桌子了。
继“分割万物”的视觉模型 SAM 后,Meta 发布了其音频领域的王炸——SAM-Audio(Segment Anything Model for Audio) 。这是一套统一的多模态模型,它能让你像点选图片一样,精准地“抠”出任何你想要的声音 。
1. 魔法般的交互:点哪里,听哪里
SAM-Audio 最大的突破在于它彻底打破了音频编辑的门槛。它不再需要你懂波形或频谱,只需要给它一个“提示”(Prompt):
- 视觉点选(Visual Prompting): 看着视频,点击正在扫弦的吉他手,模型就能自动把那把吉他的声音单独拎出来 。这得益于 Meta 强大的 PE-AV(感知编码器音频视频版),它在超过 1 亿个视频中学习过视听对应关系,甚至能识别画面外但与场景相关的声音 。
- 文本开口(Text Prompting): 直接输入“重雨落地的声音”或者“汽车发动机轰鸣”,模型就能从复杂的混合录音中精准捕捉到目标 。
- 时间锚点(Span Prompting): 业内首创的功能。如果你想分离两段重叠的人声,只需标记一段目标人声单独出现的“正锚点”,模型就会以此为参考,把他的声音从整段对话中完美隔离 。
2. 硬核黑科技:生成式音频分离
为什么它比以前的工具更强?传统的模型(比如 Demucs)大多是“判别式”的,只能识别固定的人声或鼓声 。而 SAM-Audio 是一个生成式分离模型 。
它的核心是一个基于流量匹配(Flow-matching)的扩散变换器(Diffusion Transformer) 。配合极高压缩比的 DAC-VAE 潜空间技术,它不仅是在“滤除”杂音,而是在潜空间里重新“合成”出高保真、无损的音频目标 。
这意味着它不仅能分得干净,还能生成“目标”(Target)和“残差”(Residual)两个音轨,让你想留哪个就留哪个,堪称音频版的 Photoshop 。
3. 不只是模型,这是一个生态系统
Meta 这次没打算只发一篇论文。他们直接甩出了一个“迷你生态系统” :
- SAM-Audio: 核心模型,参数量从 5 亿到 30 亿不等,推理速度甚至快过实时 。
- SAM Audio-Bench: 业内首个针对真实世界(非实验室合成)音频分离的评测基准 。
- SAM Audio Judge: 一个 AI 裁判,它能模仿人类听觉,从质量、召回率、精确率和忠实度四个维度给音频打分 。
4. 未来的想象力:从助听器到电影后期
这项技术的落地场景简直大到离谱 :
- 短视频创作: 一键消除路人谈话,提取纯净环境音。
- 智能助听设备: Meta 正与 Starkey 等厂商合作。未来,听障人士只要在智能眼镜上点一下眼前的说话人,嘈杂环境里的声音就能瞬间清晰 。
- 沉浸式 AR/VR: 把录好的音频对象化,重新布置在 3D 空间里 。
5. 开发者福利:开源!
最良心的是,Meta 依然延续了开源传统。目前,SAM-Audio 的模型权重和推理代码已经上线 GitHub 和 Hugging Face 。
虽然 Meta 也承认,目前在区分“极度相似的声音”(比如在一群人里单独抠出一个人的嗓门)上还有挑战 ,但这种“点哪听哪”的交互范式,已经预示了音频编辑新时代的到来。
你是想在电脑前苦哈哈地拉频谱,还是想点点鼠标搞定?
想体验的同学,可以直接去 Meta 的 Segment Anything Playground 在线试玩!
# 模型地址
https://github.com/facebookresearch/sam-audio
# 在线试用
https://aidemos.meta.com/segment-anything/editor/segment-audio
