AI, ML, and networking — applied and examined.
剪辑师要失业?Meta发布SAM-Audio:在视频里点一下,背景杂音瞬间消失!
剪辑师要失业?Meta发布SAM-Audio:在视频里点一下,背景杂音瞬间消失!

剪辑师要失业?Meta发布SAM-Audio:在视频里点一下,背景杂音瞬间消失!

在这个视频为王的时代,每一位博主、后期和录音师都被“鸡尾酒会效应”折磨过:想在嘈杂的街头录一段清晰的人声,结果背景里的狗吠、车鸣、广场舞音乐混成一团。

以前,你可能需要打开几十个单用途插件,手动画频谱,修几个小时还是一股“电音味”。但今天,Meta AI 正式掀桌子了。

继“分割万物”的视觉模型 SAM 后,Meta 发布了其音频领域的王炸——SAM-Audio(Segment Anything Model for Audio) 。这是一套统一的多模态模型,它能让你像点选图片一样,精准地“抠”出任何你想要的声音 。

1. 魔法般的交互:点哪里,听哪里

SAM-Audio 最大的突破在于它彻底打破了音频编辑的门槛。它不再需要你懂波形或频谱,只需要给它一个“提示”(Prompt):

  • 视觉点选(Visual Prompting): 看着视频,点击正在扫弦的吉他手,模型就能自动把那把吉他的声音单独拎出来 。这得益于 Meta 强大的 PE-AV(感知编码器音频视频版),它在超过 1 亿个视频中学习过视听对应关系,甚至能识别画面外但与场景相关的声音 。
  • 文本开口(Text Prompting): 直接输入“重雨落地的声音”或者“汽车发动机轰鸣”,模型就能从复杂的混合录音中精准捕捉到目标 。
  • 时间锚点(Span Prompting): 业内首创的功能。如果你想分离两段重叠的人声,只需标记一段目标人声单独出现的“正锚点”,模型就会以此为参考,把他的声音从整段对话中完美隔离 。

2. 硬核黑科技:生成式音频分离

为什么它比以前的工具更强?传统的模型(比如 Demucs)大多是“判别式”的,只能识别固定的人声或鼓声 。而 SAM-Audio 是一个生成式分离模型

它的核心是一个基于流量匹配(Flow-matching)的扩散变换器(Diffusion Transformer) 。配合极高压缩比的 DAC-VAE 潜空间技术,它不仅是在“滤除”杂音,而是在潜空间里重新“合成”出高保真、无损的音频目标 。

这意味着它不仅能分得干净,还能生成“目标”(Target)和“残差”(Residual)两个音轨,让你想留哪个就留哪个,堪称音频版的 Photoshop 。

3. 不只是模型,这是一个生态系统

Meta 这次没打算只发一篇论文。他们直接甩出了一个“迷你生态系统” :

  • SAM-Audio: 核心模型,参数量从 5 亿到 30 亿不等,推理速度甚至快过实时 。
  • SAM Audio-Bench: 业内首个针对真实世界(非实验室合成)音频分离的评测基准 。
  • SAM Audio Judge: 一个 AI 裁判,它能模仿人类听觉,从质量、召回率、精确率和忠实度四个维度给音频打分 。

4. 未来的想象力:从助听器到电影后期

这项技术的落地场景简直大到离谱 :

  • 短视频创作: 一键消除路人谈话,提取纯净环境音。
  • 智能助听设备: Meta 正与 Starkey 等厂商合作。未来,听障人士只要在智能眼镜上点一下眼前的说话人,嘈杂环境里的声音就能瞬间清晰 。
  • 沉浸式 AR/VR: 把录好的音频对象化,重新布置在 3D 空间里 。

5. 开发者福利:开源!

最良心的是,Meta 依然延续了开源传统。目前,SAM-Audio 的模型权重和推理代码已经上线 GitHub 和 Hugging Face 。

虽然 Meta 也承认,目前在区分“极度相似的声音”(比如在一群人里单独抠出一个人的嗓门)上还有挑战 ,但这种“点哪听哪”的交互范式,已经预示了音频编辑新时代的到来。

你是想在电脑前苦哈哈地拉频谱,还是想点点鼠标搞定?


想体验的同学,可以直接去 Meta 的 Segment Anything Playground 在线试玩!

# 模型地址
https://github.com/facebookresearch/sam-audio
# 在线试用
https://aidemos.meta.com/segment-anything/editor/segment-audio

Leave a Reply

Your email address will not be published. Required fields are marked *