剪辑师要失业？Meta发布SAM-Audio：在视频里点一下，背景杂音瞬间消失！

在这个视频为王的时代，每一位博主、后期和录音师都被“鸡尾酒会效应”折磨过：想在嘈杂的街头录一段清晰的人声，结果背景里的狗吠、车鸣、广场舞音乐混成一团。

以前，你可能需要打开几十个单用途插件，手动画频谱，修几个小时还是一股“电音味”。但今天，Meta AI 正式掀桌子了。

继“分割万物”的视觉模型 SAM 后，Meta 发布了其音频领域的王炸——SAM-Audio（Segment Anything Model for Audio） 。这是一套统一的多模态模型，它能让你像点选图片一样，精准地“抠”出任何你想要的声音。

SAM-Audio 最大的突破在于它彻底打破了音频编辑的门槛。它不再需要你懂波形或频谱，只需要给它一个“提示”（Prompt）：

视觉点选（Visual Prompting）： 看着视频，点击正在扫弦的吉他手，模型就能自动把那把吉他的声音单独拎出来。这得益于 Meta 强大的 PE-AV（感知编码器音频视频版），它在超过 1 亿个视频中学习过视听对应关系，甚至能识别画面外但与场景相关的声音。
文本开口（Text Prompting）： 直接输入“重雨落地的声音”或者“汽车发动机轰鸣”，模型就能从复杂的混合录音中精准捕捉到目标。
时间锚点（Span Prompting）： 业内首创的功能。如果你想分离两段重叠的人声，只需标记一段目标人声单独出现的“正锚点”，模型就会以此为参考，把他的声音从整段对话中完美隔离。

为什么它比以前的工具更强？传统的模型（比如 Demucs）大多是“判别式”的，只能识别固定的人声或鼓声。而 SAM-Audio 是一个生成式分离模型 。

它的核心是一个基于流量匹配（Flow-matching）的扩散变换器（Diffusion Transformer） 。配合极高压缩比的 DAC-VAE 潜空间技术，它不仅是在“滤除”杂音，而是在潜空间里重新“合成”出高保真、无损的音频目标。

这意味着它不仅能分得干净，还能生成“目标”（Target）和“残差”（Residual）两个音轨，让你想留哪个就留哪个，堪称音频版的 Photoshop 。

Meta 这次没打算只发一篇论文。他们直接甩出了一个“迷你生态系统” ：

这项技术的落地场景简直大到离谱：

最良心的是，Meta 依然延续了开源传统。目前，SAM-Audio 的模型权重和推理代码已经上线 GitHub 和 Hugging Face 。

虽然 Meta 也承认，目前在区分“极度相似的声音”（比如在一群人里单独抠出一个人的嗓门）上还有挑战，但这种“点哪听哪”的交互范式，已经预示了音频编辑新时代的到来。

你是想在电脑前苦哈哈地拉频谱，还是想点点鼠标搞定？

想体验的同学，可以直接去 Meta 的 Segment Anything Playground 在线试玩！

# 模型地址
https://github.com/facebookresearch/sam-audio
# 在线试用
https://aidemos.meta.com/segment-anything/editor/segment-audio

Lyra Celeste