📅 2025-12-23 科技见闻
🤖 人工智能与前沿技术 Meta 开源视听感知编码器 PE-AV 🏷️ Keywords: #Meta #开源模型 #多模态 核心摘要:Meta AI 研究团队开源了Perception Encoder Audiovisual (PE-AV),这是一种用于联合视听理解的新型编码器系列。该模型在超过 1亿 个视听对上进行了对比训练,能够将音频、视频和文本对齐到同一个嵌入空间。PE-AV 也是 Meta 最新 SAM Audio 模型背后的核心感知引擎,在零样本检索和分类任务上刷新了行业基准。 🌊 湍流点评:多模态大一统是必然趋势。Meta 继续扮演开源“大善人”的角色,这次堵死的是那些试图在细分视听对齐领域搞封闭小模型的创业公司的路。 谷歌 47.5 亿美元收购数据中心开发商 …
