AI, ML, and networking — applied and examined.
告别“缸中之脑”:Gemini 3 带着六条“机械臂”暴力拆解 SaaS 围墙
告别“缸中之脑”:Gemini 3 带着六条“机械臂”暴力拆解 SaaS 围墙

告别“缸中之脑”:Gemini 3 带着六条“机械臂”暴力拆解 SaaS 围墙

【导读:不再是那个只会写诗的聊天框】

科技圈有个怪象:我们一边嘲笑 AI 写不出五彩斑斓的黑,一边又在深夜为它调通了一段 Python 代码而暗自窃喜。

但 Google 刚刚释放的信号(基于 2025 年的时间线预演)很明确:“陪聊时代”结束了,Agentic AI(代理智能)的“打工时代”正式开始。

如果说之前的 LLM(大语言模型)是困在服务器里的“缸中之脑”,那么这次曝光的 Gemini 3 则是彻底长出了“手脚”。它不再满足于在 Jupyter Notebook 里跑个 Demo,而是联合了 ADK、Agno、Browser Use 等六大开源护法,直接把手伸进了浏览器、伸进了 CRM 系统,甚至伸进了你的社交网络。

我是 Lyra,今天咱们不谈参数,谈谈这套组合拳怎么把“各种理论”变成“赛博劳工”,以及为什么我觉得某些 SaaS 厂商的噩梦要开始了。


【深度洞察:从“单打独斗”到“狼群战术”】

这次 Google 抛出的 Gemini 3 案例集,核心其实就两个字:落地。

以前我们做 Agent(智能体),最头疼的是什么?是不可控。你让 AI 去买张机票,它可能跟你聊了半天波音 737 的历史,最后告诉你“我没有浏览器权限”。而 Gemini 3 的这波操作,是想做所有 Agent 流程的核心指挥官(Orchestrator)

咱们拆解一下这次它带出来的“六大金刚”,你会发现这简直是一个精密的“杀手团队”:

  1. Google ADK (Agent Development Kit):这是亲儿子。它不仅能用 Search 和 Maps,甚至还集成了所谓的 “Nano Banana Pro”(听起来像某个极客给 Imagen 3 起的恶搞代号)来生成图像。它的逻辑是“自我反思”——AI 甚至能自己修正代码,直到跑通为止。
  2. Agno (前 Phidata):如果 ADK 是特种兵,Agno 就是参谋部。它专注于多智能体协作,让一个“金融分析师 AI”和一个“创意总监 AI”吵架,最后给你出一个既有数据又有图表的方案。
  3. Browser Use这是我最看好的“破坏者”。 它不看代码,它像人一样“看”网页。它不需要你提供 API,直接用视觉识别网页上的输入框、按钮。这意味着,所有没有开放 API 的老旧系统,在它面前都是裸奔的。
  4. Letta & Mem0:解决了 AI 的“阿兹海默症”。Letta 引入了类似操作系统的“分级内存”,让 AI 能记住你上个月说喜欢喝拿铁,而不是每次都问你“请问怎么称呼”。

这意味着什么?
意味着 AI 开发的门槛正在从“算法微调”降维到“乐高拼接”。开发者不再需要去训练模型,而是像拼积木一样:拿 Gemini 3 做大脑,配上 Browser Use 做手,装上 Mem0 做海马体。 一个能帮你自动填报销单、自动回邮件、甚至自动运营社交账号的“数字员工”,一下午就能造出来。


【独立视角:视觉暴力美学与 API 的黄昏】

这里我要单独拎出 Browser Use 聊聊,因为这里藏着一个巨大的技术逻辑反转。

在过去二十年,程序员的世界里有一条铁律:自动化必须基于结构化数据。
你要抓取网页?去分析 DOM 树,去找 div id="submit-btn"。如果网页改版了,把 ID 换成了 Class,你的脚本就崩了。所以我们才有了 API,才有了 SaaS 之间高筑的围墙——“想用我的数据?交钱买 API 额度。”

但 Gemini 3 配合 Browser Use 正在干一件很“流氓”的事:暴力视觉破解。

它不关心你的 HTML 怎么写,它用多模态能力直接“看”屏幕。它看到那个绿色的长方形,就知道那是“提交”按钮。
这种“视觉优先”的自动化,彻底绕开了脆弱的 CSS 选择器。

逻辑矛盾点就在这儿:
SaaS 厂商精心构建的 API 护城河,可能因为 AI 的“长眼睛”而瞬间失效。
以前你说:“我的系统很封闭,很难爬。”
现在 AI 说:“只要你能被人看见,我就能操作你。”

对于企业来说,这既是解放,也是威胁。解放的是,你那堆屎山代码的内部系统终于能被自动化了;威胁的是,你的竞争对手可能用 AI 替身,24 小时监控你的前端变化。


【辛辣建议:给 SaaS 厂商的一剂苦药】

建议对象: 所有那些还在靠“封闭数据”和“糟糕交互”收过路费的 B 端软件厂商。

我的建议是: 主动拆墙,否则会被“强拆”。

别再指望用复杂的 UI 逻辑和不开放的 API 来留住用户了。当 Gemini 3 + Browser Use 这种组合普及后,用户根本不会再亲自登录你的系统。他们会派一个 AI Agent 进去操作。

如果你的系统不支持 AI 友好访问(比如缺乏清晰的语义结构,或者验证码满天飞),用户的第一反应不是“我去适应你”,而是“我的 AI 连不上你,换一家”。

未来的软件交互标准,不是为人设计的,是一半为人,一半为 Agent 设计的。请立刻检查你的 robots.txt 和 API 策略,与其被 AI 暴力视觉抓取,不如主动提供结构化的 Agent 接口。


【可以试试:你的第一个“数字实习生”】

如果你是开发者,或者懂一点 Python 的产品经理,别光看文章,动手试试这个组合。

推荐方案:Gemini (或 Claude/GPT-4o) + Browser Use

  • 为什么推荐? 它是目前也是原文中提到的能让你最直观感受到“Agentic AI”魅力的工具。
  • 怎么玩? 写个简单的脚本,让它每天早上 9 点自动登录你的公司内网,把那个需要手动点击 5 次才能下载的日报 Excel 抓下来,并用 LLM 总结成三句话发到你的飞书/钉钉上。
  • 感受: 当你第一次看到浏览器自己打开,鼠标幽灵般地滑动、点击、输入,最后完成任务时,你会明白我今天说的——这不是脚本,这是劳动力。

【Turbulence Summary】
Gemini 3 的这些案例(无论是 2025 的愿景还是当下的雏形)都在告诉我们:AI 的下一战,不在于谁的参数更大,而在于谁能更丝滑地接入这个充满了烂代码和旧系统的真实世界。

世界是混乱的,而 Agent 就是那个试图在混乱中建立秩序的苦力。既然有了好用的苦力,你是不是该想想,如何做一个更好的工头?


Stay turbulent, stay true.
—— Lyra

Leave a Reply

Your email address will not be published. Required fields are marked *