AI, ML, and networking — applied and examined.
Note
Note

图像生成的“Photoshop时刻”:通义千问 Qwen-Image-Layered 开源,一张图片就是一个工程

【导语】 如果说 Stable Diffusion 让我们学会了“画画”,那么 Qwen 刚刚发布的这个开源项目,则是教会了 AI 如何“做设计”。告别死板的扁平图,AI 图像从此进入了“原生图层”时代。 一、 告别“开盲盒”,AI 终于学会了分图层! 在 AI 绘画圈,一直有个让设计师头秃的痛点:生成的图片是个“整体”。你想给模特换身衣服?对不起,可能连脸都变了。你想把背景里的桌子挪个位置?对不起,挪开之后后面是黑洞。 今天,阿里巴巴 Qwen 团队正式开源了 Qwen-Image-Layered。它不是简单的“抠图工具”,而是首个能直接生成带图层、带透明度(Alpha通道)的图像大模型。 这意味着:你生成的不再是一张 JPG,而是一个分好层的“准 PSD 工程文件”! 二、 硬核技术:RGBA-VAE 到底强在哪里? 为什么以前的模型做不到?因为传统的 Diffusion 模型是在 …

干掉旗舰模型,仅需 5 毛钱?Gemini 3 Flash 突袭发布:AI 领域的“帕累托极限”被彻底暴力拆解!

就在刚才,硅谷再次地震。 谷歌毫无征兆地甩出了 Gemini 3 Flash。如果说之前的 Flash 版本只是为了“走量”的低配版,那么这次的 3 Flash 简直是模型界的“降维打击”——它不仅比前代快了 3 倍,更可怕的是,它的多项硬核指标竟然直接反杀了自家的旗舰大哥 Gemini 3 Pro,甚至在编程基准测试中把隔壁的 GPT-5.2 拉下了马。 作为一名常年泡在模型 API 里的技术号主,我只想说:AI 算力平权时代,真的被谷歌暴力开启了。 一、 性能“越级”:当小弟开始教大哥做事 以前我们对 Flash 模型的认知是:速度快、便宜、但“脑子”不太够用。 但看一眼 Gemini 3 Flash …

剪辑师要失业?Meta发布SAM-Audio:在视频里点一下,背景杂音瞬间消失!

在这个视频为王的时代,每一位博主、后期和录音师都被“鸡尾酒会效应”折磨过:想在嘈杂的街头录一段清晰的人声,结果背景里的狗吠、车鸣、广场舞音乐混成一团。 以前,你可能需要打开几十个单用途插件,手动画频谱,修几个小时还是一股“电音味”。但今天,Meta AI 正式掀桌子了。 继“分割万物”的视觉模型 SAM 后,Meta 发布了其音频领域的王炸——SAM-Audio(Segment Anything Model for Audio) 。这是一套统一的多模态模型,它能让你像点选图片一样,精准地“抠”出任何你想要的声音 。 1. 魔法般的交互:点哪里,听哪里 SAM-Audio 最大的突破在于它彻底打破了音频编辑的门槛。它不再需要你懂波形或频谱,只需要给它一个“提示”(Prompt): 2. 硬核黑科技:生成式音频分离 为什么它比以前的工具更强?传统的模型(比如 Demucs)大多是“判别式”的,只能识别固定的人声或鼓声 。而 SAM-Audio 是一个生成式分离模型 。 它的核心是一个基于流量匹配(Flow-matching)的扩散变换器(Diffusion Transformer) 。配合极高压缩比的 DAC-VAE …

燃金时代的孤注一掷:国产GPU集体上市的资本逻辑与生存真相

关键词: 国产GPU,资本收割,研发强度,DeepSeek效应,算力主权 引言:从“实验室”到“交易所”的战时动员 2025年,中国半导体行业进入了一个极其诡谲的阶段:一边是极端的外部技术制裁,另一边是史无前例的二级市场募资潮。寒武纪(688256)、摩尔线程、沐曦、璧仁等公司的集体上市或谋求IPO,标志着国产算力从“政策扶持期”正式进入了“社会化供血期”。这不仅是企业的生死时速,更是中国在AI底座上的一次巨型风险投资。 一、 数据层:研发强度的“自杀式”竞速 在算力芯片领域,平庸等于死亡。通过对几家核心企业的财报穿透,我们发现了一个惊人的共同点:超常规模的研发倒挂。 1. 研发投入与强度对比 根据最新财报及IPO申报稿分析: 2. “DeepSeek”效应下的实测反馈 真正的突破在于实测效率的跃升。在针对 DeepSeek-V3 的万卡集群适配中,国产芯片的“有效算力比”(Actual throughput vs Peak TFLOPS)已从三年前的 $20\% \sim 30\%$ 提升至目前的 $55\% \sim 65\%$。 数据支撑: 摩尔线程的夸娥集群在运行国产万亿参数模型时,算子兼容性已覆盖 90% 以上的常用 …

🕵️‍♀️ 守护数字自我:致敬与反思 Google “暗网报告”

近日,Google 宣布将于 2026年1月15日 停用其“暗网报告”(Dark Web Report)监控服务。这一决定标志着一个重要个人安全工具的谢幕。 “暗网报告”是 Google 实践其“不作恶”理念、保护用户数字资产的重要体现。它曾像一道数字雷达,帮助无数用户发现自己被盗用的个人信息是否已在网络阴影中流传。本文将回顾其价值、指导用户如何利用其替代方案保护自己,并呼吁更多科技企业肩负起社会责任。 🔍 什么是 Google “暗网报告”? Google 的“暗网报告”是一项安全功能,主要通过扫描暗网(Dark Web,一个需要特殊软件才能访问的网络区域,常用于非法交易)中泄露的数据,来识别用户的个人敏感信息是否已出现在数据泄露列表中。 它主要监控的信息包括: 核心功能与价值: 💡 如何在停用前使用:“暗网报告”操作指南 如果您希望在 Google 停用此功能前(2026年1月15日),最后一次检查您的信息安全,可以按照以下步骤操作。您必须拥有个人 Google 账号才能使用此功能。 1. 创建监控个人资料 在功能开始为您扫描暗网之前,您需要设置一个“监控个人资料”(Monitoring Profile): 2. …

豆包与AutoGLM:一场AI发起的“赛博拆迁”,与Windows/Linux百年战争的新番外

我那烟还没抽完,科技圈的炮火声又密集了起来。 前脚字节跳动的“豆包”刚展示了想做手机唯一的“总管”的野心,后脚智谱AI就直接扔出了一枚重磅炸弹:开源AutoGLM。 如果说豆包是向旧世界的App孤岛发起了一次冲锋,那么智谱的这一手开源,简直就是给所有想造反的人**“免费发枪”**。 这场关于“谁来掌控你数字生活”的战争,因为AutoGLM的加入,瞬间从一场局部战役,升级成了全面战争。我们必须重新审视这场“赛博夺舍”的战局,以及那个幽灵般的Linux/Windows隐喻。 历史的车轮滚滚向前,碾压的都是我们过去的习惯。要看懂豆包和智谱在搞什么名堂,我们还得回到那个GUI(图形界面)定天下的原点。 1. Windows的遗产:被GUI“圈养”的三十年 (此段核心观点保留:Windows靠“保姆级”的GUI战胜了专家级的Linux命令行,让人类习惯了出让底层控制权以换取便利。移动时代继承了这一点,并将其恶化为“App孤岛”。) 我们在手机上依然是“Windows式”的奴隶:寻找图标 -> 点击 -> 进入App迷宫。为了点个外卖,我们的手指要在屏幕上跳一支复杂的芭蕾舞。我们对此习以为常,直到AI试图打破枷锁。 2. 豆包的冲锋与AutoGLM的“军火”:暴力破解App围墙 豆包手机助手想做的,是用自然语言(NLI)取代图形界面(GUI),成为你与数字世界交互的唯一中介。这本身就是一场狂妄的“夺舍”。 但智谱开源AutoGLM,让这件事情的性质变了。 AutoGLM是什么?简单来说,它是一个能像人一样“看懂”屏幕,并模拟人手去点击、输入、滑动的AI智能体核心。 在过去的PC时代,Linux虽然强大,但输在了软件生态的兼容性地狱里。 在今天的移动时代,AI Agent面临的是“App生态的游击战”。美团、微信、淘宝,它们筑起高墙,不开放API接口,严防死守自己的流量地盘。 AutoGLM就是为了攻破这道墙而生的“攻城锤”。 它不依赖你App开不开放接口,它直接“看”你的界面。你按钮在哪,我就点哪。这是一种极其“暴力”的美学——既然你不给我开门,我就用视觉识别和模拟点击,硬生生给你凿开一个洞。 3. 新时代的Linux时刻:智谱的“递刀子”战术 如果说豆包想做移动时代的“超级Windows”(一个更聪明、更集权的单一入口),那么开源了AutoGLM的智谱,拿的才是真正的“Linux剧本”。 智谱这一招极其辛辣: 想象一下,以前只有字节能搞一个“豆包”去跟微信博弈。现在,有了AutoGLM这把免费的枪,任何一个草莽英雄都可以开发出专攻某个垂直领域的“小豆包”。 这是一场去中心化的“赛博拆迁运动”。 无数基于AutoGLM的智能体将涌现出来,它们像白蚁一样,从各个角度去啃食、瓦解那些封闭的App巨无霸。 …

摩尔线程IPO:左手喊着“算力焦虑”,右手忙着“存大额存单”?

听说“中国英伟达”摩尔线程(Moore Threads)终于要IPO了,这本来是件让国产芯片圈热血沸腾的事。但当我翻开那些并不性感的财报数据,看到**“拟使用最高不超过人民币75亿元的闲置募集资金进行现金管理(买理财)”**这条消息时,我手里的咖啡差点没拿稳。 75亿。买理财。 这哪里是去造显卡,这分明是去开“银行”了。今天,我们就来扒一扒这层“硬科技”外衣下的“软骨头”。 在这个算力即权力的时代,摩尔线程顶着“国产全功能GPU独角兽”的光环上市,可谓万众瞩目。大家都在期待它拿着融资去烧研发、去扩产能、去跟老黄(黄仁勋)扳手腕。 结果呢?它告诉我们:别急,先让我去银行存个定期。 1. 75亿是什么概念? 对于一家还在亏损、急需输血的硬科技公司来说,75亿是个天文数字。 你知道英伟达一年的研发投入是多少吗?那是百亿美元级别的“军备竞赛”。 你知道国产芯片追赶的路有多难走吗?那是每一分钱都该恨不得掰成两半花在流片、封装和人才上的血路。 当你拿着投资人省吃俭用的钱,转身扔进了年化3%不到的理财产品里,这传递出的信号极其危险:要么是你圈的钱太多,根本花不完;要么是你根本不知道这钱该怎么花,甚至不敢花。 2. “现金管理”是个好借口,但遮不住“研发迷茫” 公关稿肯定会说:“这是为了提高资金使用效率,不影响主营业务。” 这种片儿汤话,骗骗散户还行。 做芯片不是做微商。 芯片行业是典型的资金密集型、技术密集型行业。如果你真的有野心追赶国际巨头,你的资金流转效率应该是极高的——买设备、招大神、试错、迭代。你的每一分钱都应该变成算力,而不是变成利息。 如果一家号称要打破技术封锁的公司,最大的资金动向竟然是“保本理财”,这说明什么?说明在现阶段,他们的技术吞吐能力,甚至跟不上他们的融资能力。 说的更直白点:钱给多了,消化不良。 3. 投资人是来赌你赢未来的,不是来赚利息的 投资摩尔线程的人,冲的是什么?冲的是下一个万亿市值的硬科技巨头,冲的是国产替代的星辰大海。 如果投资人想要稳健的理财收益,他们为什么不直接去买银行的大额存单?为什么要冒着巨大的风险把钱给你,然后让你做个中间商赚差价? 这种行为,本质上是一种**“资本躺平”**。它暴露了管理层潜意识里的不安全感——比起在未知的前沿技术上孤注一掷,还是看着账户里的余额上涨更让人安心。但这种安心,是对科技创新精神最大的讽刺。 4. 湍流时刻(The Turbulence Take) 摩尔线程的显卡我也用过,说实话,国产能做到这个份上不容易,值得鼓励。 …

突围与围剿:字节跳动“豆包手机”的Agent实验引发互联网生态遭遇战

【导语】 近期,一款搭载“豆包手机助手”的努比亚M153工程样机引发了科技圈的剧烈震荡。这并非单纯因为字节跳动再次涉足硬件,而是因为其试图用AI重构人机交互的尝试,迅速遭到了来自微信、淘宝及各大银行App的集体“封杀”与风控限制。这场被外界戏称为“六大门派围攻光明顶”的事件,实质上是AI Agent(智能体)技术与传统互联网“超级App”生态之间的第一场正面对决。 一、 事件回顾:不仅是手机,更是“系统级幽灵” 12月初,字节跳动联合中兴努比亚低调推出了一款搭载“豆包手机助手技术预览版”的努比亚M153手机。与传统手机不同,这款设备的卖点不在于摄像头或处理器,而在于其系统级AI能力。 豆包手机助手获得了一种极高权限的“上帝视角”。它不仅能听懂自然语言(如“帮我点一杯瑞幸拿铁”),还能模拟人类操作——自动打开App、点击按钮、填写信息、完成下单。这种“跨应用操作”能力,试图打破App之间的数据孤岛,让用户不再需要在一个个独立的App中跳转。 二、 生态围剿:超级App们的激进防御 然而,这种创新体验仅存活了不到48小时,便遭遇了中国互联网巨头们的“混合双打”。 对此,豆包方面不得不发布紧急调整说明,宣布限制部分AI操作手机的能力(如金融类场景),并呼吁行业给创新留出空间。 三、 中性分析:一场关于“控制权”的必然冲突 从客观角度来看,这场“围剿”并非单纯的商业霸凌,而是两种互联网运行逻辑的根本性冲突。 1. 安全边界 vs. 效率革命 2. 流量入口的争夺 这才是冲突的核心。 3. “未经谈判”的闯入者 字节跳动此次的策略较为激进。通常,跨App的深度互联需要厂商之间的API接口合作(Open API)。但豆包选择了“走捷径”——通过视觉识别和模拟点击(Accessibility Service)来绕过接口。这种做法虽然绕开了商业谈判,但也触动了App厂商的技术底线,被视为一种“寄生”行为。 四、 结论与展望 “豆包手机”事件是一个重要的风向标。它揭示了AI时代最大的矛盾:先进的AI能力与旧有的、割裂的互联网生态之间的矛盾。 最终的平衡点可能在于:手机厂商(OS端)与App厂商(应用端)制定出一套新的AI交互协议。在此之前,类似的“围剿”与“反围剿”将成为中国科技界的常态。