|
|
1 t i% ~ x( N- T9 c3 }
出品 |《态度》栏目 作者 | 袁宁
6 _+ C0 @- x, W8 Y* g& j, | 编辑 | 丁广胜
8 [% n6 }1 u$ A j/ K+ s4 A9 z7 p5 R4 P3 N# l) ^! `; k5 z! e7 X
2月11日深夜到12日清晨,短短几个小时内,中国三家知名的大模型公司几乎同时完成了一轮关键更新:
/ O! _ b5 G! A, B
0 J: G; K" i8 L; z) n智谱正式发布 GLM-5,MiniMax M2.5在产品中悄然上线体验,DeepSeek 也启动新一轮能力升级。
: N! P- C# P2 _- I7 D( r" b智谱 GLM-5:从“写代码”到“搞工程”
7 V$ Z6 L2 a- A+ E% k- z2月12日,智谱正式官宣上线并开源新模型 GLM-5。同时确认:此前在 OpenRouter 上爆火的匿名模型 Pony Alpha,正是 GLM-5。
! v% s0 m: I) i在匿名测试阶段,这个模型已经被全球开发者当作真实生产工具使用。有人用它做横版解谜游戏,有人搭建 Agent 交互世界,也有人直接基于它开发出论文版“抖音”等完整应用形态。模型在没有品牌背书的情况下完成真实市场验证,本身已经说明了能力层级的变化。4 [* V/ m" v, X( n+ {6 w
4 @8 @: P4 D: p3 ~5 x
智谱对 GLM-5的定位非常明确:它不是一个聊天模型,而是一个 Agentic Engineering 基座模型。3 M2 @! t% ?& k1 d
过去两年,大模型的主流叙事是“写代码”“写前端”;而现在,行业共识正在转向:模型需要完成完整工程与复杂任务,即从「Vibe Coding」走向「Agentic Engineering」。GLM-5正是这一阶段的代表产物。
: G {: H; [4 H. X) U
2 K* c2 L! E- L* U6 F4 V与上一代相比,GLM-5不再满足于生成一个漂亮 demo 或一段 Python 脚本,而是为稳定交付生产级结果而生。在真实编程场景的使用体感上,GLM-5已经被认为逼近当前行业天花板 Claude Opus 4.5。8 y! t3 P/ W u; f8 P3 t+ |. h" q
在底层能力上,GLM-5进行了全面扩展:
/ J4 c8 E7 {* Z( k8 X0 G● 参数规模: 从上一代的355B(激活32B)扩展至744B(激活40B)。1 n5 ~2 H8 i6 t6 o" I. v8 T
● 数据量级: 预训练数据从23T 提升至28.5T。
. W* _+ @! `9 c2 ]$ t. n% l3 W● 架构创新: 首次集成了 DeepSeek Sparse Attention 机制。这一技术在维持长文本效果无损的同时,大幅降低了模型部署成本,提升了 Token 的生成效率。; M Y; i( Y/ E) n r) M
● 异步强化学习: 构建了全新的“Slime”框架,让模型能够在长程交互中持续学习,不再是“聊几句就忘”。8 A1 y8 e3 u" \; s2 n5 b# G
; F- W8 \$ @# f. @# j
在全球权威的 Artificial Analysis 榜单中,GLM-5位居全球第四、开源第一。. B# b2 T) b2 z1 g6 j! Y) M9 V
- r2 o1 C- r* f9 l! G
GLM-5在编程能力上实现了对 Claude Opus 4.5的对齐,在工程师最看重的 SWE-bench-Verified(软件工程基准测试)中,GLM-5拿下了77.8的高分;在 Terminal Bench 2.0(终端操作能力)中达到了56.2。这两个分数不仅是开源模型的 SOTA(State Of The Art),更直接超越了 Google 的 Gemini 3 Pro。: t% r. K+ [. i: ?9 W. S1 @
在智谱内部的 Claude Code 评估集合中,GLM-5在后端重构和深度调试等“硬骨头”任务上,比 GLM-4.7平均提升了超过20%。, D" n9 S5 y3 N2 S* R9 C8 ^
; o( w& R& z; `. O/ ]- l- P8 bGLM-5在 Agent 能力上实现开源 SOTA,在多个评测基准中取得开源第一。- O+ C, G$ d' u, i6 Q& Y$ @2 l
% _: D2 Y; g1 R" ~# W$ c# H更有意思的是 Vending Bench 2的测试结果。这个测试要求模型在一年期内经营一个模拟的自动售货机业务。GLM-5最终的账户余额达到了4432美元。这意味着它不仅会写代码,还懂得资源管理和长期规划,这种“经营能力”是迈向 AGI 的关键一步。
: v4 m2 I+ x, u: F, _
" b) g) }5 C1 x' Z
同一夜:MiniMax 与 DeepSeek* p6 c5 V& I- h) y6 w% ]
就在智谱官宣的同时,另外两家巨头的布局也在进行。
: j/ @: \% ^7 b3 V9 U% s' I昨晚,细心的用户发现,在 MiniMax Agent 产品中,底层模型选项里悄然出现了一个新名字——MiniMax M2.5。) V3 ^2 {. {& k5 }3 d0 M
4 _" w3 _( E. Q( W, r
虽然公司尚未正式官宣,但这显然是一次在产品端的“实弹演习”。据早期测试用户反馈,“M2.5 Agent能力炸裂”,“编程和工具调用又强又便宜”。: [4 s+ O t$ M3 A5 _
9 A$ R n4 I$ {% H
据我们了解,MiniMax M2.5定位为全球首个为Agent场景原生设计的生产级模型。其编程与智能体性能 (Coding & Agentic)比肩国际顶尖模型,直接对标 Claude Opus 4.6,支持PC、App、跨端应用的全栈编程开发,尤其在 Excel高阶处理、深度调研、PPT等Office核心生产力场景中处于SOTA地位。/ G* M1 X/ u7 l
同时,M2.5模型激活参数量仅 10B,在显存占用和推理能效比上优势明显,支持 100 TPS 超高吞吐量。
; Y2 j# q6 M! k# E) ?" f此外,就在众人还在猜测DeepSeek V4何时到来时,DeepSeek也在悄然更新。
0 W) k0 N1 ]! b! q我们在昨晚尝试询问 DeepSeek 的最新状态,在关闭“深度思考”和“联网搜索”后查询模型信息时发现,其上下文长度已提升至1M Token(此前为128K),知识库截止日期更新至2025年5月。9 s( x3 J) U) C1 z% ^7 m4 ~
/ _+ _/ O" C. f# T3 P8 W: R z2 U
2026年,注定不会平静。
" m. }( n p$ \7 x; x: a0 T智谱用 GLM-5证明了中国模型在复杂工程能力上已能与世界最强掰手腕;MiniMax 在产品端极速狂奔,抢占用户心智;而所有人依旧在等待 DeepSeek 出招。
7 ?! L! I+ R2 e5 m1 }
/ }+ i0 }. M2 }4 Q, Q8 T% H对于此时此刻的身处浪潮中的我们来说,唯一的选择就是——跟上速度。毕竟,在这个10倍速的夜晚过后,掉队可能只是一瞬间的事。) e: o. r* f3 n/ g: P
3 _, e" V3 ?8 h. w
|
|