文|热点观察员老张
当全世界都在盯着“谁先跑出Gemini 3”时,阿里悄悄把起跑线往后挪了50米——然后,自己重新画了一条跑道。
1月26日发布的Qwen3-Max-Thinking,被媒体称为“国产版Gemini3”。但这个称呼,就像叫高铁为“轮子升级版绿皮车”——只看见了轮子,没看见轨道、信号、调度系统和一整套自主标准。
它参数超万亿?厉害。但它最动人的突破,藏在那个被反复提及的词里:Thinking(思考)。
过去的大模型,是“答题机器”:给题→列选项→选答案。Qwen3却开始学人做错题本——第一次算错,不靠堆答案投票,而是复盘、修正、再出发。这种“推理中反思”的能力,在HLE(人类最后测试)中甩开对手12分,不是偶然,是范式迁移。
更妙的是它的“工具肌肉记忆”:不用每次调用API前先查说明书,而是像老司机换挡一样自然——该用摄像头就调摄像头,该播音效就播音效,该粒子爆炸就粒子爆炸。这不是功能拼接,是能力内化。
那个“瞄不准”的打气球游戏,恰恰是最真实的隐喻:它还没做到毫米级精准,但它已完整跑通了从感知→决策→执行→反馈的闭环。而闭环,才是智能体的成人礼。
电商网站一次生成、体感游戏框架秒建、数学双满分……这些不是“全能”,而是根植于真实场景的深度进化。淘宝十年订单、天猫千万SKU、钉钉百万企业流程——这些不是数据集,是它的“生活经验”。AI的靠谱,从来不是靠参数堆出来的,而是被生活反复捶打出来的。
所以别急着比分数。真正的较量,不在榜单上,而在你明天想做个“能听懂方言的社区团购助手”,或“帮老人一键预约挂号还自动填医保信息”的小工具时——谁的模型,更愿意蹲下来,和你一起想清楚“人到底需要什么”。
你觉得,AI的终极竞争力,是更快地答对题,还是更暖地读懂人?欢迎在评论区,写下你的答案。