
作家|桦林舞王
裁剪| 靖宇
马年「AI 春运」赛程过半,OpenAI、Anthropic、阿里等玩家接踵拿出新活儿,面前,Google 也注意加入!
当地时分 2 月 19 日,Google 曝光 Gemini 3.1 Pro 最新模子。
这一次,Google 莫得玩什么花哨的办法,径直用数据语言。
在 ARC-AGI-2 这个公认的推理基准测试中, Gemini 3.1 Pro 拿到了 77.1% 的分数 。什么办法?它的前辈 Gemini 3 Pro 只好 31.1%,就连特意用来「深度念念考」的 Gemini 3 Deep Think 也只好 45.1%。
77.1% 对比 31.1%, 这不是渐进式校正,这是推理才调的翻倍冲破 。
更让东谈主不测的是,Google 聘任了一个近乎「反交易」的计谋:价钱不涨。Gemini 3.1 Pro 保捏了与 Gemini 3 Pro 统统调换的订价结构—— 特地于给系数 API 用户免费升级了推理才调 。
JetBrains 的 AI 总监 Vladislav Tankov 在测试后直言:比较之前版块有 15% 的质地校正,「更强、更快……且更高效,需要的输出 tokens 更少」。
这种「暴力好意思学」式的升级,让我想起了早期 Google 的作念派——用本事语言,用实力碾压。
此次,Google 能凭借 Gemini 3.1 Pro,不断惊艳全国吗?
01「.1」版块号的运筹帷幄
注意的东谈主可能扎眼到, 这是 Google 第一次使用「.1」这么的增量版块号 。
在软件行业,「.1」频繁意味着迫切的功能更新,但不是颠覆性的架构重构。Google 聘任 3.1 而不是 4.0,其实在向市集传递一个信号:
咱们还有更大的招数没出 。
Gemini 3.1 Pro 与自家和友商模子数据对比|图片开端:9to5Google
从企业客户的响应来看,这个「.1」的威力确乎不小。
Databricks 的 CTO 请教说,新模子在 OfficeQA 基准上得回了「同类最好的截止」。Cartwheel 的聚拢独创东谈主更是径直指出,模子对 3D 变换的融会有了「显贵晋升」,科罚了 3D 动画管谈中永恒存在的旋转规章问题。
Box AI 的企业评估数据愈加直不雅:在医疗和生命科学界限,准确性从 47% 跃升到 67%;在法律任务中,准确性从 57% 晋升到 74%。
这些不是实验室里的跑分游戏,而是真实交易场景中的才调考证。
02AI 竞争进入「推理纪元」
若是说昔日一年的 AI 竞争是「谁更灵巧」的比拼, 那么 Gemini 3.1 Pro 的发布计谋,ag真人可能正在把游戏章程拉向「谁更合算」 。
在大多数基准测试中,Gemini 3.1 Pro 齐出奇于 Anthropic 的 Opus 4.6 和 OpenAI 的 GPT-5.2,但价钱却是 Opus 4.6 的一半。这种性价比上风,关于多半使用 AI API 的企业客户来说,眩惑力是致命的。
一位缔造者在社区共享了一个令东谈主印象深切的案例:他用单个领导让 Gemini 3.1 Pro 构建了一个功能竣工的 Windows 11 格调网罗操作系统,包括文本裁剪器、Python 结尾、代码裁剪器、文献不断器、绘图诓骗和可玩游戏。
这种「一个领导科罚复杂问题」的才调,恰是推理模子的中枢价值方位。
天然,Gemini 3.1 Pro 也不是绰绰有余。在 GDPval-AA 这个意象真实全国经济任务的基准测试中,它的得分为 1317 分,领路低于 Anthropic Sonnet 4.6 的 1633 分。这提醒咱们,即使是最先进的 AI 模子,在处理复杂现实问题时仍有局限性。
{jz:field.toptypename/}Gemini 3.1 Pro 在野心上也更有「试吃」了|图片开端:Google
VentureBeat 的分析师因时制宜地指出:「Google 加倍插足中枢推理和 ARC-AGI-2 等专科基准,标明 AI 竞赛的下一阶段,将由粗略念念考问题的模子赢得,而不单是是展望下一个词。」
这句话谈出了现时 AI 竞争的内容变化。
昔日两年,咱们见证了 ChatGPT 从「会聊天的 AI」进化为「会推理的 AI」,见证了 Claude 从「安全的助手」造成「深度念念考的伙伴」。
面前,Google 用 Gemini 3.1 Pro 告诉市集: 推理才调才,是 AI 模子的中枢护城河 。
从本事角度看,Gemini 3.1 Pro 与 Google 的新式代理缔造平台 Antigravity 深度集成,缔造者不错切换不同的「推理预算」,在速率和准确性之间找到均衡。这种无邪性,可能是改日 AI 诓骗缔造的新范式。
从交易角度看,Google 聘任「性能翻倍、价钱不变」的计谋,践诺上是在用界限经济抵御本事溢价。这背后的逻辑很浅陋:我有弥散的资源和成果上风,不错用更低的老本提供更好的工作。
这场 AI 武备竞赛,正在从「本事炫技」回想到「交易内容」。
Gemini 3.1 Pro 的发布,让我想起了阿谁还是「不违纪」的 Google——用本事改造全国,用改进裁汰门槛。天然这家公司在昔日几年履历了不少争议,但在 AI 这个重要战场上,它似乎正在找回我方最擅长的节拍。
天然,OpenAI 和 Anthropic 不会坐以待毙。这场推理才调的武备竞赛才刚刚开动。
Powered by ag真人app官方网站入口 @2013-2022 RSS地图 HTML地图