加载中...

重磅!谷歌发布最强推理模型Gemini 3!

zzzlllu 2025年12月16日 13:40
40 阅读
重磅!谷歌发布最强推理模型Gemini 3!

就在刚刚,Gemini 3 Pro 预览版正式发布。


年底的 AI 圈向来不缺新闻,但今年格外喧嚣。如果不出意外,这将是 2025 年压轴登场、最令人期待的海外大模型,甚至可以说,Gemini 3 Pro 成了这个时间窗口唯一的主角。

图片


过去两个月,Google巧妙复刻了Sam Altman的营销策略,从Gemini宣传委员Logan Kilpatrick到CEO皮查伊,内部人员不断在社交平台“打哑谜”,持续拉高外界期待。有趣的是,OpenAI CEO Sam Altman刚刚在X平台发文祝贺:“恭喜谷歌成功推出Gemini 3!看起来是个很棒的模型。”


尽管“谜语人”玩法风险不小——产品一旦不及预期,口碑可能迅速崩塌,但谷歌显然对Gemini 3 Pro信心十足。


那么,Gemini 3 Pro究竟带来了哪些突破?以下是核心亮点一览:

  • 原生多模态支持(文字、图像、视频、音频)
  • 登顶LMArena排行榜,在推理、多模态、编程等主流测试中全面领先
  • 推理能力创纪录:GPQA Diamond 91.9%、MathArena Apex 23.4%
  • 推出Deep Think增强推理模式(未来几周开放)
  • 100万token上下文窗口 + 64K输出
  • 全新AI IDE:Google Antigravity发布
  • 已集成进Cursor、GitHub、JetBrains等开发工具

无愧 Pro 之名

谷歌最强 AI 模型深夜发布


据Google介绍,Gemini 3 Pro是当前“最智能、最具适应性的模型”,专为应对现实世界中需要高层次推理、创造力、战略规划及逐步优化的复杂任务设计。典型应用场景包括:具备自主行为能力的应用、高级编程、超长文本理解、跨模态处理(图文音结合)及算法开发等。


在LMArena排行榜上,Gemini 3 Pro预览版以1501分位居第一,在绝大多数主流AI基准测试中大幅超越前代。更关键的是,它不仅能识别图像内容,还能理解其中的隐含信息与上下文关系。


具体来看:

  • 推理能力:在“人类最后的考试”中取得37.5%的博士级推理成绩,GPQA Diamond达91.9%,MathArena Apex创下23.4%的业界新高。
  • 多模态推理:MMMU-Pro得分81%,Video-MMMU得分87.6%,SimpleQA Verified事实准确率达72.1%。


这意味着Gemini 3 Pro能在科学、数学等复杂问题上提供可靠解答,输出真实见解,而非仅是用户想听的内容。


除了常规模式,Gemini 3还推出Deep Think增强推理选项。该模式在“人类最后的考试”中得分41.0%,GPQA Diamond提升至93.8%,在ARC-AGI-2测试中更创下45.1%的惊人成绩。目前该模式仍在进行安全评估,预计未来几周内向Google AI Ultra订阅用户开放。


除了测试数据,Gemini 3在实际场景中的表现同样令人印象深刻:


  • 识别奶奶手写、多语言混排的家族菜谱,整理为可分享的电子版;
  • 解析学术论文与长视频讲座,生成交互式学习卡片;
  • 分析匹克球比赛视频,制定针对性训练计划。

这些能力得益于Gemini原生支持的多模态架构,能够整合文字、图像、视频、音频与代码,配合100万token上下文窗口与64K输出上限,实现深层次信息理解。


值得一提的是,Gemini 3发布当天即集成进Google搜索。它不仅显著提升对复杂查询的理解与信息挖掘能力,还能根据问题即时生成动态视觉界面与互动工具,如三体物理模拟器或贷款计算器。


根据谷歌发布的模型卡,Gemini 3 Pro采用基于Transformer的稀疏专家混合模型(MoE),原生支持文本、视觉与音频输入。该架构能根据每个输入token动态激活部分参数,实现计算资源、服务成本与模型容量之间的高效平衡。


硬件方面,Gemini 3 Pro使用Google自研TPU进行训练。相比CPU,TPU在处理大语言模型所需的大规模计算时速度更快,其高带宽内存也支持超大模型与批量数据处理。


对开发者而言,Gemini 3带来的改变更为直接。谷歌官方博客称,Gemini 3是当前最强的“video coding”模型——只需用自然语言描述需求,即可生成功能完整的互动应用。相关数据同样亮眼:


  • WebDev Arena排行榜:1487 Elo
  • Terminal-Bench 2.0:54.2%
  • SWE-bench Verified:76.2%

///


Google此次还推出了全新AI IDE:Google Antigravity。其内置的智能Agent能自主规划并执行复杂的端到端软件任务,并自动验证代码正确性。例如,开发航班追踪应用时,Agent可独立完成规划、编码,并通过浏览器验证运行效果,实现编辑器、终端与浏览器的无缝协同。


在长期规划能力上,Gemini 3在Vending-Bench 2榜单中位居第一。实际应用中,最新发布的Gemini Agent实验功能可从头到尾执行多步骤复杂流程。例如:

  • 用户提出“整理一下我的收件箱”,Agent会优先安排待办事项,并起草邮件回复供用户确认;
  • “帮我预订一辆中型SUV,预算每天不超过80美元,用我邮件里的信息安排下周出行”,Gemini会定位航班信息,对比租车选项,准备预订流程。

整个过程中用户始终掌握控制权,Gemini在执行重要操作前会请求确认。


价格方面,通过Google AI Studio和Vertex AI使用Gemini 3 Pro预览版的API费用为:

  • 输入:每百万token 2美元
  • 输出:每百万token 12美元

Google AI Studio中也提供免费使用选项,但有调用次数限制。


Gemini 3目前已集成至Cursor、GitHub、JetBrains、Replit等主流开发工具。


随着产品发布,Google同步开放多个使用入口。从今天起,Gemini 3预览版将陆续上线:

  • 所有用户可在Gemini应用中体验;
  • Google AI Pro和Ultra订阅用户可在搜索的AI模式中使用;
  • 开发者可通过Gemini API、Google Antigravity和Gemini CLI访问;
  • 企业用户通过Vertex AI和Gemini Enterprise获取服务。

///

图片


实事求是地说,抛开纸面参数,Gemini 3的实际表现有目共睹。谷歌能在短时间内追平甚至超越OpenAI数年积累,也彰显了其作为全栈AI厂商的硬实力。


谷歌的优势显而易见:自研TPU系列处理器带来算力自主权,加上全球最大的数据宝库——搜索索引、学术文献、YouTube视频库,为Gemini训练提供了强大支持。这也解释了为何它在实时信息处理、多语言任务、视频理解等场景中表现更加稳定。


而就在刚刚,DeepMind开发者体验主管Omar Sanseviero在X上发文称,今晚只是“热身”,接下来还将有更多功能陆续上线。结合此前传闻,外界期待已久的Nano Banana 2或许真的离我们不远了。

免费试用
访问试用平台
电话咨询
18118978857
电子邮箱
marketing@tianmeitek.com
微信咨询
微信二维码
扫描二维码
添加微信
置于顶部