天美科技-打造企业信赖的AI人工智能产品、知识库智能体、数据分析智能体

zzzlllu 2025年12月16日 13:40

89 阅读

就在刚刚，Gemini 3 Pro 预览版正式发布。

年底的 AI 圈向来不缺新闻，但今年格外喧嚣。如果不出意外，这将是 2025 年压轴登场、最令人期待的海外大模型，甚至可以说，Gemini 3 Pro 成了这个时间窗口唯一的主角。

过去两个月，Google巧妙复刻了Sam Altman的营销策略，从Gemini宣传委员Logan Kilpatrick到CEO皮查伊，内部人员不断在社交平台“打哑谜”，持续拉高外界期待。有趣的是，OpenAI CEO Sam Altman刚刚在X平台发文祝贺：“恭喜谷歌成功推出Gemini 3！看起来是个很棒的模型。”

尽管“谜语人”玩法风险不小——产品一旦不及预期，口碑可能迅速崩塌，但谷歌显然对Gemini 3 Pro信心十足。

那么，Gemini 3 Pro究竟带来了哪些突破？以下是核心亮点一览：

原生多模态支持（文字、图像、视频、音频）
登顶LMArena排行榜，在推理、多模态、编程等主流测试中全面领先
推理能力创纪录：GPQA Diamond 91.9%、MathArena Apex 23.4%
推出Deep Think增强推理模式（未来几周开放）
100万token上下文窗口 + 64K输出
全新AI IDE：Google Antigravity发布
已集成进Cursor、GitHub、JetBrains等开发工具

无愧 Pro 之名

谷歌最强 AI 模型深夜发布

据Google介绍，Gemini 3 Pro是当前“最智能、最具适应性的模型”，专为应对现实世界中需要高层次推理、创造力、战略规划及逐步优化的复杂任务设计。典型应用场景包括：具备自主行为能力的应用、高级编程、超长文本理解、跨模态处理（图文音结合）及算法开发等。

在LMArena排行榜上，Gemini 3 Pro预览版以1501分位居第一，在绝大多数主流AI基准测试中大幅超越前代。更关键的是，它不仅能识别图像内容，还能理解其中的隐含信息与上下文关系。

具体来看：

推理能力：在“人类最后的考试”中取得37.5%的博士级推理成绩，GPQA Diamond达91.9%，MathArena Apex创下23.4%的业界新高。
多模态推理：MMMU-Pro得分81%，Video-MMMU得分87.6%，SimpleQA Verified事实准确率达72.1%。

这意味着Gemini 3 Pro能在科学、数学等复杂问题上提供可靠解答，输出真实见解，而非仅是用户想听的内容。

除了常规模式，Gemini 3还推出Deep Think增强推理选项。该模式在“人类最后的考试”中得分41.0%，GPQA Diamond提升至93.8%，在ARC-AGI-2测试中更创下45.1%的惊人成绩。目前该模式仍在进行安全评估，预计未来几周内向Google AI Ultra订阅用户开放。

除了测试数据，Gemini 3在实际场景中的表现同样令人印象深刻：

识别奶奶手写、多语言混排的家族菜谱，整理为可分享的电子版；
解析学术论文与长视频讲座，生成交互式学习卡片；
分析匹克球比赛视频，制定针对性训练计划。

这些能力得益于Gemini原生支持的多模态架构，能够整合文字、图像、视频、音频与代码，配合100万token上下文窗口与64K输出上限，实现深层次信息理解。

值得一提的是，Gemini 3发布当天即集成进Google搜索。它不仅显著提升对复杂查询的理解与信息挖掘能力，还能根据问题即时生成动态视觉界面与互动工具，如三体物理模拟器或贷款计算器。

根据谷歌发布的模型卡，Gemini 3 Pro采用基于Transformer的稀疏专家混合模型（MoE），原生支持文本、视觉与音频输入。该架构能根据每个输入token动态激活部分参数，实现计算资源、服务成本与模型容量之间的高效平衡。

硬件方面，Gemini 3 Pro使用Google自研TPU进行训练。相比CPU，TPU在处理大语言模型所需的大规模计算时速度更快，其高带宽内存也支持超大模型与批量数据处理。

对开发者而言，Gemini 3带来的改变更为直接。谷歌官方博客称，Gemini 3是当前最强的“video coding”模型——只需用自然语言描述需求，即可生成功能完整的互动应用。相关数据同样亮眼：

WebDev Arena排行榜：1487 Elo
Terminal-Bench 2.0：54.2%
SWE-bench Verified：76.2%

///

Google此次还推出了全新AI IDE：Google Antigravity。其内置的智能Agent能自主规划并执行复杂的端到端软件任务，并自动验证代码正确性。例如，开发航班追踪应用时，Agent可独立完成规划、编码，并通过浏览器验证运行效果，实现编辑器、终端与浏览器的无缝协同。

在长期规划能力上，Gemini 3在Vending-Bench 2榜单中位居第一。实际应用中，最新发布的Gemini Agent实验功能可从头到尾执行多步骤复杂流程。例如：

用户提出“整理一下我的收件箱”，Agent会优先安排待办事项，并起草邮件回复供用户确认；
“帮我预订一辆中型SUV，预算每天不超过80美元，用我邮件里的信息安排下周出行”，Gemini会定位航班信息，对比租车选项，准备预订流程。

整个过程中用户始终掌握控制权，Gemini在执行重要操作前会请求确认。

价格方面，通过Google AI Studio和Vertex AI使用Gemini 3 Pro预览版的API费用为：

输入：每百万token 2美元
输出：每百万token 12美元

Google AI Studio中也提供免费使用选项，但有调用次数限制。

Gemini 3目前已集成至Cursor、GitHub、JetBrains、Replit等主流开发工具。

随着产品发布，Google同步开放多个使用入口。从今天起，Gemini 3预览版将陆续上线：

所有用户可在Gemini应用中体验；
Google AI Pro和Ultra订阅用户可在搜索的AI模式中使用；
开发者可通过Gemini API、Google Antigravity和Gemini CLI访问；
企业用户通过Vertex AI和Gemini Enterprise获取服务。

///

实事求是地说，抛开纸面参数，Gemini 3的实际表现有目共睹。谷歌能在短时间内追平甚至超越OpenAI数年积累，也彰显了其作为全栈AI厂商的硬实力。

谷歌的优势显而易见：自研TPU系列处理器带来算力自主权，加上全球最大的数据宝库——搜索索引、学术文献、YouTube视频库，为Gemini训练提供了强大支持。这也解释了为何它在实时信息处理、多语言任务、视频理解等场景中表现更加稳定。

而就在刚刚，DeepMind开发者体验主管Omar Sanseviero在X上发文称，今晚只是“热身”，接下来还将有更多功能陆续上线。结合此前传闻，外界期待已久的Nano Banana 2或许真的离我们不远了。

返回新闻列表

重磅！谷歌发布最强推理模型Gemini 3！

关注我们:

联系我们

我们的产品

我们的案例