任丘市奥力斯涂料厂 > 新闻资讯 >

贵港泡沫板橡塑板专用胶 姚顺宇谷歌秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程

发布日期:2026-02-23 03:13点击次数:

铁皮保温施工

面对 Claude Opus 4.6 和 GPT Codex 5.3 的猛烈攻势贵港泡沫板橡塑板专用胶,谷歌反手就是个Gemini 3 Deep Think的重大升。

在 Codeforces(个包含各种竞技编程挑战的基准测试平台)上,它取得了惊人的3455  Elo 分数,相当于世界 8 名。

这下子,全球只有 7 人的编程水平能排在它前面了。而此前分是年前 o3 拿下的 2727 Elo。

Gemini 3 Deep Think 的实力不止于此,它还直接把ARC-AGI-2——这个公认测试 AI 理能力的前沿基准,给刷到了的84.6。

要知道,之前强模型的得分在 60-70 之间徘徊,Claude Opus 4.6 的成绩也只有 68.8。

在人类后考试(HLE)上,Gemini 3 Deep Think 也刷新 SOTA,拿下了48.4的成绩。

奥力斯    万能胶生产厂家    联系人:王经理    手机:13903175735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

官表示,新版 Deep Think 是谷歌门开发的理模式,旨在动智能前沿发展,并解决科学、研究和工程域的现代挑战。

另位"尧舜禹"——清华物理系传奇特得主姚顺宇(Shunyu Yao),去年 9 月加入谷歌 DeepMind,也是这次 Deep Think 新模型的参与者。

新版 DeepThink 已经走进了实验室

升后的 Gemini 3 Deep Think 实力究竟有多强?

它的野心不止于赢得基准测试,而是要走进科研和工程域,帮助工程师处理复杂任务。

新版 Deep Think 可以分析草图,对复杂形状进行建模,并直接生成用于 3D 印的实体文件。这是它印的个笔记本电脑支架:

谷歌 VP Josh Woodward 在 X 上晒出了印的成果,看起来对草图相当:

罗格斯大学的数学 Lisa Carbone,利用 Gemini 3 Deep Think 审阅了篇度业的数学论文。

结果 Gemini 3 Deep Think 成功地识别出了个细微的逻辑缺陷,而这个缺陷在此前的人工同行评审中均未被发现。

杜克大学的安实验室贵港泡沫板橡塑板专用胶,利用 Gemini 3 Deep Think 技术优化了复杂晶体生长的制备法,以期发现新的半体材料。

结果 Gemini 3 Deep Think 成功设计了种能够生长厚度大于 100 微米薄膜的工艺,达到了以往法难以企及的精确目标。

在 X 上,DeepSeek 多模态团队研究员 XiaoKang Chen 也表示:Gemini 3 Deep Think 非常擅长处理科学域中的长尾任务。

他给 Deep Think 输入了张复杂分子结构的图片,随后模型便准确地计出了分子式。

勇夺三项新 SOTA,理成本降低 82

去年 Deep Think 门版已经 IMO 等竞赛中夺下金。现在,全新升后的 Deep Think 又在多项难度的基准测试中刷新 SOTA:

不使用任何工具,在 HLE 中取得新 SOTA ——48.4;

在 ARC-AGI-2 测试中取得前所未有的84.6的成绩,并经 ARC Prize 基金会验证;

在 Codeforces 上取得了惊人的3455  Elo 分数;

在 2025 年数学奥林匹克竞赛中达到金水平。

其中,ARC-AGI-2 被誉为 AI 界的"图灵测试",旨在衡量模型处理从未见过的新颖理任务的能力。

要知道,去年 12 月刚发布的初代 Deep Think 得分还是 45.1,不到三个月时间已经飙升到 84.6,比 Opus 4.6 还要强出截。

而在 ARC-AGI-1 上,Gemini 3 Deep Think 取得了 96 的成绩,直接顶到天花板了。

能提升的同时,理成本也在大幅下降。初代 Deep Think 执行每项任务的成本为 77.16 美元。此次升让成本降低了 82,万能胶生产厂家每项任务仅需13.62 美元。

由于 1 和 2 都被 Gemini 刷爆了,现在 ARC Prize 已经在构建 ARC-AGI-3 了……

除了数学和编程,升后的 Deep Think 在化学和物理等广泛的科学域同样表现出。

在 2025 年物理奥林匹克竞赛和化学奥林匹克竞赛中,Gemini 3 Deep Think 在笔试部分取得了金别的成绩。

此外,它还展现了在等理论物理面的能力,在 CMT-Benchmark 测试中取得了 50.5 的分数。

华人带队,造强理模型

Gemini 3 Deep Think 的研发团队中,有不少华人身影。

核心成员包括 95 后华人科学Yi Tay,他在 Gemini 团队中从事强化学习和理向的研究工作。

此前,他曾在 Google Brain 共同早期大语言模型项目,包括 PaLM-2、UL2 和 Flan-2。

在 Google Brain 工作 3 年多之后,2023 – 2024 年间,Yi Tay 曾短暂离开谷歌,作为联创始人创办了角兽 AI 初创公司—— Reka。

Reka AI 由 DeepMind、谷歌和 Meta 的研究人员创立,其创办初衷是造强大且的基础模型,现在也开发界面设计、应用逻辑以及其他应用面的工具。

在创业年半后,Yi Tay 便重返谷歌 DeepMind,担任资研究科学,继续从事人工智能和大语言模型的研究。

去年刚从 Anthropic 跳槽到谷歌 DeepMind 的清华校友姚顺宇,也参与了 Deep think 新模型的开发。

姚顺宇本科就读于清华大学物理系,曾拿下过清华本科生特等学金(清华授予在校优秀本科生的学金荣誉)。

本科期间,他就已在《Physical Review Letters》(物理学域顶的学术期刊之)发表水平论文,次在上给出了关于非厄米系统的拓扑能带理论,不仅准确预测了相关现象,还定义了两个新的物理概念。

本科毕业后,他赴斯坦福大学继续攻读博士,注于量子多体混沌、开放量子系统动力学等前沿问题,师从 Douglas Stanford(美国理论物理学,被同行视为顶且有潜力改变物理学发展向的年轻科学之)、Zhenbin Yang(杨振斌,华裔美国科学,公认的 20 世纪重要的物理学之)等知名学者。

博士毕业后,他先是去 UC 伯克利做博士后研究,随后加入了 Anthropic。在 Anthropic 工作的年时间里,他参与组建了强化学习基础团队,负责了 Claude 3.7 Sonnet 框架,以及 Claude 4 系列背后的基本强化学习理论。

离开 Anthropic 之后,姚顺宇转战谷歌 DeepMind,继续从事 AI 面的研究。这次 Deep Think 新模型发布,也是他在谷歌的秀之作。

参考链接:

[ 1 ] https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

[ 2 ] https://x.com/ShunyuYao14/status/2022013770843967900

[ 3 ] https://x.com/YiTayML/status/2021988841142534287

[ 4 ] https://x.com/NoamShazeer/status/2021988459519652089

[ 5 ] https://x.com/PKUCXK/status/2022144532272623990

—  欢迎 AI 产品从业者共建  —

� �「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

键关注 � � 点亮星标

科技前沿进展每日见贵港泡沫板橡塑板专用胶

相关词条:离心玻璃棉     塑料挤出机     钢绞线厂家    铝皮保温    pvc管道管件胶
18232851235

Powered by 任丘市奥力斯涂料厂 RSS地图 HTML地图

Copyright Powered by365站群 © 2025-2054