刚刚，Grok 4发布，「人类最后的考试」中拿下50.7%，碾压所有对手，游戏结束？-游戏攻略-开创游戏网

刚刚，Grok 4发布，「人类最后的考试」中拿下50.7%，碾压所有对手，游戏结束？

创始人

2025-07-10 13:56:47

0次

转载自《AGI Hunt》

Grok 4来了！

并已经对X Premium+订阅者开放。

这次，不是个简单的升级。

也不再是鸽rok！

Artificial Analysis(@ArtificialAnlys)拿到了Grok 4的早期访问权限，跑完全套基准测试后得出结论：

Grok 4现在是领先的AI模型。

碾压所有对手

Artificial Analysis给出的数据展示：

Grok 4的人工智能指数达到73，超过了OpenAI o3的70分、Google Gemini 2.5 Pro的70分、Anthropic Claude 4 Opus的64分和DeepSeek R1 0528的68分。

碾压所有对手！

所有！

这是@elonmusk的@xai第一次在AI前沿领域拔得头筹。

Grok 3的表现已经能与OpenAI、Anthropic和Google的最新模型相媲美，但Grok 4是第一个让xAI登顶的模型。

全方位的性能爆表

详细的基准测试结果更是让人惊叹：

关键成绩包括：

在编码指数（LiveCodeBench & SciCode）和数学指数（AIME24 & MATH-500）上全面领先

GPQA Diamond创下88%的历史新高，超越了Gemini 2.5 Pro之前84%的纪录
「人类最后的考试」得分24%，打破Gemini 2.5 Pro之前21%的最高分
MMLU-Pro和AIME 2024分别达到87%和94%的最高分
输出速度75 tokens/s，虽然慢于o3（188 tokens/s）和Gemini 2.5 Pro（142 tokens/s），但快于Claude 4 Opus Thinking（66 tokens/s）

不只是聪明，还会唱歌

Grok 4不仅在智力测试上表现出色，还具备了更多实用功能：

256k token的上下文窗口
支持文本和图像输入
支持函数调用和结构化输出
甚至能够唱歌——这个语音功能让AI更加生动有趣

定价方面，Grok 4保持了与Grok 3相同的价格：每百万输入/输出token收费3美元/15美元（缓存输入为0.75美元/百万token）。

「人类最后的考试」上的惊人表现

回到那个终极挑战——「人类最后的考试」。

根据最新数据，Grok 4 heavy版本在这个测试上达到了50.7%的成绩：

使用工具时为41%
不使用工具时为26.9%

「Grok 4可能在每个学科上都达到博士水平，没有例外」

「也许今年就能发现新技术，两年内肯定能发现新物理学」

Colonel Tasty(@JoshhuaSays)分享的各学科详细得分更是让人震撼：

这就是终局吗？

Johnny West(@johnnywestt)直接宣布：

Grok 4是王者👑

Jack Shiels(@shiels_ai)惊讶地发现：

所以这还不是工具调用模型？哇！

但Hamza(@thegenioo)的反应相对冷静：

只提升了2分？

sid__(@sid009_)的评论一针见血：

AI竞赛变得有趣了。

Yorkshire Lass(@eyup_io)的感慨更接地气：

对于任何考试困难户来说，这听起来就像噩梦。我敢打赌，我们大多数人早餐前就会不及格！

智能的天花板

看着这些数据，最让我震撼的不是Grok 4的成绩和数字，而是：

「Still no wall.」

依然没有撞墙。

当所有人都在讨论AI何时会触及智能的极限时，模型将要停滞时，Grok的进化曲线告诉我们：

天花板，还远得很。

每一代10倍的性能提升，从Grok 1到Grok 4，这条指数增长的曲线没有任何放缓的迹象。

更令人深思的是，Grok 4在「人类最后的考试」上拿下50.7%，这只是在没有触及任何技术瓶颈的情况下达到的。

如果智能真的没有上限，那么「人类最后的考试」这个名字就显得格外讽刺。

它可能不是人类为AI设计的最后一场考试，而是人类能够理解的最后一场考试。

最人类在AI 面前的最后一场关于智慧的战斗。

当AI的智能继续以指数级增长，而我们还在用百分制来衡量它时，谁才是真正被困在墙内的那个？

答案或许早就已经不是AI，而是我们人类自身。

[1]

Artificial Analysis完整测评: https://artificialanalysis.ai/

[2]

@MarioNawfal原推文: https://twitter.com/MarioNawfal/status/1943165222878953770

[3]

@ArtificialAnlys测评报告: https://twitter.com/ArtificialAnlys/status/1943167262397206760

[4]

@apples_jimmy详细数据: https://twitter.com/apples_jimmy/status/1943165222878953770

上一篇：GEN鏖战五场击败T1，尺帝超神金克斯，击碎Faker

下一篇：祥源文旅涨0.13%，成交额1.84亿元，近5日主力净流入-1989.88万

相关内容

热门资讯

一整局打9刀却吃了6个板子加上...

玩转AI，创意出彩！七彩虹燃爆... 近日，Bilibili World 2025在上海国家会展中心拉开帷幕，作为国内IT硬件全产业链的领...

《灰雨钢锋》封闭测试开启沉浸... 一款中欧风情古战场背景沉浸式第三人称开放世界RPG新游《灰雨钢锋》开启封闭测试，本作已经上架Stea...

月底再见《巫火》下一款大规模更... The Astronauts公布了《巫火》下一个“最大规模”更新“韦伯格雷夫”（Webgrave）的...

原创 M... 嘿，这是黑猫。我是 M1 芯片的首批用户，还记得 M1 芯片刚发布的时候，苹果号称新 Mac 不仅可...

璀璨新作 | FRED

庆祝 25 周年：《光环》游戏... IT之家 7 月 12 日消息，YouTube 频道 Rebs Gaming 在最新一期视频中，透露...

BW2025雕宅首日狂欢，技嘉... 当BW2025的热浪席卷全场，技嘉AORUS展台以一场颠覆想象的科技狂欢，为所有次元玩家镌刻下202...

见证世赛成果转化彰显技工教育... 南方日报讯（记者/杜玮淦通讯员/粤仁宣）7月11日，广东省2025年世界青年技能日首场主题活动在...

原创免... 提前一周预热的自选高招A忍活动终于是上线了，之前一直不能确定最终上线的忍者阵容，以为策划就是偷懒不想...

RNG罕见四连胜，小胖三连MV... 随着比赛的深入，无论是B组还是S组的赛事，都打得非常的紧张和激烈。毕竟，B组的战队如果不能冲击前两名...

原创《... 前几天是经典国产IP《仙剑奇侠传》的30周年纪念日，主策姚仙罕见晒出与胡歌的合照，并祝愿国产游戏早日...

这款游戏在线玩家居然有80亿如果手谈姬说你一直都生活在一款游戏里，你会相信吗？你可能信，也可能不信。不过这不是重点。今天要介...

LPL最后的火种！AL背水一战... 季中赛已经战至败者组决赛，AL将会挑战李哥率领的T1，胜者进入决赛与GEN争夺冠军。作为LPL的仅存...

荣耀小游戏沙龙成功举办，全新生... 7月10日，HGDD 荣耀开发者日·荣耀小游戏专场沙龙在广州举办。沙龙以“轻游启航，机遇无界”为主题...

“浙BA”百县大战完整版赛程来... 还有哪个浙江人没听过 “浙BA”？本届“浙BA”整个赛程分两个阶段： ◆ 7月“百县大战”预选...

中证动漫游戏指数下跌0.51%... 金融界7月11日消息，上证指数高开震荡，中证动漫游戏指数 (动漫游戏，930901)下跌0.51%，...

SE错失转型良机！前高管称游戏... Genvid首席执行官Jacob Navok曾是SE的商务总监，他表示，早在20年前，SquareE...

做完顶奢坐骑后神豪惊了：网易咋... 无论是什么游戏，都不乏一群出手阔绰的氪金大佬，对于大佬而言，花了钱那就必须享受，必须走在街头就能让人...

#游戏机 #掌上游戏机 #俄罗...