刚刚,Grok 4发布,「人类最后的考试」中拿下50.7%,碾压所有对手,游戏结束?
创始人
2025-07-10 13:56:47
0

转载自《AGI Hunt》

Grok 4来了!

并已经对X Premium+订阅者开放。

这次,不是个简单的升级。

也不再是鸽rok!

Artificial Analysis(@ArtificialAnlys)拿到了Grok 4的早期访问权限,跑完全套基准测试后得出结论:

Grok 4现在是领先的AI模型。

碾压所有对手

Artificial Analysis给出的数据展示:

Grok 4的人工智能指数达到73,超过了OpenAI o3的70分、Google Gemini 2.5 Pro的70分、Anthropic Claude 4 Opus的64分和DeepSeek R1 0528的68分。

碾压所有对手!

所有!

这是@elonmusk的@xai第一次在AI前沿领域拔得头筹

Grok 3的表现已经能与OpenAI、Anthropic和Google的最新模型相媲美,但Grok 4是第一个让xAI登顶的模型。

全方位的性能爆表

详细的基准测试结果更是让人惊叹:

关键成绩包括:

  • 在编码指数(LiveCodeBench & SciCode)和数学指数(AIME24 & MATH-500)上全面领先

  • GPQA Diamond创下88%的历史新高,超越了Gemini 2.5 Pro之前84%的纪录
  • 「人类最后的考试」得分24%,打破Gemini 2.5 Pro之前21%的最高分
  • MMLU-Pro和AIME 2024分别达到87%和94%的最高分
  • 输出速度75 tokens/s,虽然慢于o3(188 tokens/s)和Gemini 2.5 Pro(142 tokens/s),但快于Claude 4 Opus Thinking(66 tokens/s)

不只是聪明,还会唱歌

Grok 4不仅在智力测试上表现出色,还具备了更多实用功能:

  • 256k token的上下文窗口
  • 支持文本和图像输入
  • 支持函数调用和结构化输出
  • 甚至能够唱歌——这个语音功能让AI更加生动有趣

定价方面,Grok 4保持了与Grok 3相同的价格:每百万输入/输出token收费3美元/15美元(缓存输入为0.75美元/百万token)。

「人类最后的考试」上的惊人表现

回到那个终极挑战——「人类最后的考试」。

根据最新数据,Grok 4 heavy版本在这个测试上达到了50.7%的成绩:

  • 使用工具时为41%
  • 不使用工具时为26.9%

「Grok 4可能在每个学科上都达到博士水平,没有例外」

「也许今年就能发现新技术,两年内肯定能发现新物理学」

Colonel Tasty(@JoshhuaSays)分享的各学科详细得分更是让人震撼:

这就是终局吗?

Johnny West(@johnnywestt)直接宣布:

Grok 4是王者👑

Jack Shiels(@shiels_ai)惊讶地发现:

所以这还不是工具调用模型?哇!

但Hamza(@thegenioo)的反应相对冷静:

只提升了2分?

sid__(@sid009_)的评论一针见血:

AI竞赛变得有趣了。

Yorkshire Lass(@eyup_io)的感慨更接地气:

对于任何考试困难户来说,这听起来就像噩梦。我敢打赌,我们大多数人早餐前就会不及格!

智能的天花板

看着这些数据,最让我震撼的不是Grok 4的成绩和数字,而是:

「Still no wall.」

依然没有撞墙。

当所有人都在讨论AI何时会触及智能的极限时,模型将要停滞时,Grok的进化曲线告诉我们:

天花板,还远得很。

每一代10倍的性能提升,从Grok 1到Grok 4,这条指数增长的曲线没有任何放缓的迹象。

更令人深思的是,Grok 4在「人类最后的考试」上拿下50.7%,这只是在没有触及任何技术瓶颈的情况下达到的。

如果智能真的没有上限,那么「人类最后的考试」这个名字就显得格外讽刺。

它可能不是人类为AI设计的最后一场考试,而是人类能够理解的最后一场考试。

最人类在AI 面前的最后一场关于智慧的战斗。

当AI的智能继续以指数级增长,而我们还在用百分制来衡量它时,谁才是真正被困在墙内的那个?

答案或许早就已经不是AI,而是我们人类自身。

[1]

Artificial Analysis完整测评: https://artificialanalysis.ai/

[2]

@MarioNawfal原推文: https://twitter.com/MarioNawfal/status/1943165222878953770

[3]

@ArtificialAnlys测评报告: https://twitter.com/ArtificialAnlys/status/1943167262397206760

[4]

@apples_jimmy详细数据: https://twitter.com/apples_jimmy/status/1943165222878953770

相关内容

热门资讯

玩转AI,创意出彩!七彩虹燃爆... 近日,Bilibili World 2025在上海国家会展中心拉开帷幕,作为国内IT硬件全产业链的领...
《灰雨钢锋》封闭测试开启 沉浸... 一款中欧风情古战场背景沉浸式第三人称开放世界RPG新游《灰雨钢锋》开启封闭测试,本作已经上架Stea...
月底再见《巫火》下一款大规模更... The Astronauts公布了《巫火》下一个“最大规模”更新“韦伯格雷夫”(Webgrave)的...
原创 M... 嘿,这是黑猫。我是 M1 芯片的首批用户,还记得 M1 芯片刚发布的时候,苹果号称新 Mac 不仅可...
庆祝 25 周年:《光环》游戏... IT之家 7 月 12 日消息,YouTube 频道 Rebs Gaming 在最新一期视频中,透露...
BW2025雕宅首日狂欢,技嘉... 当BW2025的热浪席卷全场,技嘉AORUS展台以一场颠覆想象的科技狂欢,为所有次元玩家镌刻下202...
见证世赛成果转化 彰显技工教育... 南方日报讯 (记者/杜玮淦 通讯员/粤仁宣)7月11日,广东省2025年世界青年技能日首场主题活动在...
原创 免... 提前一周预热的自选高招A忍活动终于是上线了,之前一直不能确定最终上线的忍者阵容,以为策划就是偷懒不想...
RNG罕见四连胜,小胖三连MV... 随着比赛的深入,无论是B组还是S组的赛事,都打得非常的紧张和激烈。毕竟,B组的战队如果不能冲击前两名...
原创 《... 前几天是经典国产IP《仙剑奇侠传》的30周年纪念日,主策姚仙罕见晒出与胡歌的合照,并祝愿国产游戏早日...
这款游戏在线玩家居然有80亿 如果手谈姬说你一直都生活在一款游戏里,你会相信吗? 你可能信,也可能不信。不过这不是重点。 今天要介...
LPL最后的火种!AL背水一战... 季中赛已经战至败者组决赛,AL将会挑战李哥率领的T1,胜者进入决赛与GEN争夺冠军。作为LPL的仅存...
荣耀小游戏沙龙成功举办,全新生... 7月10日,HGDD 荣耀开发者日·荣耀小游戏专场沙龙在广州举办。沙龙以“轻游启航,机遇无界”为主题...
“浙BA”百县大战完整版赛程来... 还有哪个浙江人没听过 “浙BA”? 本届“浙BA”整个赛程分两个阶段 : ◆ 7月“百县大战”预选...
中证动漫游戏指数下跌0.51%... 金融界7月11日消息,上证指数高开震荡,中证动漫游戏指数 (动漫游戏,930901)下跌0.51%,...
SE错失转型良机!前高管称游戏... Genvid首席执行官Jacob Navok曾是SE的商务总监,他表示,早在20年前,SquareE...
做完顶奢坐骑后神豪惊了:网易咋... 无论是什么游戏,都不乏一群出手阔绰的氪金大佬,对于大佬而言,花了钱那就必须享受,必须走在街头就能让人...