神秘模型「大象」:仅100B拿下SOTA,Token效率超高!
创始人
2026-04-25 05:05:51
0

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

神秘模型Elephant的面纱,终于被揭开了。

事情是这样的。

前一阵子OpenRouters在自家官方𝕏上提到了一个神秘模型Elephant Alpha,并且给到的评价是这样的:

100B大小,在同规模模型里是SOTA,还巨省Token

话题一出,立即引来不少网友们的围观,他们纷纷开始猜测这又是哪家的模型。

不过非常微妙的一点是,这次网友们猜测的对象,统一地指向了中国大模型:

是MiniMax、Kimi、DeepSeek,还是什么新黑马?

量子位独家获悉了答案,只能说网友们猜对了一半——

确实是来自中国的模型;但玩家并未在他们给的选项里。

因为这头「大象」

,出自 蚂蚁Inclusion AI 团队之手。

很反差的一点是,「大象」不大,自带的只是100B大小、256K上下文窗口、32K输出的敏捷属性。

并且在整体体验下来之后,很直观的感受,就是它有点国产版Grok 4 Fast的味道,天生干活圣体

来,咱们这就展开一波深度实测~

干活圣体,很省Token

针对「大象」的实测,我们是在OpenRouters上的网页端来展开。

并且会取日常工作较高频的工作内容来进行测试,只为证明一件事:「大象」干活,到底行不行。

实测1:修Bug没有多余废话

对于程序员群里来说,AI写代码已经不是什么新鲜事了。

但现在比较头疼的,就是怕AI唰唰唰地写了几百行代码,一跑全报错,再让它改,它又给你唰唰唰地重新生成几百行……

不仅效率低,还很费Token。

为此,我们在这个实测环节中给「大象」先安排了一个接地气的任务:

用HTML和原生JS写一个带表单校验的活动报名页,要求包含姓名、手机号、邮箱,并且手机号必须符合中国大陆格式。

原速度展示

可以看到,「大象」在思考片刻后,以极快的速度将代码给生成了出来。

把整段代码保存为.html文件后,也是可以成功运行。

但这并不是重点,重点在于「大象」是否做到修复

于是乎,我们接下来给刚才生成好的代码来一波投毒的操作:

把JS逻辑里定义提交按钮的变量 const submitBtn = document.getElementById(‘submitBtn’) 直接删掉。

如此投毒之后,控制台必定会爆出 Uncaught ReferenceError: submitBtn is not defined 的错误。

然后我们把这份代码再喂给「大象」,并简单地附上一句:

运行报错了,找不到变量。

不同于其它大模型,「大象」特别精准地找到了问题所在,然后用极简的方式给出了解法。

也正因为这种没有多余废话的回答,直接省去了Token的无用消耗。

实测2:杂乱文档,会抓重点

代码生成和修复还只能说是程序员工作圈子里的任务,但像会议内容整理,几乎是所有职场人都需要经历的事儿。

在这项测试中,我们特意准备了一份大约3000字的会议纪要,里面充满了口语化的表述,毫无意义的重复强调、部门之间关于排期的互相扯皮,甚至还有中途某人跑题聊起中午吃什么的外卖讨论:

然后我们把文件丢给「大象」并附上一句Prompt:

忽略所有寒暄和跑题内容。请基于这3000字,严格按照以下JSON 格式(包含:结论摘要、待办清单及责任人、一封用于抄送全员的跟进邮件草稿)输出结果。

「大象」给出的整理结果可以说是一目了然。

在剔除了无用信息之后,严格按照Prompt要求的那样,把会议内容给呈现了出来。

或许单看「大象」的结果不够明显,我们为此特意拿了Gemini-2.5-Flash-Lite做了下对比:

正所谓没有对比就没有伤害。

Gemini-2.5-Flash-Lite虽然也是实现了Prompt里的结构,但很明显一点就是,太长,也就意味着更多Token的消耗。

所以「大象」在会议整理任务上,Win Again。

实测3:Agent任务,也是够快

最后的实测,我们来上一道硬菜——大火的Agent

我们用「大象」来模拟一个轻量级的Agent Loop:

读取一份包含四个月度数据的CSV销售报表 → 计算季度同比(需要调用数学逻辑) → 写一段简练的分析结论 → 自检数字是否准确。

(上下👇🏻)

从内容上来看,「大象」先是对数据做了快速分析和推理,并给出了初步结论;而后又完成了自检的工作,最终输出最终结论。

但更重要的还是速度:只思考了10秒钟、输出2秒钟

由此可见,这个只有100B大小的「大象」,是真的做到了快、准、省

而这一点,同样体现在权威榜单的评测中。

作为开发者圈层公认的模型测谎仪,AI BENCHY不看厂商宣传跑分,只聚焦指令遵循、响应速度、Token效率三大实战指标。

从AI BENCHY给出的结果来看,「大象」输出Token维持在了2500左右,说明每一分钱的API算力,都用在了刀刃上。

平均响应时间方面,「大象」平均时延被压制在了1秒左右,而其它选手则均是10-30秒的水平。

并且在最重要的输出质量上,它的一致性分数达到了9.6分(满分10分)!

因此,不论是从实测的体验,亦或是权威榜单的评测来看,「大象」已然是可以胜任日常绝大多数的工作了。

但也有不擅长的事

正所谓人无完人、模无完模。

「大象」毕竟走的是一条快、准、省的路线,所以它定然是在某些领域里有所妥协。

在我们的实测中,也发现了「大象」一些不太擅长的工作。

例如复杂长链规划,就是其中之一:

帮我主导一个出海东南亚市场的战略项目。请从市场调研开始,接着做竞品分析,然后给出渠道策略建议,最后帮我排一个半年的执行甘特图。

对于这个任务,「大象」直言无法执行。

因为它没有数据采集工具、没有分析工具、没有策略生成工具,也没有项目管理工具。

所以对于这类任务,我们不妨用大模型规划 + 「大象」执行的方式来操作。

再如,对于非常非常新的知识,「大象」也可能会心有余而力不足。

以及要求生成React 18新特性或刚更新的SDK代码时,「大象」可能会基于旧知识产生API幻觉。

所以如果你有这方面的需求,可以在Prompt中注入最新文档来解决。

最后,Prompt过于模糊,也会影响输出的质量。

例如跟「大象」说:

帮我写个好看的网页。

因此,在用「大象」的时候,我们还需切记,Prompt一定要细致、要有足够的约束力。

Agent 时代,“快、好、省”的小模型同样重要

其实,在这个时间节点发布这样一款主打智效比的模型,本身就是一种信号。

过去几年时间里,AI圈似乎都在比拼谁的模型更大、谁的训练成本更贵、谁在榜单上刷的分更高。

但行业走到今天,做加法的人太多了,需要有人站出来做减法。

因为Token浪费,已然成了行业高度重视的关键内容之一。

《财经》报道,全球企业级AI应用中,约有50%的Token正在被浪费。AI应用从对话转向执行后,Agent在复杂多轮任务中会不断累积历史文件、对话记录,大量冗余信息导致Token消耗指数级增长。

每一块钱都要花出响动,这是工程落地的铁律。而践行这条路线的,远不止百灵。

就在前不久,OpenAI连续发布了GPT-5.4 mini和GPT-5.4 nano两款小型模型,专为高频且对延迟敏感的任务设计。它们在保持了GPT-5系列优秀推理基因的前提下,实现了极高的吞吐量、极低的延迟和极具竞争力的性价比。

谷歌则通过开源小模型Gemma 4,以低成本、高推理力打入低端AI市场。Gemma 4的参数规模仅为同智力水平大模型的约二十分之一,过去需要花费上千万GPU成本才能跑动的模型,现在大概一张高阶显卡就能跑得动,成本差距将近十倍。

尤其是对于预算有限、算力资源匮乏、追求极致投入产出比的中小企业而言,无需为冗余Token支付高额算力成本,无需采购昂贵硬件部署大模型,轻量化的「大象」就能无缝承接代码开发、文档处理、数据复盘、轻量Agent执行等高频刚需工作。

在动辄消耗几十万Token的长文本办公场景中,响应压制在1秒内、少说废话的高效模型,正在成为AI从玩具跨越到生产力工具的坚实底座。

快、准、省,这三个看似接地气的字眼,正在成为AI高效上岗的标准。

相关内容

热门资讯

神秘模型「大象」:仅100B拿... 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 神秘模型Elephant的面纱,终于被揭开了。...
【维护公告】4月22日维护公告... 亲爱的少侠: 为保证服务器的稳定和提升游戏品质,天龙八部手游全区全服将于4月22日4:00~11:...
融资3400万,天胡开局却难回... 亏麻了。 文/依光流 如果拿4月新游列一个反面教材排行榜,那么《REPLACED》不是Top 1也能...
不随着时间推移而贬值的苏联美学... 文:干货游戏鉴赏组-nanke南柯 《原子之心》的最终DLC刚刚上线。三年前那个惊艳又遗憾的苏联朋克...
《斯普拉遁:涂击队》确认7月2... 不出所料,在获得PEGI游戏评级后不久,任天堂正式宣布《斯普拉遁:涂击队》将于2026年7月23日发...
游戏公司正在集体搬家 2025年10月,深圳宝安区大铲湾码头东侧,腾讯“企鹅岛”的两栋云海大厦办公楼开始试运营。腾讯游戏娱...
原创 歧... 《歧路旅人大陆的霸者》国服4月第4周猜谜日水灵灵的来了,距离2周年庆还剩下4周时间,目前无论放出什么...
原创 【... 周本奇境神炼之遗三个BOSS,前两个BOSS各一个宝箱,尾王毕方两个宝箱,建议每周练度最高时来挑战获...
又给将来留坑?乐高航海王新一波... 在乐高侏罗纪世界的下一波新套装中,沧龙和棘龙将迎来一次前所未有的“角色互换”。 这可不是简单的重涂...
巅峰对决落江城,电竞之光耀武汉... (2026年4月18日,武汉) 今日,英雄之城武汉再度成为全国电竞迷瞩目的焦点。作为2026腾讯全球...
原创 王... 王者荣耀世界和星之破晓的区别是什么?很多玩家看到这两个名字相近的游戏都会感到困惑,甚至误以为是同一款...
砸2000万玩“短命服”, 逆... 关于网游神豪大佬的传说,想必大家都听过不少,这些现实中的人生赢家来到虚拟的游戏世界,哐哐撒钱提升战力...
王者世界系统功能全解析,一分钟... 王者荣耀世界手游已于今日正式上线,这个游戏很多元素是基于王者荣耀构建的,但这些元素的叫法和用途又跟王...
《沙罗周期》试玩报告:印度猛男... “手撕包围网” 感谢邀请,我在4月8日参加了《沙罗周期》的线下试玩活动。作为Housemarque...
VCTCN:Vo0kashu临... 2026 VCT CN第一赛段常规赛,DRG 2-1战胜TE,DRG锁定O组第三! 图一:莲华古城 ...
手游大爆发的年代,这款网游偏不... 2017年的游戏圈,是手游的天下。 《王者荣耀》等爆款手游刷屏社交平台,全民碎片化娱乐成为常态,各大...
告别选秀,解锁新玩法!金铲铲「... 金铲铲之战正式迎来里程碑式更新——「星神」赛季。本次版本以浩瀚太空与诸神之争为舞台背景,不仅带来了颠...
王者荣耀世界铸龙骑士怎么打,铸... 大家好,王者荣耀世界铸龙骑士是大世界中的野外BOSS之一,在游戏中玩家需要进行战斗,战胜铸龙骑士即可...
这款DAU过千万的游戏,一年就... 4月10日,我与几十位游戏媒体的编辑坐在拳头游戏上海办公室的会议室里,每个人面前都放着一台手机,屏幕...
《王者荣耀》农场偷菜改规则了:... 快科技4月22日消息,《王者荣耀》今天将进行更新,偷菜的规则也改了。 这次改动主要针对的是偷菜次数和...